Show simple item record

dc.contributor.authorLara-Mongil, Víctor
dc.contributor.authorTaboada-Romero, Ismael
dc.contributor.authorRodríguez Gutiez, Eduardo 
dc.contributor.authorTorres de la Sierra, Yuri 
dc.contributor.authorGonzález Escribano, Arturo 
dc.contributor.authorLlanos Ferraris, Diego Rafael 
dc.date.accessioned2024-10-23T08:08:24Z
dc.date.available2024-10-23T08:08:24Z
dc.date.issued2019
dc.identifier.citationXXX Jornadas de Paralelismo (JP 2019), Cáceres, España, 18 a 20 de septiembre de 2019es
dc.identifier.isbn978-84-09-12127-4es
dc.identifier.urihttps://uvadoc.uva.es/handle/10324/70909
dc.descriptionProducción Científicaes
dc.description.abstractLos coprocesadores de alto rendimiento, como las Unidades de Procesamiento Gráfico (GPUs), presentan un ratio alto entre rendimiento y coste jun-to con un bajo consumo de energía. Por ello, los sistemas heterogéneos que los incluyen han experimentado un crecimiento significativo. Sin embargo, la programación de estos dispositivos sigue suponiendo un reto. Uno de los problemas está relacionado con la gestión de la memoria. Estos dispositivos tiene su propio espacio de memoria y es necesario realizar costosas transferencias de datos entre la máquina anfitriona y el dispositivo. En este trabajo proponemos una novedosa solución en tiempo de ejecución que analiza las dependencias de las diferentes transferencia de datos, ejecución de kernels y operaciones de host, solapándolas, en la medida de lo posible, de forma automática. Esta solución puede ocultar las latencias de forma transparente, mejorando significativamente el rendimiento de la aplicación. La técnica propuesta está implementada en el modelo de programación de Controllers para plataformas heterogéneas. Presentamos un estudio experimental que compara programas desarrollados utilizando nuestra solución con programas desarrollados con CUDA y OpenCL. Las versiones implementadas consideran tanto transferencias síncronas como asíncronas. El estudio muestra que la abstracción propuesta introduce un sobrecoste despreciable, mientras que mejora el tiempo de ejecución y reduce el esfuerzo de desarrollo del pro-grama, evitando el uso explícito de mecanismo de asincronía. Los resultados ofrecen hasta un 44.6% de reducción del tiempo de ejecución de una aplicación real de retransmisión de vídeo, debido al solapamiento de las transferencias de datos y la ejecución de los kernels.es
dc.format.extent10 p.es
dc.format.mimetypeapplication/pdfes
dc.language.isospaes
dc.publisherServicio de Publicaciones de la Universidad de Extremaduraes
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
dc.subjectInformáticaes
dc.subject.classificationComputación heterogéneaes
dc.subject.classificationSistemas en tiempo de ejecuciónes
dc.subject.classificationOcultación de latenciaes
dc.subject.classificationEjecución asíncronaes
dc.titleTransferencias de datos asíncronas y transparentes en plataformas heterogéneases
dc.typeinfo:eu-repo/semantics/conferenceObjectes
dc.identifier.doi10.5281/zenodo.11213369es
dc.relation.publisherversionhttps://dehesa.unex.es/handle/10662/9626es
dc.title.eventXXX Jornadas de Paralelismo (JP 2019)es
dc.type.hasVersioninfo:eu-repo/semantics/publishedVersiones
dc.subject.unesco1203 Ciencia de Los Ordenadoreses
dc.subject.unesco3304 Tecnología de Los Ordenadoreses


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record