• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Listar

    Todo UVaDOCComunidadesPor fecha de publicaciónAutoresMateriasTítulos

    Mi cuenta

    Acceder

    Estadísticas

    Ver Estadísticas de uso

    Compartir

    Ver ítem 
    •   UVaDOC Principal
    • TRABAJOS FIN DE ESTUDIOS
    • Trabajos Fin de Grado UVa
    • Ver ítem
    •   UVaDOC Principal
    • TRABAJOS FIN DE ESTUDIOS
    • Trabajos Fin de Grado UVa
    • Ver ítem
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/57377

    Título
    Reconocimiento de la actividad humana mediante aprendizaje profundo en imágenes de vídeo y sobre dataset multimodal
    Autor
    González de Diego, Ángela
    Director o Tutor
    Martínez Zarzuela, MarioAutoridad UVA
    Editor
    Universidad de Valladolid. Escuela Técnica Superior de Ingenieros de TelecomunicaciónAutoridad UVA
    Año del Documento
    2022
    Titulación
    Grado en Ingeniería de Tecnologías de Telecomunicación
    Resumen
    El campo del Reconocimiento de la Actividad Humana (HAR) se encuentra en auge debido a la creciente demanda de análisis de vídeo aplicado al ámbito médico. No obstante, la tarea de predicción de actividades en una secuencia de vídeo no es trivial, puesto que existen numerosos factores como la iluminación o el ángulo de captura, que afectan al reconocimiento. El objetivo del trabajo es poder realizar este Reconocimiento de la Actividad Humana haciendo uso de Aprendizaje Profundo (Deep Learning), más concretamente, mediante una Red Neuronal. La red utilizada permite ejercer la tarea de clasificación de secuencias de imágenes. Para la extracción de características de las imágenes se emplean capas convolucionales 3D, asimismo, se emplean bloques residuales para mitigar el problema del desvanecimiento de gradiente observado en redes con un elevado número de capas. Trabajos previos han realizado estimación de poses de las mismas secuencias de vídeo, así como han llevado a cabo el HAR mediante Aprendizaje Profundo haciendo uso de datos provenientes de sensores. Debido al aumento en el uso de sistemas de captura ópticos para la adquisición de datos, han surgido grandes datasets de refencia. No obstante, el trabajo se centra en el reconocimiento de actividades con relevancia en el ámbito médico, razón por la cual se ha hecho uso del dataset adquirido por el grupo de investigación. En consecuencia, se ha llevado a cabo el reconocimiento de 13 actividades realizadas por 37 sujetos diferentes. El entrenamiento de la red para dicho dataset ha sido realizado tanto desde cero, como mediante el uso de transfer learning. Se ha observado como el empleo de un modelo pre-entrenado permite llegar al punto de convergencia de la red más rápidamente, ahorrando además capacidad computacional. Además, se muestran las dificultades del reconocimiento de datos provenientes de sistemas de captura ópticos, como son la dificultad en clasificación de actividades con movimiento reducido, o actividades bimanuales.
     
    Human Activity Recognition (HAR) has garnered a lot of attention due to the growing demand for video analysis applied to the medical field. However, the task of predicting activities in video sequences is not trivial, since there are numerous factors that affect the recognition, such as lighting or the viewpoint. The purpose of this work is to carry out Human Activity Recognition using Deep Learning, more specifically, through Neural Networks. The network performs the task of classifying image sequences. 3D convolutional layers are used to extract image features, and residual blocks are used to mitigate the problem of gradient vanishing observed in networks with a large number of layers. Previous works have estimated poses in the same video sequences that were employed. Moreover, they have also carried out HAR through Deep Learning using data acquired from sensors. Due to the growing popularity of optical capture systems for data acquisition, a large number of benchmark datasets have emerged. Nevertheless, this work focuses on the recognition of activities relevant in the medical field, consecuently, the dataset employed has been the one acquired by the research group. Therefore, 13 activities carried out by 37 different subjects have been classified. The network’s training has been conducted both from scratch, and by transferring learning from a previously trained model. It has been observed how the use of a pre-trained model allows reaching convergence faster, thus saving computational cost. In addition, the results exhibit the limitations of recognizing data from optical capture systems, such as the difficulty of classifying activities with reduced movement, or bimanual activities.
    Palabras Clave
    Aprendizaje profundo
    Redes neuronales
    TAO Toolkit
    Departamento
    Departamento de Teoría de la Señal y Comunicaciones e Ingeniería Telemática
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/57377
    Derechos
    openAccess
    Aparece en las colecciones
    • Trabajos Fin de Grado UVa [30838]
    Mostrar el registro completo del ítem
    Ficheros en el ítem
    Nombre:
    TFG-G5860.pdf
    Tamaño:
    2.870Mb
    Formato:
    Adobe PDF
    Thumbnail
    Visualizar/Abrir
    Attribution-NonCommercial-NoDerivatives 4.0 InternacionalLa licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10