• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Listar

    Todo UVaDOCComunidadesPor fecha de publicaciónAutoresMateriasTítulos

    Mi cuenta

    Acceder

    Estadísticas

    Ver Estadísticas de uso

    Compartir

    Ver ítem 
    •   UVaDOC Principal
    • TRABAJOS FIN DE ESTUDIOS
    • Trabajos Fin de Grado UVa
    • Ver ítem
    •   UVaDOC Principal
    • TRABAJOS FIN DE ESTUDIOS
    • Trabajos Fin de Grado UVa
    • Ver ítem
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/81700

    Título
    Determinación del estado emocional a través del análisis de video facial utilizando técnicas de Deep Learning
    Autor
    Falcone, Andres Nolberto
    Director o Tutor
    Fuente López, Eusebio de laAutoridad UVA
    Editor
    Universidad de Valladolid. Escuela de Ingenierías IndustrialesAutoridad UVA
    Año del Documento
    2025
    Titulación
    Grado en Ingeniería en Electrónica Industrial y Automática
    Resumen
    El presente Trabajo de Fin de Grado se centra en el diseño, implementación y evaluación de un sistema automático para el reconocimiento del estado emocional a partir de vídeo facial dinámico mediante técnicas de Deep Learning. El objetivo principal ha sido explorar arquitecturas que integren tanto el análisis espacial como la codificación temporal de las expresiones faciales humanas, evaluando su rendimiento en entornos controlados y no controlados. Para ello, se han desarrollado y comparado dos enfoques complementarios: una arquitectura basada en Vision Transformer (ViT-B/32), integrada en el marco multimodal CLIP y entrenada con la base de datos DFEW; y un sistema CNN+LSTM adaptado para su ejecución en tiempo real con entrada desde webcam. La arquitectura ViT-B/32 ha sido evaluada de manera formal mediante test directo y validación cruzada con la base MAFW, alcanzando métricas destacadas en emociones como felicidad o tristeza. Por su parte, el modelo CNN+LSTM ha demostrado una operatividad estable en escenarios en vivo, aunque sin evaluación cuantitativa formal. Los resultados obtenidos demuestran la viabilidad de aplicar redes neuronales profundas al reconocimiento afectivo en vídeo, resaltando tanto las capacidades del sistema como las limitaciones asociadas a la detección de emociones ambiguas o poco representadas. Este trabajo sienta las bases para futuras aplicaciones en el ámbito de la salud, la interacción hombre-máquina y la inteligencia artificial afectiva.
     
    This Final Degree Project focuses on the design, implementation, and evaluation of an automatic system for emotion recognition from dynamic facial video using Deep Learning techniques. The main objective was to explore architectures capable of integrating both spatial feature extraction and temporal encoding of human facial expressions, and to assess their performance in both controlled and real-world scenarios. To achieve this, two complementary approaches were developed and compared: a model based on the Vision Transformer (ViT-B/32) architecture integrated into the CLIP multimodal framework and trained with the DFEW dataset, and a CNN+LSTM system adapted for real-time inference via webcam input. The ViT-B/32 model was rigorously evaluated through direct testing and cross-validation on the MAFW dataset, achieving strong performance in well-defined emotions such as happiness or sadness. The CNN+LSTM model showed stable qualitative performance in real-time scenarios, although lacking formal quantitative evaluation due to dataset annotation constraints. The results confirm the feasibility of applying deep neural networks to affective computing in video, highlighting both the strengths of the proposed system and the challenges associated with recognizing ambiguous or underrepresented emotions. This work lays a solid foundation for future applications in fields such as healthcare, human machine interaction, and affective artificial intelligence.
    Materias Unesco
    3311.01 Tecnología de la Automatización
    Palabras Clave
    Reconocimiento emocional
    Vídeo facial
    Aprendizaje profundo
    Vision Transformer
    CNN-LSTM
    Departamento
    Departamento de Ingeniería de Sistemas y Automática
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/81700
    Derechos
    openAccess
    Aparece en las colecciones
    • Trabajos Fin de Grado UVa [33276]
    Mostrar el registro completo del ítem
    Ficheros en el ítem
    Nombre:
    TFG-I-3334.pdf
    Tamaño:
    2.366Mb
    Formato:
    Adobe PDF
    Thumbnail
    Visualizar/Abrir
    Attribution-NonCommercial-NoDerivatives 4.0 InternacionalLa licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10