2026-04-30T05:19:19Zhttps://uvadoc.uva.es/oai/request

oai:uvadoc.uva.es:10324/817002026-01-16T20:03:40Zcom_10324_38col_10324_852

Determinación del estado emocional a través del análisis de video facial utilizando técnicas de Deep Learning Falcone, Andres Nolberto Fuente López, Eusebio de la Universidad de Valladolid. Escuela de Ingenierías Industriales El presente Trabajo de Fin de Grado se centra en el diseño, implementación y evaluación de un sistema automático para el reconocimiento del estado emocional a partir de vídeo facial dinámico mediante técnicas de Deep Learning. El objetivo principal ha sido explorar arquitecturas que integren tanto el análisis espacial como la codificación temporal de las expresiones faciales humanas, evaluando su rendimiento en entornos controlados y no controlados. Para ello, se han desarrollado y comparado dos enfoques complementarios: una arquitectura basada en Vision Transformer (ViT-B/32), integrada en el marco multimodal CLIP y entrenada con la base de datos DFEW; y un sistema CNN+LSTM adaptado para su ejecución en tiempo real con entrada desde webcam. La arquitectura ViT-B/32 ha sido evaluada de manera formal mediante test directo y validación cruzada con la base MAFW, alcanzando métricas destacadas en emociones como felicidad o tristeza. Por su parte, el modelo CNN+LSTM ha demostrado una operatividad estable en escenarios en vivo, aunque sin evaluación cuantitativa formal. Los resultados obtenidos demuestran la viabilidad de aplicar redes neuronales profundas al reconocimiento afectivo en vídeo, resaltando tanto las capacidades del sistema como las limitaciones asociadas a la detección de emociones ambiguas o poco representadas. Este trabajo sienta las bases para futuras aplicaciones en el ámbito de la salud, la interacción hombre-máquina y la inteligencia artificial afectiva. This Final Degree Project focuses on the design, implementation, and evaluation of an automatic system for emotion recognition from dynamic facial video using Deep Learning techniques. The main objective was to explore architectures capable of integrating both spatial feature extraction and temporal encoding of human facial expressions, and to assess their performance in both controlled and real-world scenarios. To achieve this, two complementary approaches were developed and compared: a model based on the Vision Transformer (ViT-B/32) architecture integrated into the CLIP multimodal framework and trained with the DFEW dataset, and a CNN+LSTM system adapted for real-time inference via webcam input. The ViT-B/32 model was rigorously evaluated through direct testing and cross-validation on the MAFW dataset, achieving strong performance in well-defined emotions such as happiness or sadness. The CNN+LSTM model showed stable qualitative performance in real-time scenarios, although lacking formal quantitative evaluation due to dataset annotation constraints. The results confirm the feasibility of applying deep neural networks to affective computing in video, highlighting both the strengths of the proposed system and the challenges associated with recognizing ambiguous or underrepresented emotions. This work lays a solid foundation for future applications in fields such as healthcare, human machine interaction, and affective artificial intelligence. 2026-01-16T15:29:58Z 2026-01-16T15:29:58Z 2025 info:eu-repo/semantics/bachelorThesis https://uvadoc.uva.es/handle/10324/81700 spa info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-nd/4.0/ Attribution-NonCommercial-NoDerivatives 4.0 Internacional