Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/81700
Título
Determinación del estado emocional a través del análisis de video facial utilizando técnicas de Deep Learning
Autor
Director o Tutor
Año del Documento
2025
Titulación
Grado en Ingeniería en Electrónica Industrial y Automática
Résumé
El presente Trabajo de Fin de Grado se centra en el diseño, implementación y
evaluación de un sistema automático para el reconocimiento del estado emocional a
partir de vídeo facial dinámico mediante técnicas de Deep Learning. El objetivo principal
ha sido explorar arquitecturas que integren tanto el análisis espacial como la codificación
temporal de las expresiones faciales humanas, evaluando su rendimiento en entornos
controlados y no controlados.
Para ello, se han desarrollado y comparado dos enfoques complementarios: una
arquitectura basada en Vision Transformer (ViT-B/32), integrada en el marco multimodal
CLIP y entrenada con la base de datos DFEW; y un sistema CNN+LSTM adaptado para
su ejecución en tiempo real con entrada desde webcam. La arquitectura ViT-B/32 ha
sido evaluada de manera formal mediante test directo y validación cruzada con la base
MAFW, alcanzando métricas destacadas en emociones como felicidad o tristeza. Por
su parte, el modelo CNN+LSTM ha demostrado una operatividad estable en escenarios
en vivo, aunque sin evaluación cuantitativa formal.
Los resultados obtenidos demuestran la viabilidad de aplicar redes neuronales
profundas al reconocimiento afectivo en vídeo, resaltando tanto las capacidades del
sistema como las limitaciones asociadas a la detección de emociones ambiguas o poco
representadas. Este trabajo sienta las bases para futuras aplicaciones en el ámbito de
la salud, la interacción hombre-máquina y la inteligencia artificial afectiva. This Final Degree Project focuses on the design, implementation, and evaluation of an
automatic system for emotion recognition from dynamic facial video using Deep Learning
techniques. The main objective was to explore architectures capable of integrating both
spatial feature extraction and temporal encoding of human facial expressions, and to
assess their performance in both controlled and real-world scenarios.
To achieve this, two complementary approaches were developed and compared: a
model based on the Vision Transformer (ViT-B/32) architecture integrated into the CLIP
multimodal framework and trained with the DFEW dataset, and a CNN+LSTM system
adapted for real-time inference via webcam input. The ViT-B/32 model was rigorously
evaluated through direct testing and cross-validation on the MAFW dataset, achieving
strong performance in well-defined emotions such as happiness or sadness. The
CNN+LSTM model showed stable qualitative performance in real-time scenarios,
although lacking formal quantitative evaluation due to dataset annotation constraints.
The results confirm the feasibility of applying deep neural networks to affective
computing in video, highlighting both the strengths of the proposed system and the
challenges associated with recognizing ambiguous or underrepresented emotions. This
work lays a solid foundation for future applications in fields such as healthcare, human
machine interaction, and affective artificial intelligence.
Materias Unesco
3311.01 Tecnología de la Automatización
Palabras Clave
Reconocimiento emocional
Vídeo facial
Aprendizaje profundo
Vision Transformer
CNN-LSTM
Departamento
Departamento de Ingeniería de Sistemas y Automática
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Grado UVa [33276]
Fichier(s) constituant ce document
Excepté là où spécifié autrement, la license de ce document est décrite en tant que Attribution-NonCommercial-NoDerivatives 4.0 Internacional









