<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-04-27T19:47:34Z</responseDate><request verb="GetRecord" identifier="oai:uvadoc.uva.es:10324/81700" metadataPrefix="rdf">https://uvadoc.uva.es/oai/request</request><GetRecord><record><header><identifier>oai:uvadoc.uva.es:10324/81700</identifier><datestamp>2026-01-16T20:03:40Z</datestamp><setSpec>com_10324_38</setSpec><setSpec>col_10324_852</setSpec></header><metadata><rdf:RDF xmlns:rdf="http://www.openarchives.org/OAI/2.0/rdf/" xmlns:doc="http://www.lyncode.com/xoai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ds="http://dspace.org/ds/elements/1.1/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:ow="http://www.ontoweb.org/ontology/1#" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/rdf/ http://www.openarchives.org/OAI/2.0/rdf.xsd">
<ow:Publication rdf:about="oai:uvadoc.uva.es:10324/81700">
<dc:title>Determinación del estado emocional a través del  análisis de video facial utilizando técnicas de Deep  Learning</dc:title>
<dc:creator>Falcone, Andres Nolberto</dc:creator>
<dc:contributor>Fuente López, Eusebio de la</dc:contributor>
<dc:contributor>Universidad de Valladolid. Escuela de Ingenierías Industriales</dc:contributor>
<dc:description>El presente Trabajo de Fin de Grado se centra en el diseño, implementación y &#xd;
evaluación de un sistema automático para el reconocimiento del estado emocional a &#xd;
partir de vídeo facial dinámico mediante técnicas de Deep Learning. El objetivo principal &#xd;
ha sido explorar arquitecturas que integren tanto el análisis espacial como la codificación &#xd;
temporal de las expresiones faciales humanas, evaluando su rendimiento en entornos &#xd;
controlados y no controlados. &#xd;
Para ello, se han desarrollado y comparado dos enfoques complementarios: una &#xd;
arquitectura basada en Vision Transformer (ViT-B/32), integrada en el marco multimodal &#xd;
CLIP y entrenada con la base de datos DFEW; y un sistema CNN+LSTM adaptado para &#xd;
su ejecución en tiempo real con entrada desde webcam. La arquitectura ViT-B/32 ha &#xd;
sido evaluada de manera formal mediante test directo y validación cruzada con la base &#xd;
MAFW, alcanzando métricas destacadas en emociones como felicidad o tristeza. Por &#xd;
su parte, el modelo CNN+LSTM ha demostrado una operatividad estable en escenarios &#xd;
en vivo, aunque sin evaluación cuantitativa formal. &#xd;
Los resultados obtenidos demuestran la viabilidad de aplicar redes neuronales &#xd;
profundas al reconocimiento afectivo en vídeo, resaltando tanto las capacidades del &#xd;
sistema como las limitaciones asociadas a la detección de emociones ambiguas o poco &#xd;
representadas. Este trabajo sienta las bases para futuras aplicaciones en el ámbito de &#xd;
la salud, la interacción hombre-máquina y la inteligencia artificial afectiva.</dc:description>
<dc:description>This Final Degree Project focuses on the design, implementation, and evaluation of an &#xd;
automatic system for emotion recognition from dynamic facial video using Deep Learning &#xd;
techniques. The main objective was to explore architectures capable of integrating both &#xd;
spatial feature extraction and temporal encoding of human facial expressions, and to &#xd;
assess their performance in both controlled and real-world scenarios. &#xd;
To achieve this, two complementary approaches were developed and compared: a &#xd;
model based on the Vision Transformer (ViT-B/32) architecture integrated into the CLIP &#xd;
multimodal framework and trained with the DFEW dataset, and a CNN+LSTM system &#xd;
adapted for real-time inference via webcam input. The ViT-B/32 model was rigorously &#xd;
evaluated through direct testing and cross-validation on the MAFW dataset, achieving &#xd;
strong performance in well-defined emotions such as happiness or sadness. The &#xd;
CNN+LSTM model showed stable qualitative performance in real-time scenarios, &#xd;
although lacking formal quantitative evaluation due to dataset annotation constraints. &#xd;
The results confirm the feasibility of applying deep neural networks to affective &#xd;
computing in video, highlighting both the strengths of the proposed system and the &#xd;
challenges associated with recognizing ambiguous or underrepresented emotions. This &#xd;
work lays a solid foundation for future applications in fields such as healthcare, human&#xd;
machine interaction, and affective artificial intelligence.</dc:description>
<dc:date>2026-01-16T15:29:58Z</dc:date>
<dc:date>2026-01-16T15:29:58Z</dc:date>
<dc:date>2025</dc:date>
<dc:type>info:eu-repo/semantics/bachelorThesis</dc:type>
<dc:identifier>https://uvadoc.uva.es/handle/10324/81700</dc:identifier>
<dc:language>spa</dc:language>
<dc:rights>info:eu-repo/semantics/openAccess</dc:rights>
<dc:rights>http://creativecommons.org/licenses/by-nc-nd/4.0/</dc:rights>
<dc:rights>Attribution-NonCommercial-NoDerivatives 4.0 Internacional</dc:rights>
</ow:Publication>
</rdf:RDF></metadata></record></GetRecord></OAI-PMH>