<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-04-23T17:56:41Z</responseDate><request verb="GetRecord" identifier="oai:uvadoc.uva.es:10324/81700" metadataPrefix="mods">https://uvadoc.uva.es/oai/request</request><GetRecord><record><header><identifier>oai:uvadoc.uva.es:10324/81700</identifier><datestamp>2026-01-16T20:03:40Z</datestamp><setSpec>com_10324_38</setSpec><setSpec>col_10324_852</setSpec></header><metadata><mods:mods xmlns:mods="http://www.loc.gov/mods/v3" xmlns:doc="http://www.lyncode.com/xoai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-1.xsd">
<mods:name>
<mods:namePart>Falcone, Andres Nolberto</mods:namePart>
</mods:name>
<mods:extension>
<mods:dateAvailable encoding="iso8601">2026-01-16T15:29:58Z</mods:dateAvailable>
</mods:extension>
<mods:extension>
<mods:dateAccessioned encoding="iso8601">2026-01-16T15:29:58Z</mods:dateAccessioned>
</mods:extension>
<mods:originInfo>
<mods:dateIssued encoding="iso8601">2025</mods:dateIssued>
</mods:originInfo>
<mods:identifier type="uri">https://uvadoc.uva.es/handle/10324/81700</mods:identifier>
<mods:abstract>El presente Trabajo de Fin de Grado se centra en el diseño, implementación y &#xd;
evaluación de un sistema automático para el reconocimiento del estado emocional a &#xd;
partir de vídeo facial dinámico mediante técnicas de Deep Learning. El objetivo principal &#xd;
ha sido explorar arquitecturas que integren tanto el análisis espacial como la codificación &#xd;
temporal de las expresiones faciales humanas, evaluando su rendimiento en entornos &#xd;
controlados y no controlados. &#xd;
Para ello, se han desarrollado y comparado dos enfoques complementarios: una &#xd;
arquitectura basada en Vision Transformer (ViT-B/32), integrada en el marco multimodal &#xd;
CLIP y entrenada con la base de datos DFEW; y un sistema CNN+LSTM adaptado para &#xd;
su ejecución en tiempo real con entrada desde webcam. La arquitectura ViT-B/32 ha &#xd;
sido evaluada de manera formal mediante test directo y validación cruzada con la base &#xd;
MAFW, alcanzando métricas destacadas en emociones como felicidad o tristeza. Por &#xd;
su parte, el modelo CNN+LSTM ha demostrado una operatividad estable en escenarios &#xd;
en vivo, aunque sin evaluación cuantitativa formal. &#xd;
Los resultados obtenidos demuestran la viabilidad de aplicar redes neuronales &#xd;
profundas al reconocimiento afectivo en vídeo, resaltando tanto las capacidades del &#xd;
sistema como las limitaciones asociadas a la detección de emociones ambiguas o poco &#xd;
representadas. Este trabajo sienta las bases para futuras aplicaciones en el ámbito de &#xd;
la salud, la interacción hombre-máquina y la inteligencia artificial afectiva.</mods:abstract>
<mods:abstract>This Final Degree Project focuses on the design, implementation, and evaluation of an &#xd;
automatic system for emotion recognition from dynamic facial video using Deep Learning &#xd;
techniques. The main objective was to explore architectures capable of integrating both &#xd;
spatial feature extraction and temporal encoding of human facial expressions, and to &#xd;
assess their performance in both controlled and real-world scenarios. &#xd;
To achieve this, two complementary approaches were developed and compared: a &#xd;
model based on the Vision Transformer (ViT-B/32) architecture integrated into the CLIP &#xd;
multimodal framework and trained with the DFEW dataset, and a CNN+LSTM system &#xd;
adapted for real-time inference via webcam input. The ViT-B/32 model was rigorously &#xd;
evaluated through direct testing and cross-validation on the MAFW dataset, achieving &#xd;
strong performance in well-defined emotions such as happiness or sadness. The &#xd;
CNN+LSTM model showed stable qualitative performance in real-time scenarios, &#xd;
although lacking formal quantitative evaluation due to dataset annotation constraints. &#xd;
The results confirm the feasibility of applying deep neural networks to affective &#xd;
computing in video, highlighting both the strengths of the proposed system and the &#xd;
challenges associated with recognizing ambiguous or underrepresented emotions. This &#xd;
work lays a solid foundation for future applications in fields such as healthcare, human&#xd;
machine interaction, and affective artificial intelligence.</mods:abstract>
<mods:language>
<mods:languageTerm>spa</mods:languageTerm>
</mods:language>
<mods:accessCondition type="useAndReproduction">info:eu-repo/semantics/openAccess</mods:accessCondition>
<mods:accessCondition type="useAndReproduction">http://creativecommons.org/licenses/by-nc-nd/4.0/</mods:accessCondition>
<mods:accessCondition type="useAndReproduction">Attribution-NonCommercial-NoDerivatives 4.0 Internacional</mods:accessCondition>
<mods:titleInfo>
<mods:title>Determinación del estado emocional a través del  análisis de video facial utilizando técnicas de Deep  Learning</mods:title>
</mods:titleInfo>
<mods:genre>info:eu-repo/semantics/bachelorThesis</mods:genre>
</mods:mods></metadata></record></GetRecord></OAI-PMH>