<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-05-05T21:26:25Z</responseDate><request verb="GetRecord" identifier="oai:uvadoc.uva.es:10324/81700" metadataPrefix="uketd_dc">https://uvadoc.uva.es/oai/request</request><GetRecord><record><header><identifier>oai:uvadoc.uva.es:10324/81700</identifier><datestamp>2026-01-16T20:03:40Z</datestamp><setSpec>com_10324_38</setSpec><setSpec>col_10324_852</setSpec></header><metadata><uketd_dc:uketddc xmlns:uketd_dc="http://naca.central.cranfield.ac.uk/ethos-oai/2.0/" xmlns:doc="http://www.lyncode.com/xoai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:uketdterms="http://naca.central.cranfield.ac.uk/ethos-oai/terms/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xsi:schemaLocation="http://naca.central.cranfield.ac.uk/ethos-oai/2.0/ http://naca.central.cranfield.ac.uk/ethos-oai/2.0/uketd_dc.xsd">
<dc:title>Determinación del estado emocional a través del  análisis de video facial utilizando técnicas de Deep  Learning</dc:title>
<dc:creator>Falcone, Andres Nolberto</dc:creator>
<uketdterms:advisor>Fuente López, Eusebio de la</uketdterms:advisor>
<dcterms:abstract>El presente Trabajo de Fin de Grado se centra en el diseño, implementación y &#xd;
evaluación de un sistema automático para el reconocimiento del estado emocional a &#xd;
partir de vídeo facial dinámico mediante técnicas de Deep Learning. El objetivo principal &#xd;
ha sido explorar arquitecturas que integren tanto el análisis espacial como la codificación &#xd;
temporal de las expresiones faciales humanas, evaluando su rendimiento en entornos &#xd;
controlados y no controlados. &#xd;
Para ello, se han desarrollado y comparado dos enfoques complementarios: una &#xd;
arquitectura basada en Vision Transformer (ViT-B/32), integrada en el marco multimodal &#xd;
CLIP y entrenada con la base de datos DFEW; y un sistema CNN+LSTM adaptado para &#xd;
su ejecución en tiempo real con entrada desde webcam. La arquitectura ViT-B/32 ha &#xd;
sido evaluada de manera formal mediante test directo y validación cruzada con la base &#xd;
MAFW, alcanzando métricas destacadas en emociones como felicidad o tristeza. Por &#xd;
su parte, el modelo CNN+LSTM ha demostrado una operatividad estable en escenarios &#xd;
en vivo, aunque sin evaluación cuantitativa formal. &#xd;
Los resultados obtenidos demuestran la viabilidad de aplicar redes neuronales &#xd;
profundas al reconocimiento afectivo en vídeo, resaltando tanto las capacidades del &#xd;
sistema como las limitaciones asociadas a la detección de emociones ambiguas o poco &#xd;
representadas. Este trabajo sienta las bases para futuras aplicaciones en el ámbito de &#xd;
la salud, la interacción hombre-máquina y la inteligencia artificial afectiva.</dcterms:abstract>
<dcterms:abstract>This Final Degree Project focuses on the design, implementation, and evaluation of an &#xd;
automatic system for emotion recognition from dynamic facial video using Deep Learning &#xd;
techniques. The main objective was to explore architectures capable of integrating both &#xd;
spatial feature extraction and temporal encoding of human facial expressions, and to &#xd;
assess their performance in both controlled and real-world scenarios. &#xd;
To achieve this, two complementary approaches were developed and compared: a &#xd;
model based on the Vision Transformer (ViT-B/32) architecture integrated into the CLIP &#xd;
multimodal framework and trained with the DFEW dataset, and a CNN+LSTM system &#xd;
adapted for real-time inference via webcam input. The ViT-B/32 model was rigorously &#xd;
evaluated through direct testing and cross-validation on the MAFW dataset, achieving &#xd;
strong performance in well-defined emotions such as happiness or sadness. The &#xd;
CNN+LSTM model showed stable qualitative performance in real-time scenarios, &#xd;
although lacking formal quantitative evaluation due to dataset annotation constraints. &#xd;
The results confirm the feasibility of applying deep neural networks to affective &#xd;
computing in video, highlighting both the strengths of the proposed system and the &#xd;
challenges associated with recognizing ambiguous or underrepresented emotions. This &#xd;
work lays a solid foundation for future applications in fields such as healthcare, human&#xd;
machine interaction, and affective artificial intelligence.</dcterms:abstract>
<dcterms:issued>2025</dcterms:issued>
<dc:type>info:eu-repo/semantics/bachelorThesis</dc:type>
<dc:language xsi:type="dcterms:ISO639-2">spa</dc:language>
<uketdterms:sponsor>Departamento de Ingeniería de Sistemas y Automática</uketdterms:sponsor>
<dcterms:isReferencedBy>https://uvadoc.uva.es/handle/10324/81700</dcterms:isReferencedBy>
<dcterms:license>https://uvadoc.uva.es/bitstream/10324/81700/3/license.txt</dcterms:license>
<uketdterms:checksum xsi:type="uketdterms:MD5">289d98c1665ee0d20312360f0e8643c8</uketdterms:checksum>
<dc:identifier xsi:type="dcterms:URI">https://uvadoc.uva.es/bitstream/10324/81700/1/TFG-I-3334.pdf</dc:identifier>
<uketdterms:checksum xsi:type="uketdterms:MD5">7411ba3d1dee22212c83c27dd492e82c</uketdterms:checksum>
<dc:rights>Attribution-NonCommercial-NoDerivatives 4.0 Internacional</dc:rights>
</uketd_dc:uketddc></metadata></record></GetRecord></OAI-PMH>