Afficher la notice abrégée

dc.contributor.advisorCrespo González Carvajal, Yania es
dc.contributor.authorPlúas Vasquez, Michelle Valeria
dc.contributor.editorUniversidad de Valladolid. Escuela de Ingeniería Informática de Valladolid es
dc.date.accessioned2025-11-12T14:15:09Z
dc.date.available2025-11-12T14:15:09Z
dc.date.issued2025
dc.identifier.urihttps://uvadoc.uva.es/handle/10324/79625
dc.description.abstractLa limpieza de datos estructurados sigue siendo un proceso costoso y difícil de automatizar cuando los valores presentan errores, ausencias o inconsistencias. Recientes avances en modelos generativos han abierto la posibilidad de utilizar predicción de lenguaje para asistir estas tareas sin depender de reglas fijas o validaciones manuales. Este trabajo comienza con una revisión del estado del arte sobre la aplicación de modelos generativos en calidad de datos. A partir de ese análisis, se adaptó un sistema base y se introdujeron errores controlados sobre un dataset clínico. Se evaluó el comportamiento de tres modelos locales ante datos con distintas alteraciones y se compararon sus salidas con los valores originales utilizando métricas por celda. Los resultados muestran que el rendimiento varía según la variable analizada y que ciertos modelos ofrecen ventajas puntuales bajo condiciones específicas. Se observaron diferencias en precisión, recuperación y coincidencia exacta entre modelos y variables. Estas variaciones ayudan a entender cómo responde cada modelo ante errores estructurados y pueden orientar decisiones en tareas de limpieza específicas.es
dc.description.abstractStructured data cleaning remains a costly process and difficult to automate when values contain errors, missing entries or inconsistencies. Recent advances in generative models have opened the possibility of using language prediction to assist these tasks without relying on fixed rules or manual validations. This work begins with a review of the state of the art on the application of generative models to data quality. Based on this analysis, a base system was adapted and controlled errors were introduced into a clinical dataset. The behavior of three local models was evaluated against different alterations in the data, and their outputs were compared with the original values using cell-level metrics. The results show that performance varies depending on the variable analyzed and that some models offer specific advantages under certain conditions. Differences were observed in precision, recall, and exact match across models and variables. These variations help to understand how each model responds to structured errors and can guide decisions in specific cleaning tasks.es
dc.description.sponsorshipDepartamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)es
dc.format.mimetypeapplication/pdfes
dc.language.isospaes
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subject.classificationCalidad de datoses
dc.subject.classificationDatos estructuradoses
dc.subject.classificationLimpieza de datoses
dc.titleEvaluación de modelos generativos on-premises para la mejora de la calidad de datos tabulareses
dc.typeinfo:eu-repo/semantics/masterThesises
dc.description.degreeMáster en Ingeniería Informáticaes
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*


Fichier(s) constituant ce document

Thumbnail

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée