Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/79625
Título
Evaluación de modelos generativos on-premises para la mejora de la calidad de datos tabulares
Director o Tutor
Año del Documento
2025
Titulación
Máster en Ingeniería Informática
Abstract
La limpieza de datos estructurados sigue siendo un proceso costoso y difícil de automatizar cuando los valores presentan errores, ausencias o inconsistencias. Recientes
avances en modelos generativos han abierto la posibilidad de utilizar predicción de
lenguaje para asistir estas tareas sin depender de reglas fijas o validaciones manuales.
Este trabajo comienza con una revisión del estado del arte sobre la aplicación
de modelos generativos en calidad de datos. A partir de ese análisis, se adaptó un
sistema base y se introdujeron errores controlados sobre un dataset clínico. Se evaluó
el comportamiento de tres modelos locales ante datos con distintas alteraciones y se
compararon sus salidas con los valores originales utilizando métricas por celda.
Los resultados muestran que el rendimiento varía según la variable analizada
y que ciertos modelos ofrecen ventajas puntuales bajo condiciones específicas. Se
observaron diferencias en precisión, recuperación y coincidencia exacta entre modelos
y variables. Estas variaciones ayudan a entender cómo responde cada modelo ante
errores estructurados y pueden orientar decisiones en tareas de limpieza específicas. Structured data cleaning remains a costly process and difficult to automate
when values contain errors, missing entries or inconsistencies. Recent advances in
generative models have opened the possibility of using language prediction to assist
these tasks without relying on fixed rules or manual validations.
This work begins with a review of the state of the art on the application of
generative models to data quality. Based on this analysis, a base system was adapted
and controlled errors were introduced into a clinical dataset. The behavior of three
local models was evaluated against different alterations in the data, and their outputs
were compared with the original values using cell-level metrics.
The results show that performance varies depending on the variable analyzed
and that some models offer specific advantages under certain conditions. Differences
were observed in precision, recall, and exact match across models and variables.
These variations help to understand how each model responds to structured errors
and can guide decisions in specific cleaning tasks.
Palabras Clave
Calidad de datos
Datos estructurados
Limpieza de datos
Departamento
Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Máster UVa [7566]
Files in questo item
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional









