• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Ricerca

    Tutto UVaDOCArchiviData di pubblicazioneAutoriSoggettiTitoli

    My Account

    Login

    Estadísticas

    Ver Estadísticas de uso

    Compartir

    Mostra Item 
    •   UVaDOC Home
    • PROGETTI DI LAUREA FINALE
    • Trabajos Fin de Máster UVa
    • Mostra Item
    •   UVaDOC Home
    • PROGETTI DI LAUREA FINALE
    • Trabajos Fin de Máster UVa
    • Mostra Item
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/79625

    Título
    Evaluación de modelos generativos on-premises para la mejora de la calidad de datos tabulares
    Autor
    Plúas Vasquez, Michelle Valeria
    Director o Tutor
    Crespo González Carvajal, YaniaAutoridad UVA
    Editor
    Universidad de Valladolid. Escuela de Ingeniería Informática de ValladolidAutoridad UVA
    Año del Documento
    2025
    Titulación
    Máster en Ingeniería Informática
    Abstract
    La limpieza de datos estructurados sigue siendo un proceso costoso y difícil de automatizar cuando los valores presentan errores, ausencias o inconsistencias. Recientes avances en modelos generativos han abierto la posibilidad de utilizar predicción de lenguaje para asistir estas tareas sin depender de reglas fijas o validaciones manuales. Este trabajo comienza con una revisión del estado del arte sobre la aplicación de modelos generativos en calidad de datos. A partir de ese análisis, se adaptó un sistema base y se introdujeron errores controlados sobre un dataset clínico. Se evaluó el comportamiento de tres modelos locales ante datos con distintas alteraciones y se compararon sus salidas con los valores originales utilizando métricas por celda. Los resultados muestran que el rendimiento varía según la variable analizada y que ciertos modelos ofrecen ventajas puntuales bajo condiciones específicas. Se observaron diferencias en precisión, recuperación y coincidencia exacta entre modelos y variables. Estas variaciones ayudan a entender cómo responde cada modelo ante errores estructurados y pueden orientar decisiones en tareas de limpieza específicas.
     
    Structured data cleaning remains a costly process and difficult to automate when values contain errors, missing entries or inconsistencies. Recent advances in generative models have opened the possibility of using language prediction to assist these tasks without relying on fixed rules or manual validations. This work begins with a review of the state of the art on the application of generative models to data quality. Based on this analysis, a base system was adapted and controlled errors were introduced into a clinical dataset. The behavior of three local models was evaluated against different alterations in the data, and their outputs were compared with the original values using cell-level metrics. The results show that performance varies depending on the variable analyzed and that some models offer specific advantages under certain conditions. Differences were observed in precision, recall, and exact match across models and variables. These variations help to understand how each model responds to structured errors and can guide decisions in specific cleaning tasks.
    Palabras Clave
    Calidad de datos
    Datos estructurados
    Limpieza de datos
    Departamento
    Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/79625
    Derechos
    openAccess
    Aparece en las colecciones
    • Trabajos Fin de Máster UVa [7566]
    Mostra tutti i dati dell'item
    Files in questo item
    Nombre:
    TFM-G2280.pdf
    Tamaño:
    2.222Mb
    Formato:
    Adobe PDF
    Thumbnail
    Mostra/Apri
    Attribution-NonCommercial-NoDerivatives 4.0 InternacionalLa licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10