Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/49995
Título
Implementación de una herramienta basada en PLN para la detección y anonimización de datos personales en documentos
Autor
Director o Tutor
Año del Documento
2021
Titulación
Máster en Inteligencia de Negocio y Big Data en Entornos Seguros / Business Intelligence and Big Data in Cyber-Secure Environments
Resumen
En los últimos años, el avance en el campo del Aprendizaje Automático,
unido a las mejoras del hardware, y al aumento del volumen de los datos,
ha motivado la utilización de técnicas de aprendizaje que empleen estos
datos para automatizar procesos o extraer conocimiento a partir de
los mismos. Desde el punto de vista del campo del Procesamiento del
Lenguaje Natural (PLN), la utilización de los datos para generar nuevos
modelos se encuentra afectada debido a la existencia de información
de carácter personal en los mismos. Esto, unido a la fuerte legislación
vigente sobre la Protección de Datos, hace que las administraciones y
organizaciones deban tener una mayor precaución y control a la hora
de utilizar o compartir documentos en los que se aparezca información
personal.
El presente Trabajo Fin de Máster aborda la problemática de la
detección y anonimización de entidades personales existentes en documentos
administrativos (permisos, inspecciones, convenios, etc). En la línea
con lo anterior, el proyecto plantea una propuesta genérica y eficiente de
pipeline enfocada a la anonimización y generación de reemplazos para las
entidades detectadas. Esta propuesta busca no solo poder ser empleada
para detectar y anonimizar entidades en este tipo de documentos, sino
que pretende ser una solución genérica para abordar la problemática de la
detección y anonimización de entidades en cualquier tipo de documentos. In recent years, progress in the area of Machine Learning, together
with hardware improvements, and the increase in the volume of data,
has motivated the use of learning techniques that use this data to
automate processes or extract knowledge. From the point of view of
Natural Language Processing (NLP), the use of data to generate new
models is affected by the existence of personal information in them.
This, combined with the strong legislation in force on Data Protection,
means that administrations and organizations must be more cautious and
have greater control when using or sharing documents which personal
information appears.
This Master Thesis addresses the problem of detection and anonymization
of personal entities in administrative documents (permits, inspections,
agreements, etc.). In addition, the project presents a generic and efficient
proposal of pipeline focused on the anonymization and generation of
replacements for the detected entities. This proposal aims not only to
be used to detect and anonymize entities in this type of documents, but
also to be a generic solution to address the problem of detecting and
anonymizing entities in any type of documents.
Palabras Clave
Aprendizaje automático
Procesamiento de lenguaje natural
Anonimización
Departamento
Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Máster UVa [6880]
Ficheros en el ítem
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional