Implementación de técnicas de RAG (Retrieval Augmented Generation) sobre LLM (Large Language Models) para la extracción y generación de documentos en las entidades públicas

Collado Alonso, Miguel Ángel

Título

dc.contributor.advisor	Escudero Mancebo, David	es
dc.contributor.author	Collado Alonso, Miguel Ángel
dc.contributor.editor	Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid	es
dc.date.accessioned	2024-11-15T09:04:41Z
dc.date.available	2024-11-15T09:04:41Z
dc.date.issued	2024
dc.identifier.uri	https://uvadoc.uva.es/handle/10324/71509
dc.description.abstract	Un viejo desafío en el campo de la inteligencia artificial es “enseñar” a las máquinas a entender cómo hablan y escriben los humanos, conocido como procesamiento de lenguaje natural (PLN). Sin embargo, desde hace poco más de dos años, estamos asistiendo a la caída de este antiguo bastión con la llegada de los modelos grandes del lenguaje (LLM) y los interfaces conversacionales. Los LLM son modelos de inteligencia artificial que se entrenan utilizando algoritmos de Deep Learning sobre conjuntos enormes de información generada por humanos. De esta manera, una vez entrenados, han aprendido la forma en la que los humanos utilizamos la palabra hablada y escrita, así que son capaces de ofrecernos respuestas generales y con un patrón muy parecido a nuestra forma de contestar a las preguntas que les hacemos. Sin embargo, si buscamos respuestas precisas en un contexto determinado, los LLM por sí solos no proporcionarán respuestas concretas o habrá una alta probabilidad de que se inventen completamente la respuesta. En este trabajo, se explica y desarrolla una de las técnicas clave que hace posible que estos sistemas nos respondan con relativa precisión a las preguntas que les hacemos, esta tecnología se denomina Generación Aumentada por Recuperación o RAG, del inglés Retrieval Augmented Generation. Para ello se comparan diversos modelos LLM, se configuran un conjunto de herramientas para lograr inferir los modelos, y se desarrolla un código fuente para, finalmente, lograr realizar una interfaz web, a modo de chatbot, que permita interactuar con el usuario y realizar RAG sobre un documento elegido por el mismo.	es
dc.description.abstract	A long-standing challenge in the field of artificial intelligence is “teaching” machines to understand how humans speak and write, known as natural language processing (NLP). However, for just over two years, we have been witnessing the fall of this old bastion with the arrival of large language models (LLM) and conversational interfaces. LLMs are artificial intelligence models that are trained using Deep Learning algorithms on huge sets of humangenerated data. In this way, once trained, they have learned the way in which humans use the spoken and written word, so they are able to offer us general answers with a pattern very similar to our way of answering the questions we ask them. However, if we are looking for precise answers in a given context, LLMs alone will not provide concrete answers or there will be a high probability that they will completely make up the answer. In this work, one of the key techniques that makes it possible for these systems to respond with relative precision to the questions we ask them is explained and developed. This technology is called Retrieval Augmented Generation or RAG. To do this, various LLM models are compared, a set of tools are configured to infer the models, and a source code is developed to, finally, create a web interface, like a chatbot, that allows interacting with the user and performing RAG on a document chosen by him.	es
dc.description.sponsorship	Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)	es
dc.format.mimetype	application/pdf	es
dc.language.iso	spa	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject.classification	Inteligencia Artificial (IA)	es
dc.subject.classification	Procesamiento del Lenguaje Natural (PLN)	es
dc.subject.classification	Modelo Grande del Lenguaje (LLM)	es
dc.subject.classification	Generación Aumentada por Recuperación (RAG)	es
dc.title	Implementación de técnicas de RAG (Retrieval Augmented Generation) sobre LLM (Large Language Models) para la extracción y generación de documentos en las entidades públicas	es
dc.type	info:eu-repo/semantics/masterThesis	es
dc.description.degree	Máster en Ingeniería Informática	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*

Fichier(s) constituant ce document

Nom:: TFM-G1993.pdf
Taille:: 3.113Mo
Format:: PDF

Voir/Ouvrir

Ce document figure dans la(les) collection(s) suivante(s)

Trabajos Fin de Máster UVa [7064]

Afficher la notice abrégée

Excepté là où spécifié autrement, la license de ce document est décrite en tant que Attribution-NonCommercial-NoDerivatives 4.0 Internacional