DocScan: Deep Learning para la segmentación de documentos escaneados

San José Lorza, Jorge

Título

dc.contributor.advisor	Calonge Cano, Teodoro	es
dc.contributor.author	San José Lorza, Jorge
dc.contributor.editor	Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid	es
dc.date.accessioned	2021-11-22T09:01:00Z
dc.date.available	2021-11-22T09:01:00Z
dc.date.issued	2021
dc.identifier.uri	https://uvadoc.uva.es/handle/10324/50455
dc.description.abstract	Desde que existe Internet, los grandes archivos de documentos se han convertido en uno de los sitios más interesantes para acceder. Sus consultas exigen cada díaa una recuperación de información más sofisticada. Estas técnicas de búsqueda se basan en varios paradigmas diferentes. En particular, la Inteligencia Artificial se está aplicando hoy en día en el procesamiento emergente de la gestión de documentos, por ejemplo, identificación de áreas de papel como fotos, gráficos, encabezados, resumenes, pies de página, etc. Una posterior ejecución de OCR nos traerá el texto al interior de cada una de las zonas de papel mencionadas. Esta información se almacena en el campo correspondiente en el Sistema de Base de Datos disponible a nivel mundial, ya que estos campos serán el objetivo de la búsqueda de los usuarios. Además, el reconocimiento de áreas mencionadas en un determinado papel también se puede utilizar para convertir el documento original escaneado a otro formato más adecuado como XML. En el presente trabajo, esta tarea se presenta bajo un problema de Visión Artificial, en particular, como una segmentación de imágenes que reconocerá cada una de estas áreas del documento. Concretamente, nuestro enfoque se basa en Redes Neuronales Artificiales Convolucionales bajo una arquitectura UNET. Originalmente se propuso en 2015 para ser utilizado en un reconocimiento de imágenes biomédicas. La implementación se ha realizado utilizando PyTorch con una precisión satisfactoria. Finalmente, con el fin de mejorar la accesibilidad de nuestro sistema, se creó un servidor html. El escaneo de documentos se introducirá en esta aplicación y devolverá su verdad básica.	es
dc.description.abstract	Since internet exits, the large document archives became one of the most interesting sites to be accessed. Theirs consults are demanding more sophisticated information retrieving everyday. These searching techniques are based on several different paradigms. In particular, the Artificial Intelligence is nowadays applying in the emergent document managing processing, for instance, paper areas identification like photo, graphics, header, abstract, footer, etc. It is really the first step to lead to a useful document searching, because a posterior OCR execution will bring us the text inside in each of the mentioned paper zones. This information is stored in the corresponding field in the Database System available worldwide, since these fields will be the target of the users searching. In addition, the mentioned areas recognition in a given paper can be also used to convert the original scanning document into another more suitable format like XML. In the present work, this task is presented under a Vision Artificial problem, in particular, as image segmentation that will recognize each one of these document areas. More precisely, our approach is based on Convolutional Artificial Neuronal Networks under a UNET architecture. It was originally proposed en 2015 to be used in a biomedical image recognition. The implementation has been made using PyTorch with a satisfactory accuracy. Finally, in order to improve the accessibility of our system, a html server was created. Scanning documents will be introduce to this application and it will return their groundtruth.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	spa	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject.classification	Aprendizaje profundo	es
dc.subject.classification	Segmentación	es
dc.subject.classification	Documentos	es
dc.title	DocScan: Deep Learning para la segmentación de documentos escaneados	es
dc.type	info:eu-repo/semantics/bachelorThesis	es
dc.description.degree	Grado en Ingeniería Informática	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*

Arquivos deste item

Nome:: TFG-G5279.pdf
Tamanho:: 46.29Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Trabajos Fin de Grado UVa [33750]

Mostrar registro simples

Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivatives 4.0 Internacional