Skip navigation
Please use this identifier to cite or link to this item: http://uvadoc.uva.es/handle/10324/5794
Title: Aplicación de Técnicas de Web Scraping al Boletín Oficial de Castilla y León (BOCyL)
Authors: Hernández Herrero, Cristina
Editors: Universidad de Valladolid. Escuela Universitaria de Informática
Tutor: Martínez Prieto, Miguel Ángel
Issue Date: 2014
Degree : Grado en Ingeniería Informática de Servicios y Aplicaciones
Abstract: En este proyecto estudiaremos el concepto de Web Scraping y cómo su utilización puede ayudar a extraer de forma estructurada la información contenida en un conjunto de páginas web pertenecientes a un mismo dominio. En nuestro trabajo revisaremos las técnicas fundamentales de scraping, y las utilizaremos, de acuerdo a nuestras necesidades, para extraer la información de un sitio web de interés general como es el Boletín Oficial de Castilla y León. (BOCyL). A nivel práctico, se propone un algoritmo genérico de scraping capaz de “arañar” los datos del boletín y almacenarlos de forma estructurada en una base de datos relacional cuyo esquema responde a las propiedades conceptuales del BOCyL. Finalmente, se muestra un ejemplo de reutilización de la misma, así como varias recomendaciones prácticas destinadas a mejorar la política de publicación en la WWW del BOCyL.
Keywords: Sitios web-Programas y sistemas de programación
Language: spa
URI: http://uvadoc.uva.es/handle/10324/5794
Rights: info:eu-repo/semantics/openAccess
Appears in Collections:Trabajos Fin de Grado UVa

Files in This Item:
File Description SizeFormat 
TFG-B.512.pdf1,68 MBAdobe PDFThumbnail
View/Open

This item is licensed under a Creative Commons License Creative Commons

Suggestions
University of Valladolid
Powered by MIT's. DSpace software, Version 5.5
UVa-STIC