Aplicación de Técnicas de Web Scraping al Boletín Oficial de Castilla y León (BOCyL)

Hernández Herrero, Cristina

Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/5794

Título

Aplicación de Técnicas de Web Scraping al Boletín Oficial de Castilla y León (BOCyL)

Autor

Hernández Herrero, Cristina

Director o Tutor

Martínez Prieto, Miguel Angel

Editor

Universidad de Valladolid. Escuela Universitaria de Informática

Año del Documento

2014

Titulación

Grado en Ingeniería Informática de Servicios y Aplicaciones

Abstract

En este proyecto estudiaremos el concepto de Web Scraping y cómo su utilización puede ayudar a extraer de forma estructurada la información contenida en un conjunto de páginas web pertenecientes a un mismo dominio. En nuestro trabajo revisaremos las técnicas fundamentales de scraping, y las utilizaremos, de acuerdo a nuestras necesidades, para extraer la información de un sitio web de interés general como es el Boletín Oficial de Castilla y León. (BOCyL). A nivel práctico, se propone un algoritmo genérico de scraping capaz de “arañar” los datos del boletín y almacenarlos de forma estructurada en una base de datos relacional cuyo esquema responde a las propiedades conceptuales del BOCyL. Finalmente, se muestra un ejemplo de reutilización de la misma, así como varias recomendaciones prácticas destinadas a mejorar la política de publicación en la WWW del BOCyL.

Materias (normalizadas)

Sitios web-Programas y sistemas de programación