Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/5794
Título
Aplicación de Técnicas de Web Scraping al Boletín Oficial de Castilla y León (BOCyL)
Director o Tutor
Año del Documento
2014
Titulación
Grado en Ingeniería Informática de Servicios y Aplicaciones
Abstract
En este proyecto estudiaremos el concepto de Web Scraping y cómo su utilización puede ayudar a extraer de forma estructurada la información contenida en un conjunto de páginas web pertenecientes a un mismo dominio. En nuestro trabajo revisaremos las técnicas fundamentales de scraping, y las utilizaremos, de acuerdo a nuestras necesidades, para extraer la información de un sitio web de interés general como es el Boletín Oficial de Castilla y León. (BOCyL). A nivel práctico, se propone un algoritmo genérico de scraping capaz de “arañar” los datos del boletín y almacenarlos de forma estructurada en una base de datos relacional cuyo esquema responde a las propiedades conceptuales del BOCyL. Finalmente, se muestra un ejemplo de reutilización de la misma, así como varias recomendaciones prácticas destinadas a mejorar la política de publicación en la WWW del BOCyL.
Materias (normalizadas)
Sitios web-Programas y sistemas de programación
Idioma
spa
Derechos
openAccess
Collections
- Trabajos Fin de Grado UVa [30118]
Files in this item
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 International