2024-03-28T13:42:14Zhttp://uvadoc.uva.es/oai/requestoai:uvadoc.uva.es:10324/57942021-06-29T09:54:32Zcom_10324_38col_10324_852
Martínez Prieto, Miguel Angel
Hernández Herrero, Cristina
Universidad de Valladolid. Escuela Universitaria de Informática
2014-09-03T08:16:49Z
2014-09-03T08:16:49Z
2014
http://uvadoc.uva.es/handle/10324/5794
En este proyecto estudiaremos el concepto de Web Scraping y cómo su utilización puede ayudar a extraer de forma estructurada la información contenida en un conjunto de páginas web pertenecientes a un mismo dominio. En nuestro trabajo revisaremos las técnicas fundamentales de scraping, y las utilizaremos, de acuerdo a nuestras necesidades, para extraer la información de un sitio web de interés general como es el Boletín Oficial de Castilla y León. (BOCyL). A nivel práctico, se propone un algoritmo genérico de scraping capaz de “arañar” los datos del boletín y almacenarlos de forma estructurada en una base de datos relacional cuyo esquema responde a las propiedades conceptuales del BOCyL. Finalmente, se muestra un ejemplo de reutilización de la misma, así como varias recomendaciones prácticas destinadas a mejorar la política de publicación en la WWW del BOCyL.
Grado en Ingeniería Informática de Servicios y Aplicaciones
application/pdf
spa
info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-nd/4.0/
Attribution-NonCommercial-NoDerivatives 4.0 International
Sitios web-Programas y sistemas de programación
Aplicación de Técnicas de Web Scraping al Boletín Oficial de Castilla y León (BOCyL)
info:eu-repo/semantics/bachelorThesis