RT info:eu-repo/semantics/bachelorThesis T1 Aplicación de Técnicas de Web Scraping al Boletín Oficial de Castilla y León (BOCyL) A1 Hernández Herrero, Cristina A2 Universidad de Valladolid. Escuela Universitaria de Informática K1 Sitios web-Programas y sistemas de programación AB En este proyecto estudiaremos el concepto de Web Scraping y cómo su utilización puede ayudar a extraer de forma estructurada la información contenida en un conjunto de páginas web pertenecientes a un mismo dominio. En nuestro trabajo revisaremos las técnicas fundamentales de scraping, y las utilizaremos, de acuerdo a nuestras necesidades, para extraer la información de un sitio web de interés general como es el Boletín Oficial de Castilla y León. (BOCyL). A nivel práctico, se propone un algoritmo genérico de scraping capaz de “arañar” los datos del boletín y almacenarlos de forma estructurada en una base de datos relacional cuyo esquema responde a las propiedades conceptuales del BOCyL. Finalmente, se muestra un ejemplo de reutilización de la misma, así como varias recomendaciones prácticas destinadas a mejorar la política de publicación en la WWW del BOCyL. YR 2014 FD 2014 LK http://uvadoc.uva.es/handle/10324/5794 UL http://uvadoc.uva.es/handle/10324/5794 LA spa DS UVaDOC RD 26-dic-2024