Mostrar el registro sencillo del ítem
dc.contributor.advisor | Martínez Prieto, Miguel Angel | es |
dc.contributor.author | Hernández Herrero, Cristina | |
dc.contributor.editor | Universidad de Valladolid. Escuela Universitaria de Informática | es |
dc.date.accessioned | 2014-09-03T08:16:49Z | |
dc.date.available | 2014-09-03T08:16:49Z | |
dc.date.issued | 2014 | |
dc.identifier.uri | http://uvadoc.uva.es/handle/10324/5794 | |
dc.description.abstract | En este proyecto estudiaremos el concepto de Web Scraping y cómo su utilización puede ayudar a extraer de forma estructurada la información contenida en un conjunto de páginas web pertenecientes a un mismo dominio. En nuestro trabajo revisaremos las técnicas fundamentales de scraping, y las utilizaremos, de acuerdo a nuestras necesidades, para extraer la información de un sitio web de interés general como es el Boletín Oficial de Castilla y León. (BOCyL). A nivel práctico, se propone un algoritmo genérico de scraping capaz de “arañar” los datos del boletín y almacenarlos de forma estructurada en una base de datos relacional cuyo esquema responde a las propiedades conceptuales del BOCyL. Finalmente, se muestra un ejemplo de reutilización de la misma, así como varias recomendaciones prácticas destinadas a mejorar la política de publicación en la WWW del BOCyL. | es |
dc.format.mimetype | application/pdf | es |
dc.language.iso | spa | es |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Sitios web-Programas y sistemas de programación | es |
dc.title | Aplicación de Técnicas de Web Scraping al Boletín Oficial de Castilla y León (BOCyL) | es |
dc.type | info:eu-repo/semantics/bachelorThesis | es |
dc.description.degree | Grado en Ingeniería Informática de Servicios y Aplicaciones | es |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International |
Ficheros en el ítem
Este ítem aparece en la(s) siguiente(s) colección(ones)
- Trabajos Fin de Grado UVa [29685]
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International