<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-04-27T08:19:37Z</responseDate><request verb="GetRecord" identifier="oai:uvadoc.uva.es:10324/62986" metadataPrefix="mods">https://uvadoc.uva.es/oai/request</request><GetRecord><record><header><identifier>oai:uvadoc.uva.es:10324/62986</identifier><datestamp>2023-11-15T20:02:22Z</datestamp><setSpec>com_10324_38</setSpec><setSpec>col_10324_852</setSpec></header><metadata><mods:mods xmlns:mods="http://www.loc.gov/mods/v3" xmlns:doc="http://www.lyncode.com/xoai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-1.xsd">
<mods:name>
<mods:namePart>Marcos Parra, Pablo</mods:namePart>
</mods:name>
<mods:extension>
<mods:dateAvailable encoding="iso8601">2023-11-15T11:27:44Z</mods:dateAvailable>
</mods:extension>
<mods:extension>
<mods:dateAccessioned encoding="iso8601">2023-11-15T11:27:44Z</mods:dateAccessioned>
</mods:extension>
<mods:originInfo>
<mods:dateIssued encoding="iso8601">2023</mods:dateIssued>
</mods:originInfo>
<mods:identifier type="uri">https://uvadoc.uva.es/handle/10324/62986</mods:identifier>
<mods:abstract>En la actualidad el flujo de noticias e informaciones es más grande que nunca y es necesario&#xd;
someter a escrutinio público el valor que aportan a la sociedad algunas de estas&#xd;
noticias. Actualmente, la única manera de analizar dichas noticias es recurriendo a una&#xd;
persona o grupos de personas para que extraigan las noticias de la web y vayan estudiando&#xd;
la información que aportan dichas noticias, todo ello de manera manual. Es una&#xd;
tarea importante, pero costosa y repetitiva.&#xd;
Este trabajo se centra en la automatización de la extracción y análisis de las noticias&#xd;
de la web mediante la creación de una plataforma web que permita acceder y filtrar&#xd;
rápidamente las noticias y realizar un análisis preliminar de su estructura y otros aspectos&#xd;
relevantes, como el análisis de sentimientos.&#xd;
Para la parte de extracción, se han extraído las noticias de diferentes fuentes web y&#xd;
blogs de noticias en castellano mediante métodos de web scraping, se han estructurado&#xd;
mediante un proceso ETL (Extract, Transform y Load) y se han almacenado en una base&#xd;
de datos.&#xd;
Para la parte de análisis, se han aplicado técnicas de Procesamiento de Lenguaje Natural&#xd;
(PLN). Primero, se realiza un análisis de sentimientos sobre la noticia y posteriormente,&#xd;
un Reconocimiento de Entidades Nombradas (REN) para identificar a las organizaciones,&#xd;
lugares o personas mencionadas.&#xd;
Finalmente, se crea una plataforma web donde se muestran las noticias extraídas y el&#xd;
resultado del análisis.</mods:abstract>
<mods:abstract>Nowdays, the flow of news and information is greater than ever and the value that some&#xd;
of this news brings to society needs to be subjected to public scrutiny. Currently, the only&#xd;
way to analyze the news is through the participation of a person or group of people who&#xd;
extract the news from the web and manually annalyze the information provided by the&#xd;
news. It is an important but extensive and repetitive task.&#xd;
The objective of this work is to automate the extraction and analysis of the news from&#xd;
the web by creating a platform that allows to quickly access and filter the news and perform&#xd;
a preliminary analysis of its structure and other relevant aspects, such as sentiment&#xd;
analysis.&#xd;
For the extraction part, the news have been extracted from different web sources and&#xd;
news blogs in Spanish using web scraping methods, structured through an ETL process&#xd;
and stored in a database.&#xd;
For the analysis part, Natural Language Processing (NLP) techniques are applied. First, a&#xd;
sentiment analysis is performed on the news item and then, a Named Entity Recognition&#xd;
(NER) to identify the organizations, places or people mentioned.&#xd;
Finally, a web platform has been created where the extracted news and the result of the&#xd;
analysis are displayed.</mods:abstract>
<mods:language>
<mods:languageTerm>spa</mods:languageTerm>
</mods:language>
<mods:accessCondition type="useAndReproduction">info:eu-repo/semantics/openAccess</mods:accessCondition>
<mods:accessCondition type="useAndReproduction">http://creativecommons.org/licenses/by-nc-nd/4.0/</mods:accessCondition>
<mods:accessCondition type="useAndReproduction">Attribution-NonCommercial-NoDerivatives 4.0 Internacional</mods:accessCondition>
<mods:titleInfo>
<mods:title>Plataforma para la extracción y análisis de noticias de la web</mods:title>
</mods:titleInfo>
<mods:genre>info:eu-repo/semantics/bachelorThesis</mods:genre>
</mods:mods></metadata></record></GetRecord></OAI-PMH>