Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/77792
Título
Análisis de texto con R
Director o Tutor
Año del Documento
2025
Titulación
Grado en Estadística
Resumen
El análisis estadístico de texto es una especialización del Análisis de Datos que se enfrenta
al reto de tratar y procesar textos con el objetivo de obtener información útil. Esta tarea presenta
importantes desafíos, ya que el texto es un tipo de dato no estructurado, frecuentemente muy
disperso, y el cual, además, suele representarse en espacios de elevada dimensionalidad. Estas
características provocan que las técnicas tradicionales de Análisis de Datos obtengan resultados
poco satisfactorios, o que, en algunos casos, no sean viables debido a su muy elevado coste
computacional.
Este Trabajo de Fin de Grado proporciona una revisión, tanto a nivel teórico como aplicado,
de algunas de las técnicas estadísticas aplicadas en análisis de texto. En concreto, el trabajo se
centra en tres de sus técnicas más representativas, que son: el Análisis de Sentimiento, el Clústering y la Clasificación. Para cada una de ellas, se realiza una breve introducción que describe las
principales adaptaciones orientadas al tratamiento de texto, así como una demostración práctica
con R, utilizando un conjunto de datos reales. Todo el código desarrollado en este trabajo se
encuentra disponible en un repositorio público de GitHub. Statistical text analysis is a specialization within Data Analysis that addresses the challenge
of handling and processing textual data in order to extract useful information. This task poses
significant challenges, as text is an unstructured and often highly sparse type of data, which
is typically represented in high-dimensional spaces. These characteristics lead traditional Data
Analysis techniques to yield unsatisfactory results or, in some cases, to be infeasible due to their
high computational cost.
This Bachelor’s Thesis offers both a theoretical and applied review of several statistical techniques used in text analysis. Specifically, it focuses on three of the most representative methods:
Sentiment Analysis, Clustering, and Classification. For each of these techniques, a brief introduction is provided, outlining the main adaptations required for text processing, along with a
practical demonstration using R and a real-world dataset. All the code developed in this project
is available in a public GitHub repository.
Palabras Clave
Análisis de texto
Minería de texto
Departamento
Departamento de Estadística e Investigación Operativa
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Grado UVa [32187]
Ficheros en el ítem
