Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/63224
Título
Computación optimizada de métodos de Análisis Cluster robusto
Autor
Director o Tutor
Año del Documento
2023
Titulación
Grado en Estadística
Resumo
El análisis Cluster, fundamental en la Ciencia de Datos moderna, aborda problemas de
clasificación en los que no se tiene una etiqueta explícita para las observaciones, sino
que se busca agrupar las observaciones atendiendo a los valores que tomen los individuos
en ciertas variables. Este problema es especialmente complicado cuando tratamos datos
de alta dimensionalidad, agravándose especialmente con la presencia de observaciones
“atípicas” que distorsionan los resultados.
En este trabajo se ha desarrollado un paquete de software que implementa métodos de
clustering robusto basados en recortes imparciales, incluyendo los métodos TCLUST y
RLG. Ese tipo de recorte excluye una proporción de datos potencialmente más atípicos a
través de la estructura de los propios datos. Los métodos TCLUST y RLG se han mejorado
a nivel computacional para resolver con eficiencia y comodidad problemas complejos
de alta dimensionalidad, cada vez más habituales en la práctica actual de la Estadística.
Se han considerado novedosas técnicas de inicialización y su mejorada eficiencia computacional
ha sido probada en diferentes escenarios de simulación, así como en su aplicación
a datos reales en alta dimensionalidad. Cluster analysis, a fundamental technique in modern Data Science, addresses classification
problems where explicit labels for observations are not available, and instead aims
to group the observations attending to the individuals’ values in some variables. This
problem becomes particularly challenging when dealing with high-dimensional data, and
is further complicated by the presence of “outlier” observations that distort the results.
In this work, a software package has been developed that implements robust clustering
methods based on impartial trimming, including TCLUST and RLG methods. This
type of trimming excludes a proportion of potentially more atypical data based on the
structure of the data itself. The TCLUST and RLG methods have been computationally
enhanced to efficiently and conveniently solve complex high-dimensional problems, which
are becoming increasingly common in current statistical practice. Novel initialization
techniques have been considered, and the improved computational efficiency has been
tested in various simulation scenarios, as well as its application to real high-dimensional
data.
Palabras Clave
Clustering
Robusto
Departamento
Departamento de Estadística e Investigación Operativa
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Grado UVa [29685]
Arquivos deste item
Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivatives 4.0 Internacional