Computación optimizada de métodos de Análisis Cluster robusto

Crespo Guerrero, Javier

Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/63224

Título

Computación optimizada de métodos de Análisis Cluster robusto

Autor

Crespo Guerrero, Javier

Director o Tutor

García Escudero, Luis Ángel

Editor

Universidad de Valladolid. Facultad de Ciencias

Año del Documento

2023

Titulación

Grado en Estadística

Zusammenfassung

El análisis Cluster, fundamental en la Ciencia de Datos moderna, aborda problemas de clasificación en los que no se tiene una etiqueta explícita para las observaciones, sino que se busca agrupar las observaciones atendiendo a los valores que tomen los individuos en ciertas variables. Este problema es especialmente complicado cuando tratamos datos de alta dimensionalidad, agravándose especialmente con la presencia de observaciones “atípicas” que distorsionan los resultados. En este trabajo se ha desarrollado un paquete de software que implementa métodos de clustering robusto basados en recortes imparciales, incluyendo los métodos TCLUST y RLG. Ese tipo de recorte excluye una proporción de datos potencialmente más atípicos a través de la estructura de los propios datos. Los métodos TCLUST y RLG se han mejorado a nivel computacional para resolver con eficiencia y comodidad problemas complejos de alta dimensionalidad, cada vez más habituales en la práctica actual de la Estadística. Se han considerado novedosas técnicas de inicialización y su mejorada eficiencia computacional ha sido probada en diferentes escenarios de simulación, así como en su aplicación a datos reales en alta dimensionalidad.

Cluster analysis, a fundamental technique in modern Data Science, addresses classification problems where explicit labels for observations are not available, and instead aims to group the observations attending to the individuals’ values in some variables. This problem becomes particularly challenging when dealing with high-dimensional data, and is further complicated by the presence of “outlier” observations that distort the results. In this work, a software package has been developed that implements robust clustering methods based on impartial trimming, including TCLUST and RLG methods. This type of trimming excludes a proportion of potentially more atypical data based on the structure of the data itself. The TCLUST and RLG methods have been computationally enhanced to efficiently and conveniently solve complex high-dimensional problems, which are becoming increasingly common in current statistical practice. Novel initialization techniques have been considered, and the improved computational efficiency has been tested in various simulation scenarios, as well as its application to real high-dimensional data.

Palabras Clave

Clustering

Robusto

Departamento

Departamento de Estadística e Investigación Operativa