Implementación de técnicas para análisis cluster robusto en torno a subespacios afines

Fernández Iglesias, Jesús

Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/50485

Título

Implementación de técnicas para análisis cluster robusto en torno a subespacios afines

Autor

Fernández Iglesias, Jesús

Director o Tutor

García Escudero, Luis Ángel

Editor

Universidad de Valladolid. Facultad de Ciencias

Año del Documento

2021

Titulación

Grado en Estadística

Resumen

La constante generación de conjuntos de datos masivos que se produce en la actualidad ha provocado que el desarrollo de técnicas de aprendizaje automático capaces de extraer conocimiento útil de dicha información sea un campo del conocimiento en auge y en constante desarrollo. En muchos de estos problemas, las observaciones no tienen asociadas ningún tipo de etiqueta, categoría o clase, únicamente se dispone de los propios datos. Por tanto, la búsqueda de patrones ocultos en los mismos se torna una tarea fundamental. Con ese fin el paradigma de aprendizaje no supervisado ofrece una amplia gama de procedimientos que permiten el estudio y agrupación de objetos en base a sus similitudes. En la intersección de la incesante creación de conjuntos de datos enormes y el aprendizaje no supervisado surge la necesidad de desarrollar e implementar procedimientos computacionalmente eficientes para poder aplicar estas técnicas de aprendizaje no supervisado y en particular de la aplicación de técnicas de análisis cluster. En este trabajo se estudia y se desarrollan versiones computacionalmente eficientes de un procedimiento de análisis cluster robusto entorno a subespacios afines. Un enfoque robusto al análisis cluster evita que unas pocas observaciones atípicas pueden condicionar de manera muy negativa la detección correcta de clusters. La metodología desarrollada examina varias opciones de implementación, explorando el enfoque secuencial, el paralelizado y el híbrido sacando partido a varios lenguajes de programación, además de realizar los correspondientes análisis de eficiencia computacional para determinar qué versión es la más adecuada. Además, un ejemplo de aplicación real del procedimiento desarrollado es mostrado en el ámbito de la segmentación de imágenes.

The constant generation of massive data sets nowadays has made the development of machine learning techniques capable of extracting useful knowledge from such information a booming and constantly developing field of knowledge. In many of these problems, the observations do not have any kind of label, category or class associated with them; only the data itself is available. Therefore, the search for hidden patterns in the data becomes a fundamental task. To that end, the unsupervised learning paradigm offers a wide range of procedures that allow the study and clustering of objects based on their similarities. At the intersection of the incessant creation of huge datasets and unsupervised learning arises the need to develop and implement computationally eficient procedures to be able to apply these unsupervised learning techniques and in particular the application of cluster analysis techniques. In this paper we study and develop computationally eficient versions of a robust cluster analysis procedure around afine subspaces. A robust approach to cluster analysis avoids that a few outlier observations can condition in a very negative way the correct detection of clusters. The developed methodology examines several implementation options, exploring sequential, parallelized and hybrid approaches taking advantage of several programming languages, as well as performing the corresponding computational eficiency analysis to determine which version is the most suitable. In addition, an example of real application of the developed procedure is shown in the field of image segmentation.

Palabras Clave

Análisis cluster

Subespacios afines

C++