Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/50485
Título
Implementación de técnicas para análisis cluster robusto en torno a subespacios afines
Director o Tutor
Año del Documento
2021
Titulación
Grado en Estadística
Resumen
La constante generación de conjuntos de datos masivos que se produce en la actualidad ha
provocado que el desarrollo de técnicas de aprendizaje automático capaces de extraer conocimiento
útil de dicha información sea un campo del conocimiento en auge y en constante desarrollo.
En muchos de estos problemas, las observaciones no tienen asociadas ningún tipo de etiqueta,
categoría o clase, únicamente se dispone de los propios datos. Por tanto, la búsqueda de
patrones ocultos en los mismos se torna una tarea fundamental.
Con ese fin el paradigma de aprendizaje no supervisado ofrece una amplia gama de procedimientos
que permiten el estudio y agrupación de objetos en base a sus similitudes.
En la intersección de la incesante creación de conjuntos de datos enormes y el aprendizaje no
supervisado surge la necesidad de desarrollar e implementar procedimientos computacionalmente
eficientes para poder aplicar estas técnicas de aprendizaje no supervisado y en particular de la
aplicación de técnicas de análisis cluster.
En este trabajo se estudia y se desarrollan versiones computacionalmente eficientes de un
procedimiento de análisis cluster robusto entorno a subespacios afines. Un enfoque robusto al
análisis cluster evita que unas pocas observaciones atípicas pueden condicionar de manera muy
negativa la detección correcta de clusters. La metodología desarrollada examina varias opciones
de implementación, explorando el enfoque secuencial, el paralelizado y el híbrido sacando partido
a varios lenguajes de programación, además de realizar los correspondientes análisis de
eficiencia computacional para determinar qué versión es la más adecuada.
Además, un ejemplo de aplicación real del procedimiento desarrollado es mostrado en el ámbito
de la segmentación de imágenes. The constant generation of massive data sets nowadays has made the development of machine
learning techniques capable of extracting useful knowledge from such information a booming and
constantly developing field of knowledge.
In many of these problems, the observations do not have any kind of label, category or class
associated with them; only the data itself is available. Therefore, the search for hidden patterns
in the data becomes a fundamental task.
To that end, the unsupervised learning paradigm offers a wide range of procedures that allow
the study and clustering of objects based on their similarities.
At the intersection of the incessant creation of huge datasets and unsupervised learning arises
the need to develop and implement computationally eficient procedures to be able to apply these
unsupervised learning techniques and in particular the application of cluster analysis techniques.
In this paper we study and develop computationally eficient versions of a robust cluster analysis
procedure around afine subspaces. A robust approach to cluster analysis avoids that a few
outlier observations can condition in a very negative way the correct detection of clusters. The developed
methodology examines several implementation options, exploring sequential, parallelized
and hybrid approaches taking advantage of several programming languages, as well as performing
the corresponding computational eficiency analysis to determine which version is the most
suitable.
In addition, an example of real application of the developed procedure is shown in the field of
image segmentation.
Palabras Clave
Análisis cluster
Subespacios afines
C++
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Grado UVa [30643]
Ficheros en el ítem
