Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/77921
Título
Técnicas para la corrección del desplazamiento de covarianzas en clasificación supervisada
Autor
Director o Tutor
Año del Documento
2025
Titulación
Grado en Estadística
Zusammenfassung
En los métodos de aprendizaje supervisado se suele asumir que la distribución de los datos
de entrenamiento y test son iguales lo que permite simplificar el desarrollo de los modelos. Sin
embargo, en muchas ocasiones esto no es cierto, lo que puede llevar a malos resultados. Por
este motivo, se han desarrollado metodologías que permiten adaptarse a estos cambios en las
distribuciones.
En concreto, este trabajo se centra en el covariate shift donde las distribuciones marginales de
las instancias son distintas pero las condicionales respecto de las etiquetas permanecen constantes. Para adaptarse al covariate shift se utiliza un peso, al que se denomina importancia, que
se aplica a las muestras de entrenamiento para intentar corregir la diferencia entre las distribuciones. De forma que, el valor del peso dependerá, únicamente, de cómo de probable es que
una muestra de entrenamiento pueda aparecer dentro del conjunto de test. El problema es que
para calcularlo de manera exacta es necesario conocer las distribuciones de los datos, lo que en
la práctica, no es posible.
Por este motivo, existen diferentes métodos que permiten estimar la importancia. En este
trabajo se profundiza en algunos de los métodos del estado del arte para hacer esta estimación
como son KDE, obtención de los pesos usando regresión logística, KMM, KLIEP, LSIF o uLSIF.
Además, también se han implementado todos en Python y con ellos se han realizado multitud
de experimentos usando datos sintéticos. In supervised learning methods, it is usually assumed that the distribution of the training and
test data is the same, which simplifies the development of models. However, in many cases this
is not true, which can lead to bad results. For this reason, methodologies have been developed
to adapt to these changes in the distributions.
Specifically, this work focuses on covariate shift, where the marginal distributions of the instances are different but the conditional distributions regarding the labels remain constant. To
adapt to covariate shift, a weight, known as importance, is applied to the training samples to try
to correct the difference between the distributions. The value of the weight will depend only on
how likely it is that a training sample could appear in the test set. The problem is that, to calculate
it exactly, it is necessary to know the data distributions, which in practice is not possible.
For this reason, there are different methods to estimate importance. In this work, some stateof-the-art methods to make this estimation, such as KDE, obtaining weights using logistic regression, KMM, KLIEP, LSIF, and uLSIF are discussed in detail. In addition, all of them have been
implemented in Python, and several experiments have been carried out using synthetic data.
Palabras Clave
Desplazamiento de covarianzas
Covariate Shift
Métodos de estimación de importancia
Departamento
Departamento de Estadística e Investigación Operativa
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Grado UVa [31849]
Dateien zu dieser Ressource
