Técnicas para la corrección del desplazamiento de covarianzas en clasificación supervisada

Ramos Jimeno, Javier

Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/77921

Título

Técnicas para la corrección del desplazamiento de covarianzas en clasificación supervisada

Autor

Ramos Jimeno, Javier

Director o Tutor

Segovia Martín, José Ignacio

Editor

Universidad de Valladolid. Facultad de Ciencias

Año del Documento

2025

Titulación

Grado en Estadística

Resumen

En los métodos de aprendizaje supervisado se suele asumir que la distribución de los datos de entrenamiento y test son iguales lo que permite simplificar el desarrollo de los modelos. Sin embargo, en muchas ocasiones esto no es cierto, lo que puede llevar a malos resultados. Por este motivo, se han desarrollado metodologías que permiten adaptarse a estos cambios en las distribuciones. En concreto, este trabajo se centra en el covariate shift donde las distribuciones marginales de las instancias son distintas pero las condicionales respecto de las etiquetas permanecen constantes. Para adaptarse al covariate shift se utiliza un peso, al que se denomina importancia, que se aplica a las muestras de entrenamiento para intentar corregir la diferencia entre las distribuciones. De forma que, el valor del peso dependerá, únicamente, de cómo de probable es que una muestra de entrenamiento pueda aparecer dentro del conjunto de test. El problema es que para calcularlo de manera exacta es necesario conocer las distribuciones de los datos, lo que en la práctica, no es posible. Por este motivo, existen diferentes métodos que permiten estimar la importancia. En este trabajo se profundiza en algunos de los métodos del estado del arte para hacer esta estimación como son KDE, obtención de los pesos usando regresión logística, KMM, KLIEP, LSIF o uLSIF. Además, también se han implementado todos en Python y con ellos se han realizado multitud de experimentos usando datos sintéticos.

In supervised learning methods, it is usually assumed that the distribution of the training and test data is the same, which simplifies the development of models. However, in many cases this is not true, which can lead to bad results. For this reason, methodologies have been developed to adapt to these changes in the distributions. Specifically, this work focuses on covariate shift, where the marginal distributions of the instances are different but the conditional distributions regarding the labels remain constant. To adapt to covariate shift, a weight, known as importance, is applied to the training samples to try to correct the difference between the distributions. The value of the weight will depend only on how likely it is that a training sample could appear in the test set. The problem is that, to calculate it exactly, it is necessary to know the data distributions, which in practice is not possible. For this reason, there are different methods to estimate importance. In this work, some stateof-the-art methods to make this estimation, such as KDE, obtaining weights using logistic regression, KMM, KLIEP, LSIF, and uLSIF are discussed in detail. In addition, all of them have been implemented in Python, and several experiments have been carried out using synthetic data.

Palabras Clave

Desplazamiento de covarianzas

Covariate Shift

Métodos de estimación de importancia

Departamento

Departamento de Estadística e Investigación Operativa