2026-04-27T21:28:12Zhttps://uvadoc.uva.es/oai/request

oai:uvadoc.uva.es:10324/779212025-09-19T19:04:35Zcom_10324_38col_10324_852

Técnicas para la corrección del desplazamiento de covarianzas en clasificación supervisada Ramos Jimeno, Javier Segovia Martín, José Ignacio Universidad de Valladolid. Facultad de Ciencias En los métodos de aprendizaje supervisado se suele asumir que la distribución de los datos de entrenamiento y test son iguales lo que permite simplificar el desarrollo de los modelos. Sin embargo, en muchas ocasiones esto no es cierto, lo que puede llevar a malos resultados. Por este motivo, se han desarrollado metodologías que permiten adaptarse a estos cambios en las distribuciones. En concreto, este trabajo se centra en el covariate shift donde las distribuciones marginales de las instancias son distintas pero las condicionales respecto de las etiquetas permanecen constantes. Para adaptarse al covariate shift se utiliza un peso, al que se denomina importancia, que se aplica a las muestras de entrenamiento para intentar corregir la diferencia entre las distribuciones. De forma que, el valor del peso dependerá, únicamente, de cómo de probable es que una muestra de entrenamiento pueda aparecer dentro del conjunto de test. El problema es que para calcularlo de manera exacta es necesario conocer las distribuciones de los datos, lo que en la práctica, no es posible. Por este motivo, existen diferentes métodos que permiten estimar la importancia. En este trabajo se profundiza en algunos de los métodos del estado del arte para hacer esta estimación como son KDE, obtención de los pesos usando regresión logística, KMM, KLIEP, LSIF o uLSIF. Además, también se han implementado todos en Python y con ellos se han realizado multitud de experimentos usando datos sintéticos. In supervised learning methods, it is usually assumed that the distribution of the training and test data is the same, which simplifies the development of models. However, in many cases this is not true, which can lead to bad results. For this reason, methodologies have been developed to adapt to these changes in the distributions. Specifically, this work focuses on covariate shift, where the marginal distributions of the instances are different but the conditional distributions regarding the labels remain constant. To adapt to covariate shift, a weight, known as importance, is applied to the training samples to try to correct the difference between the distributions. The value of the weight will depend only on how likely it is that a training sample could appear in the test set. The problem is that, to calculate it exactly, it is necessary to know the data distributions, which in practice is not possible. For this reason, there are different methods to estimate importance. In this work, some stateof-the-art methods to make this estimation, such as KDE, obtaining weights using logistic regression, KMM, KLIEP, LSIF, and uLSIF are discussed in detail. In addition, all of them have been implemented in Python, and several experiments have been carried out using synthetic data. 2025-09-19T06:23:20Z 2025-09-19T06:23:20Z 2025 info:eu-repo/semantics/bachelorThesis https://uvadoc.uva.es/handle/10324/77921 spa info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-nd/4.0/ Attribution-NonCommercial-NoDerivatives 4.0 Internacional