Fair Learning: an optimal transport based approach

Gordaliza Pastor, Paula

doi:10.35376/10324/43392

Título

Fair Learning: an optimal transport based approach

dc.contributor.advisor	Barrio Tellado, Eustasio del	es
dc.contributor.advisor	Fabrice Gamboa	es
dc.contributor.advisor	Loubes, Jean-Michel	es
dc.contributor.author	Gordaliza Pastor, Paula
dc.contributor.editor	Universidad de Valladolid. Facultad de Ciencias	es
dc.date.accessioned	2020-11-09T14:11:05Z
dc.date.available	2020-11-09T14:11:05Z
dc.date.issued	2020
dc.identifier.uri	http://uvadoc.uva.es/handle/10324/43392
dc.description.abstract	The aim of this thesis is two-fold. On the one hand, optimal transportation methods are studied for statistical inference purposes. On the other hand, the recent problem of fair learning is addressed through the prism of optimal transport theory. The generalization of applications based on machine learning models in the everyday life and the professional world has been accompanied by concerns about the ethical issues that may arise from the adoption of these technologies. In the rst part of the thesis, we motivate the fairness problem by presenting some comprehensive results from the study of the statistical parity criterion through the analysis of the disparate impact index on the real and well-known Adult Income dataset. Importantly, we show that trying to make fair machine learning models may be a particularly challenging task, especially when the training observations contain bias. Then a review of Mathematics for fairness in machine learning is given in a general setting, with some novel contributions in the analysis of the price for fairness in regression and classi cation. In the latter, we nish this rst part by recasting the links between fairness and predictability in terms of probability metrics. We analyze repair methods based on mapping conditional distributions to the Wasserstein barycenter. Finally, we propose a random repair which yields a tradeo between minimal information loss and a certain amount of fairness. The second part is devoted to the asymptotic theory of the empirical transportation cost. We provide a Central Limit Theorem for the Monge-Kantorovich distance between two empirical distributions with di erent sizes n and m, Wp(Pn;Qm); p 1; for observations on R. In the case p > 1 our assumptions are sharp in terms of moments and smoothness. We prove results dealing with the choice of centering constants. We provide a consistent estimate of the asymptotic variance which enables to build two sample tests and con dence intervals to certify the similarity between two distributions. These are then used to assess a new criterion of data set fairness in classi cation. Additionally, we provide a moderate deviation principle for the empirical transportation cost in general dimension. Finally, Wasserstein barycenters and variance-like criterion using Wasserstein distance are used in many problems to analyze the homogeneity of collections of distributions and structural relationships between the observations. We propose the estimation of the quantiles of the empirical process of theWasserstein's variation using a bootstrap procedure. Then we use these results for statistical inference on a distribution registration model for general deformation functions. The tests are based on the variance of the distributions with respect to their Wasserstein's barycenters for which we prove central limit theorems, including bootstrap versions.	es
dc.description.abstract	El propósito de esta tesis es doble. Por un lado, se estudian métodos de transporte óptimo destinados a hacer inferencia estadística. Por otro lado, se considera el reciente problema del aprendizaje justo con contribuciones basadas en la teoría del transporte óptimo. El uso generalizado de aplicaciones basadas en modelos de aprendizaje automático en la vida cotidiana y en el mundo profesional ha traído consigo preocupaciones sobre las cuestiones éticas que surgen de la adopción de estas tecnologías. En la primera parte de la tesis, motivamos el problema de la equidad presentando algunos resultados estadísticos exhaustivos sobre el estudio del criterio statistical parity a través del análisis del índice disparate impact en el conjunto de datos reales Adult income. Mostramos que tratar de hacer modelos justos puede ser una tarea particularmente difícil, especialmente cuando las observaciones de entrenamiento contienen sesgos. A continuación, se hace una revisión de los métodos matemáticos para el aprendizaje justo en un marco general, con contribuciones novedosas en el análisis del precio de la equidad en regresión y clasificación. En este último, concluimos esta primera parte reformulando los vínculos entre la equidad y la previsibilidad en términos de métricas de probabilidad. Analizamos los métodos de reparación basados en el transporte de las distribuciones condicionales hacia el baricentro de Wasserstein. Por último, proponemos el random repair que establece un equilibrio entre la pérdida de información y el nivel de equidad. La segunda parte está dedicada a la teoría asintótica del coste empírico de transporte. Proporcionamos un Teorema Central del Límite para la distancia Monge-Kantorovich entre dos distribuciones empíricas con tamaños n y m, W_p(P_n,Q_m), p>=1, y observaciones en R. En el caso p>1 nuestras hipótesis son minimales en términos de momentos y suavidad. Probamos resultados que tratan con la elección de las constantes de centramiento. Proporcionamos una estimación consistente de la varianza asintótica que permite construir tests de dos muestras e intervalos de confianza para certificar la similitud entre dos distribuciones. Éstos se utilizan luego para evaluar un nuevo criterio de equidad en clasificación binaria. Además, proporcionamos un principio de desviaciones moderadas para el coste empírico de transporte en dimensión general. Por último, los baricentros de Wasserstein y el criterio de varianza utilizando la distancia de Wasserstein se emplean en muchos problemas para analizar la homogeneidad de una colección de distribuciones y las relaciones estructurales entre observaciones. Proponemos la estimación de los cuantiles del proceso empírico de la variación de Wasserstein mediante un procedimiento bootstrap. A continuación, con estos resultados hacemos inferencia estadística en un modelo de deformación general. Los tests se basan en la varianza de las distribuciones con respecto a su baricentro de Wasserstein, para los que probamos teoremas centrales del límite, incluidas las versiones bootstrap.	es
dc.description.sponsorship	Departamento de Estadística e Investigación Operativa	es
dc.format.mimetype	application/pdf	es
dc.language.iso	eng	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Metodología de reparación	es
dc.subject	Variación de Wasserstein	es
dc.title	Fair Learning: an optimal transport based approach	es
dc.type	info:eu-repo/semantics/doctoralThesis	es
dc.description.degree	Doctorado en Matemáticas	es
dc.identifier.doi	10.35376/10324/43392
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.type.hasVersion	info:eu-repo/semantics/publishedVersion	es
dc.subject.unesco	12 Matemáticas	es

Files in this item

Name:: TESIS-1748-201103.pdf
Size:: 2.329Mb
Format:: PDF

FilesOpen

This item appears in the following Collection(s)

Tesis doctorales UVa [2396]

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional