Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/43392
Título
Fair Learning: an optimal transport based approach
Autor
Director o Tutor
Año del Documento
2020
Titulación
Doctorado en Matemáticas
Abstract
The aim of this thesis is two-fold. On the one hand, optimal transportation methods are studied
for statistical inference purposes. On the other hand, the recent problem of fair learning is
addressed through the prism of optimal transport theory.
The generalization of applications based on machine learning models in the everyday life
and the professional world has been accompanied by concerns about the ethical issues that may
arise from the adoption of these technologies. In the rst part of the thesis, we motivate the
fairness problem by presenting some comprehensive results from the study of the statistical parity
criterion through the analysis of the disparate impact index on the real and well-known Adult
Income dataset. Importantly, we show that trying to make fair machine learning models may
be a particularly challenging task, especially when the training observations contain bias. Then
a review of Mathematics for fairness in machine learning is given in a general setting, with some
novel contributions in the analysis of the price for fairness in regression and classi cation. In the
latter, we nish this rst part by recasting the links between fairness and predictability in terms
of probability metrics. We analyze repair methods based on mapping conditional distributions
to the Wasserstein barycenter. Finally, we propose a random repair which yields a tradeo
between minimal information loss and a certain amount of fairness.
The second part is devoted to the asymptotic theory of the empirical transportation cost. We
provide a Central Limit Theorem for the Monge-Kantorovich distance between two empirical
distributions with di erent sizes n and m, Wp(Pn;Qm); p 1; for observations on R. In
the case p > 1 our assumptions are sharp in terms of moments and smoothness. We prove
results dealing with the choice of centering constants. We provide a consistent estimate of
the asymptotic variance which enables to build two sample tests and con dence intervals to
certify the similarity between two distributions. These are then used to assess a new criterion
of data set fairness in classi cation. Additionally, we provide a moderate deviation principle
for the empirical transportation cost in general dimension. Finally, Wasserstein barycenters
and variance-like criterion using Wasserstein distance are used in many problems to analyze the
homogeneity of collections of distributions and structural relationships between the observations.
We propose the estimation of the quantiles of the empirical process of theWasserstein's variation
using a bootstrap procedure. Then we use these results for statistical inference on a distribution
registration model for general deformation functions. The tests are based on the variance of the
distributions with respect to their Wasserstein's barycenters for which we prove central limit
theorems, including bootstrap versions. El propósito de esta tesis es doble. Por un lado, se estudian métodos de transporte óptimo destinados a hacer inferencia estadística. Por otro lado, se considera el reciente problema del aprendizaje justo con contribuciones basadas en la teoría del transporte óptimo.
El uso generalizado de aplicaciones basadas en modelos de aprendizaje automático en la vida cotidiana y en el mundo profesional ha traído consigo preocupaciones sobre las cuestiones éticas que surgen de la adopción de estas tecnologías. En la primera parte de la tesis, motivamos el problema de la equidad presentando algunos resultados estadísticos exhaustivos sobre el estudio del criterio statistical parity a través del análisis del índice disparate impact en el conjunto de datos reales Adult income. Mostramos que tratar de hacer modelos justos puede ser una tarea particularmente difícil, especialmente cuando las observaciones de entrenamiento contienen sesgos. A continuación, se hace una revisión de los métodos matemáticos para el aprendizaje justo en un marco general, con contribuciones novedosas en el análisis del precio de la equidad en regresión y clasificación. En este último, concluimos esta primera parte reformulando los vínculos entre la equidad y la previsibilidad en términos de métricas de probabilidad. Analizamos los métodos de reparación basados en el transporte de las distribuciones condicionales hacia el baricentro de Wasserstein. Por último, proponemos el random repair que establece un equilibrio entre la pérdida de información y el nivel de equidad.
La segunda parte está dedicada a la teoría asintótica del coste empírico de transporte. Proporcionamos un Teorema Central del Límite para la distancia Monge-Kantorovich entre dos distribuciones empíricas con tamaños n y m, W_p(P_n,Q_m), p>=1, y observaciones en R. En el caso p>1 nuestras hipótesis son minimales en términos de momentos y suavidad. Probamos resultados que tratan con la elección de las constantes de centramiento. Proporcionamos una estimación consistente de la varianza asintótica que permite construir tests de dos muestras e intervalos de confianza para certificar la similitud entre dos distribuciones. Éstos se utilizan luego para evaluar un nuevo criterio de equidad en clasificación binaria. Además, proporcionamos un principio de desviaciones moderadas para el coste empírico de transporte en dimensión general. Por último, los baricentros de Wasserstein y el criterio de varianza utilizando la distancia de Wasserstein se emplean en muchos problemas para analizar la homogeneidad de una colección de distribuciones y las relaciones estructurales entre observaciones. Proponemos la estimación de los cuantiles del proceso empírico de la variación de Wasserstein mediante un procedimiento bootstrap. A continuación, con estos resultados hacemos inferencia estadística en un modelo de deformación general. Los tests se basan en la varianza de las distribuciones con respecto a su baricentro de Wasserstein, para los que probamos teoremas centrales del límite, incluidas las versiones bootstrap.
Materias (normalizadas)
Metodología de reparación
Variación de Wasserstein
Materias Unesco
12 Matemáticas
Departamento
Departamento de Estadística e Investigación Operativa
Idioma
eng
Tipo de versión
info:eu-repo/semantics/publishedVersion
Derechos
openAccess
Aparece en las colecciones
- Tesis doctorales UVa [2321]
Files in questo item
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional