• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Ricerca

    Tutto UVaDOCArchiviData di pubblicazioneAutoriSoggettiTitoli

    My Account

    Login

    Estadísticas

    Ver Estadísticas de uso

    Compartir

    Mostra Item 
    •   UVaDOC Home
    • PRODUZIONE SCIENTIFICA
    • Escuela de Doctorado (ESDUVa)
    • Tesis doctorales UVa
    • Mostra Item
    •   UVaDOC Home
    • PRODUZIONE SCIENTIFICA
    • Escuela de Doctorado (ESDUVa)
    • Tesis doctorales UVa
    • Mostra Item
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/43392

    Título
    Fair Learning: an optimal transport based approach
    Autor
    Gordaliza Pastor, PaulaAutoridad UVA
    Director o Tutor
    Barrio Tellado, Eustasio delAutoridad UVA
    Fabrice Gamboa
    Loubes, Jean-Michel
    Editor
    Universidad de Valladolid. Facultad de CienciasAutoridad UVA
    Año del Documento
    2020
    Titulación
    Doctorado en Matemáticas
    Abstract
    The aim of this thesis is two-fold. On the one hand, optimal transportation methods are studied for statistical inference purposes. On the other hand, the recent problem of fair learning is addressed through the prism of optimal transport theory. The generalization of applications based on machine learning models in the everyday life and the professional world has been accompanied by concerns about the ethical issues that may arise from the adoption of these technologies. In the rst part of the thesis, we motivate the fairness problem by presenting some comprehensive results from the study of the statistical parity criterion through the analysis of the disparate impact index on the real and well-known Adult Income dataset. Importantly, we show that trying to make fair machine learning models may be a particularly challenging task, especially when the training observations contain bias. Then a review of Mathematics for fairness in machine learning is given in a general setting, with some novel contributions in the analysis of the price for fairness in regression and classi cation. In the latter, we nish this rst part by recasting the links between fairness and predictability in terms of probability metrics. We analyze repair methods based on mapping conditional distributions to the Wasserstein barycenter. Finally, we propose a random repair which yields a tradeo between minimal information loss and a certain amount of fairness. The second part is devoted to the asymptotic theory of the empirical transportation cost. We provide a Central Limit Theorem for the Monge-Kantorovich distance between two empirical distributions with di erent sizes n and m, Wp(Pn;Qm); p 1; for observations on R. In the case p > 1 our assumptions are sharp in terms of moments and smoothness. We prove results dealing with the choice of centering constants. We provide a consistent estimate of the asymptotic variance which enables to build two sample tests and con dence intervals to certify the similarity between two distributions. These are then used to assess a new criterion of data set fairness in classi cation. Additionally, we provide a moderate deviation principle for the empirical transportation cost in general dimension. Finally, Wasserstein barycenters and variance-like criterion using Wasserstein distance are used in many problems to analyze the homogeneity of collections of distributions and structural relationships between the observations. We propose the estimation of the quantiles of the empirical process of theWasserstein's variation using a bootstrap procedure. Then we use these results for statistical inference on a distribution registration model for general deformation functions. The tests are based on the variance of the distributions with respect to their Wasserstein's barycenters for which we prove central limit theorems, including bootstrap versions.
     
    El propósito de esta tesis es doble. Por un lado, se estudian métodos de transporte óptimo destinados a hacer inferencia estadística. Por otro lado, se considera el reciente problema del aprendizaje justo con contribuciones basadas en la teoría del transporte óptimo. El uso generalizado de aplicaciones basadas en modelos de aprendizaje automático en la vida cotidiana y en el mundo profesional ha traído consigo preocupaciones sobre las cuestiones éticas que surgen de la adopción de estas tecnologías. En la primera parte de la tesis, motivamos el problema de la equidad presentando algunos resultados estadísticos exhaustivos sobre el estudio del criterio statistical parity a través del análisis del índice disparate impact en el conjunto de datos reales Adult income. Mostramos que tratar de hacer modelos justos puede ser una tarea particularmente difícil, especialmente cuando las observaciones de entrenamiento contienen sesgos. A continuación, se hace una revisión de los métodos matemáticos para el aprendizaje justo en un marco general, con contribuciones novedosas en el análisis del precio de la equidad en regresión y clasificación. En este último, concluimos esta primera parte reformulando los vínculos entre la equidad y la previsibilidad en términos de métricas de probabilidad. Analizamos los métodos de reparación basados en el transporte de las distribuciones condicionales hacia el baricentro de Wasserstein. Por último, proponemos el random repair que establece un equilibrio entre la pérdida de información y el nivel de equidad. La segunda parte está dedicada a la teoría asintótica del coste empírico de transporte. Proporcionamos un Teorema Central del Límite para la distancia Monge-Kantorovich entre dos distribuciones empíricas con tamaños n y m, W_p(P_n,Q_m), p>=1, y observaciones en R. En el caso p>1 nuestras hipótesis son minimales en términos de momentos y suavidad. Probamos resultados que tratan con la elección de las constantes de centramiento. Proporcionamos una estimación consistente de la varianza asintótica que permite construir tests de dos muestras e intervalos de confianza para certificar la similitud entre dos distribuciones. Éstos se utilizan luego para evaluar un nuevo criterio de equidad en clasificación binaria. Además, proporcionamos un principio de desviaciones moderadas para el coste empírico de transporte en dimensión general. Por último, los baricentros de Wasserstein y el criterio de varianza utilizando la distancia de Wasserstein se emplean en muchos problemas para analizar la homogeneidad de una colección de distribuciones y las relaciones estructurales entre observaciones. Proponemos la estimación de los cuantiles del proceso empírico de la variación de Wasserstein mediante un procedimiento bootstrap. A continuación, con estos resultados hacemos inferencia estadística en un modelo de deformación general. Los tests se basan en la varianza de las distribuciones con respecto a su baricentro de Wasserstein, para los que probamos teoremas centrales del límite, incluidas las versiones bootstrap.
    Materias (normalizadas)
    Metodología de reparación
    Variación de Wasserstein
    Materias Unesco
    12 Matemáticas
    Departamento
    Departamento de Estadística e Investigación Operativa
    DOI
    10.35376/10324/43392
    Idioma
    eng
    URI
    http://uvadoc.uva.es/handle/10324/43392
    Tipo de versión
    info:eu-repo/semantics/publishedVersion
    Derechos
    openAccess
    Aparece en las colecciones
    • Tesis doctorales UVa [2396]
    Mostra tutti i dati dell'item
    Files in questo item
    Nombre:
    TESIS-1748-201103.pdf
    Tamaño:
    2.329Mb
    Formato:
    Adobe PDF
    Thumbnail
    Mostra/Apri
    Attribution-NonCommercial-NoDerivatives 4.0 InternacionalLa licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10