• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Listar

    Todo UVaDOCComunidadesPor fecha de publicaciónAutoresMateriasTítulos

    Mi cuenta

    Acceder

    Estadísticas

    Ver Estadísticas de uso

    Compartir

    Ver ítem 
    •   UVaDOC Principal
    • PRODUCCIÓN CIENTÍFICA
    • Escuela de Doctorado (ESDUVa)
    • Tesis doctorales UVa
    • Ver ítem
    •   UVaDOC Principal
    • PRODUCCIÓN CIENTÍFICA
    • Escuela de Doctorado (ESDUVa)
    • Tesis doctorales UVa
    • Ver ítem
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/80838

    Título
    Contributions to data science from an optimal transport perspective
    Autor
    Rodríguez Vítores, David
    Director o Tutor
    Barrio Tellado, Eustasio delAutoridad UVA
    Matrán Bea, Carlos Gabriel
    Editor
    Universidad de Valladolid. Escuela de DoctoradoAutoridad UVA
    Año del Documento
    2025
    Titulación
    Doctorado en Matemáticas
    Resumen
    The theory of optimal transport originated in the 18th century with Monge’s problem, which consists of moving mass from one location to another while minimizing the transportation cost. Kantorovich’s reformulation in the 20th century, by allowing mass splitting, transformed the problem into a convex one and guaranteed the existence of solutions. This advance led to the definition of the Wasserstein distance, a metric between probability distributions with an intuitive geometric interpretation and strong mathematical properties, which sparked significant interest within the scientific community. While early research focused on optimal transport as a rigorous mathematical tool, particularly due to its connections with weak convergence, its applications have since expanded to numerous fields. More recently, optimal transport has gained growing importance in data science, with applications including generative models, domain adaptation, and algorithmic fairness. In this new paradigm, interest in optimal transport and the Wasserstein distance has expanded well beyond its original theoretical scope, while also posing new mathematical challenges, which have helped maintain optimal transport as one of the most active and promising areas of contemporary research. This thesis is situated within this rich and evolving context and may be viewed as a collection of contributions to both the theoretical foundations of optimal transport and related distributional problems. The first contribution is an improved central limit theorem for the sliced Wasserstein distance. The classical Wasserstein distance presents significant computational and statistical challenges in high dimensions, which, for instance, hinder the formulation of a central limit theorem in arbitrary dimensions. The sliced Wasserstein distance, defined via one-dimensional projections, circumvents these issues. Existing asymptotic results typically require compact support. This thesis establishes a new central limit theorem based on the Efron-Stein inequality, which holds without assuming compact support. The second contribution addresses the growing importance of privacy in data-driven applications. We develop a framework for private learning with sliced Wasserstein gradients. Although Wasserstein losses do not enjoy the typical finite-sum structure, we show that its gradient admits a favorable decomposition that enables private optimization with rigorous differential privacy guarantees, applicable to tasks such as fairness-aware training and sliced Wasserstein autoencoders. The third contribution addresses model selection in Gaussian mixture models. Classical parsimonious approaches to covariance matrix estimation often impose overly restrictive assumptions or require a large number of parameters. We propose a novel method that classifies covariance matrices into similarity groups based on likelihood criteria. This results in intermediate models that provide greater flexibility, interpretability, and improved statistical performance in clustering and classification tasks. Finally, the last contribution investigates Wasserstein barycenters of singular Gaussian distributions. While barycenters for non-singular Gaussians are well understood and can be computed efficiently, the singular case continues to pose significant challenges. In this context, we present novel results on the characterization of optimal transport maps, the optimality conditions for barycenters, and the convergence of first-order optimization methods.
     
    La teoría del transporte óptimo se originó en el siglo XVIII con el problema de Monge, que consiste en trasladar masa de una distribución inicial a una final minimizando el coste de transporte. Su reformulación por Kantorovich en el siglo XX, al permitir la división de la masa, transformó el problema en convexo y garantizó la existencia de soluciones. Este avance condujo a la definición de la distancia de Wasserstein, una métrica entre distribuciones de probabilidad con una interpretación geométrica intuitiva y propiedades matemáticas notables, que despertó un gran interés entre la comunidad científica. Mientras que la investigación inicial se centró en el transporte óptimo como una herramienta matemática rigurosa, especialmente por su relación con la convergencia débil, sus aplicaciones se han expandido desde entonces a numerosos campos. Recientemente, el transporte óptimo ha adquirido creciente importancia en ciencia de datos, con aplicaciones como modelos generativos, adaptación de dominio, y equidad algorítmica. En este nuevo paradigma, el interés por el transporte óptimo se ha extendido más allá de su alcance teórico original, generando a su vez nuevos desafíos matemáticos y consolidándolo como una de las áreas más activas y prometedoras de la investigación contemporánea. Esta tesis se sitúa en este contexto amplio y evolutivo, y presenta contribuciones tanto a los fundamentos teóricos del transporte óptimo como a problemas distribucionales relacionados. La primera contribución es un teorema central del límite mejorado para la distancia de Wasserstein proyectada (sliced). La distancia de Wasserstein clásica presenta problemas computacionales y estadísticos en dimensiones altas, lo que, por ejemplo, impide la formulación de un teorema central del límite en dimensiones arbitrarias. La distancia de Wasserstein proyectada, definida mediante proyecciones unidimensionales, evita estos problemas. Sin embargo, los resultados asintóticos existentes requieren típicamente soporte compacto. Esta tesis establece un nuevo teorema del central del límite, basado en la desigualdad de Efron-Stein, sin asumir que las distribuciones tienen soporte compacto. La segunda contribución aborda la creciente importancia de la privacidad en aplicaciones basadas en datos, desarrollando un marco para el entrenamiento privado con gradientes de la distancia de Wasserstein proyectada. Aunque las pérdidas de Wasserstein no admiten una estructura natural de suma finita, sus gradientes admiten una descomposición favorable. Esto permite diseñar algoritmos de optimización con garantías rigurosas bajo el marco de privacidad diferencial (Differential Privacy), aplicables a tareas como el entrenamiento con equidad y autoencoders utilizando la distancia de Wasserstein proyectada. La tercera contribución explora la selección de modelos de mezclas Gaussianas. Los modelos parsimoniosos clásicos para la estimación de matrices de covarianzas imponen con frecuencia suposiciones excesivamente restrictivas o conllevan un gran número de parámetros. En esta tesis, se propone un nuevo enfoque que clasifica las matrices de covarianza en grupos de similitud utilizando criterios basados en la verosimilitud. Esto da lugar a modelos intermedios que ofrecen mayor flexibilidad, interpretabilidad y rendimiento estadístico en tareas de clasificación y agrupamiento. Finalmente, en la última contribución se investiga el baricentro de Wasserstein de distribuciones Gaussianas singulares. Mientras que el baricentro para Gaussianas no singulares está bien estudiado y se puede calcular de forma eficiente, el caso singular todavía presenta números desafíos. En esta línea, se presentan resultados novedosos sobre la caracterización de aplicaciones de transporte, las condiciones de optimalidad para los baricentros y la convergencia de métodos de optimización de primer orden.
    Materias (normalizadas)
    Estadística
    Materias Unesco
    12 Matemáticas
    Palabras Clave
    Statistics
    Estadística
    Optimal transport
    Transporte Óptimo
    Departamento
    Escuela de Doctorado
    DOI
    10.35376/10324/80838
    Idioma
    eng
    URI
    https://uvadoc.uva.es/handle/10324/80838
    Tipo de versión
    info:eu-repo/semantics/publishedVersion
    Derechos
    openAccess
    Aparece en las colecciones
    • Tesis doctorales UVa [2518]
    Mostrar el registro completo del ítem
    Ficheros en el ítem
    Nombre:
    TESIS-2582-251219.pdf
    Tamaño:
    9.121Mb
    Formato:
    Adobe PDF
    Thumbnail
    Visualizar/Abrir
    Attribution-NonCommercial-NoDerivatives 4.0 InternationalLa licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10