Diffusion Models for Tabular Data Imputation and Synthetic Data Generation

Villaizán Vallelado, Mario; Salvatori, Matteo; Segura, Carlos; Arapakis, Ioannis

doi:10.1145/3742435

Título

Diffusion Models for Tabular Data Imputation and Synthetic Data Generation

dc.contributor.author	Villaizán Vallelado, Mario
dc.contributor.author	Salvatori, Matteo
dc.contributor.author	Segura, Carlos
dc.contributor.author	Arapakis, Ioannis
dc.date.accessioned	2025-10-20T12:02:20Z
dc.date.available	2025-10-20T12:02:20Z
dc.date.issued	2025
dc.identifier.citation	ACM Transactions on Knowledge Discovery from Data, 2025, vol. 19, n.º 6.	es
dc.identifier.issn	1556-4681	es
dc.identifier.uri	https://uvadoc.uva.es/handle/10324/78812
dc.description	Producción Científica	es
dc.description.abstract	Data imputation and data generation have important applications across many domains where incomplete or missing data can hinder accurate analysis and decision-making. Diffusion models have emerged as powerful generative models capable of capturing complex data distributions across various data modalities such as image, audio, and time series. Recently, they have been also adapted to generate tabular data. In this article, we propose a diffusion model for tabular data that introduces three key enhancements: (1) a conditioning attention mechanism, (2) an encoder-decoder transformer as the denoising network, and (3) dynamic masking. The conditioning attention mechanism is designed to improve the model’s ability to capture the relationship between the condition and synthetic data. The transformer layers help model interactions within the condition (encoder) or synthetic data (decoder), while dynamic masking enables our model to efficiently handle both missing data imputation and synthetic data generation tasks within a unified framework. We conduct a comprehensive evaluation by comparing the performance of diffusion models with transformer conditioning against state-of-the-art techniques such as Variational Autoencoders, Generative Adversarial Networks, and Diffusion Models, on benchmark datasets. Our evaluation focuses on the assessment of the generated samples with respect to three important criteria, namely: (1) machine learning efficiency, (2) statistical similarity, and (3) privacy risk mitigation. For the task of data imputation, we consider the efficiency of the generated samples across different levels of missing features. The results demonstrate average superior machine learning efficiency and statistical accuracy compared to the baselines, while maintaining privacy risks at a comparable level, particularly showing increased performance in datasets with a large number of features. By conditioning the data generation on a desired target variable, the model can mitigate systemic biases, generate augmented datasets to address data imbalance issues, and improve data quality for subsequent analysis. This has significant implications for domains such as healthcare and finance, where accurate, unbiased, and privacy-preserving data are critical for informed decision-making and fair model outcomes.	es
dc.format.mimetype	application/pdf	es
dc.language.iso	eng	es
dc.publisher	Association for Computing Machinery	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Imputación de datos	es
dc.subject	Generación de datos sintéticos	es
dc.subject	Modelo de difusión	es
dc.subject	Modelo generativo	es
dc.subject	Transformador	es
dc.title	Diffusion Models for Tabular Data Imputation and Synthetic Data Generation	es
dc.type	info:eu-repo/semantics/article	es
dc.rights.holder	© 2025 Copyright held by the owner/author(s).	es
dc.identifier.doi	10.1145/3742435	es
dc.relation.publisherversion	https://dl.acm.org/doi/pdf/10.1145/3742435	es
dc.identifier.publicationfirstpage	1	es
dc.identifier.publicationissue	6	es
dc.identifier.publicationlastpage	32	es
dc.identifier.publicationtitle	ACM Transactions on Knowledge Discovery from Data	es
dc.identifier.publicationvolume	19	es
dc.peerreviewed	SI	es
dc.description.project	Unión Europea-Horizonte 2020: 101168560	es
dc.identifier.essn	1556-472X	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.type.hasVersion	info:eu-repo/semantics/publishedVersion	es

Ficheros en el ítem

Nombre:: Diffusion Models for Tabular ...
Tamaño:: 9.561Mb
Formato:: PDF

Visualizar/Abrir

Este ítem aparece en la(s) siguiente(s) colección(ones)

DEP24 - Artículos de revista [81]

Mostrar el registro sencillo del ítem

La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional