DISSERTATION

Generation and Evaluation of Realistic Tabular Synthetic Data

Lautrup, Anton Danholt

Year: 2025 University:   University of Southern Denmark Research Portal (University of Southern Denmark)   Publisher: University of Southern Denmark

Abstract

Mange af de store gennembrud i verden i dag er i stigende grad drevet af datahungrende kunstige intelligenssystemer. At holde trit med de nødvendige mængder materiale og udnytte indsigter fra følsomme mikrodata er to motivationer for at fremstille realistiske syntetiske data. Denne afhandling undersøger forskellige aspekter af tabeldatasyntese og bidrager med metodologi, evalueringsværktøjer og et nyt generativt modelleringsparadigme.

I de første dele gennemgår denne afhandling den nyeste litteratur og giver en omfattende baggrund for den igangværende forskning i genereringsmetoder; det vedholdende fokus på “generative adversarial networks”, succesen med overfladiske læringsmodeller og begyndelsen på den generative modelhybridiseringens æra. Derudover dokumenterer vi det tidlige “vilde vesten” for evalueringsmetrikker og den langsomt begyndende søgen efter et mere afgrænset sæt af evalueringsmål. I lighed med andre samtidige værker bemærker vi en problematisk mangel på standardiserede og udførlige benchmarking-praksisser, hvilket hæmmer muligheden for at gennemføre meningsfulde kvantitative metaanalyser på tværs af forskellige modeller og datasæt.

Motiveret af de begrænsninger, vi mødte, analyserer vores arbejde anvendeligheden af almindelige evalueringsmetrikker. Den mest påfaldende mangel vi fandt, er, at matematisk stringente formuleringer og realistiske data ofte er uforenelige, især for heterogene data, der består af blandede numeriske og kategoriske attributter. For at imødegå disse udfordringer foreslår vi evalueringsrammen “SynthEval”, evalueringsmålene ∆λ og ∆θ samt et heterogent nærhedsmål baseret på resample exposure.

Endelig ligger vi grundlaget for et nyt system til generering af syntetiske data, disjoint generative models, som muliggør generering med en blanding af modeller og introducerer nye mekanismer til at udforske balancen mellem “utility” og “privacy”.

Keywords:
Generative grammar

Metrics

0
Cited By
0.00
FWCI (Field Weighted Citation Impact)
0
Refs
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Topics

Data Visualization and Analytics
Physical Sciences →  Computer Science →  Computer Vision and Pattern Recognition
Qualitative Research Methods and Applications
Social Sciences →  Social Sciences →  Education
Qualitative Comparative Analysis Research
Social Sciences →  Social Sciences →  Sociology and Political Science

Related Documents

JOURNAL ARTICLE

Federated Generation of Synthetic Tabular Data

Martinez Duarte, Daniela

Journal:   reposiTUm (TU Wien) Year: 2024
JOURNAL ARTICLE

A comprehensive evaluation framework for synthetic medical tabular data generation

Anastasia KurakovaHajar Homayouni

Journal:   Journal of Biomedical Informatics Year: 2025 Vol: 171 Pages: 104939-104939
© 2026 ScienceGate Book Chapters — All rights reserved.