Federated Learning for Private Synthetic Data Generation

Leitner, Moritz

doi:10.5445/ir/1000172145

ScienceGate Book Chapters

BOOK

Federated Learning for Private Synthetic Data Generation

Leitner, Moritz

Year: 2023 KITopen

DOI: 10.5445/ir/1000172145

Get Full-Text PDF Get Analytical Report

Abstract

Die digitale Transformation des Gesundheitswesens hat in den letzten Jahren an Dynamik gewonnen, wie die Einführung von Electronic Health Record (EHR)-Systemen und digitalen Infrastrukturen zum Datenaustausch zwischen allen Akteuren im Gesundheitssektor zeigt. In Deutschland werden Versicherte demnächst die Möglichkeit haben, die in ihrer elektronischen Patientenakte gespeicherten Daten freiwillig für medizinische Forschungszwecke zu spenden. Die Sekundärnutzung medizinischer Real-World-Daten birgt zwar ein großes Potenzial, etwa bei der Überwachung von Langzeitergebnissen im Zusammenhang mit bestimmten Behandlungen, wirft aber auch erhebliche Bedenken hinsichtlich des Schutzes der Privatsphäre auf, da Gesundheitsdaten aufgrund des Risikos von Stigmatisierung oder Diskriminierung infolge einer missbräuchlichen Nutzung besonders schützenswert sind. Aus diesem Grund wurden in der Literatur verschiedene Privacy-Enhancing Technologies (PETs) vorgestellt. So ermöglicht beispielsweise Differential Privacy (DP), die Auswirkungen von Datenanalysen auf die Privatsphäre durch Einfügen von sorgfältig kalibriertem Rauschen zu begrenzen. Mit den jüngsten Fortschritten im Bereich des maschinellen Lernens hat die Generierung synthetischer Daten (SDG) mithilfe von Generative Adversarial Networks (GANs) als Verfahren zum Schutz der Privatsphäre an Aufmerksamkeit gewonnen. Des Weiteren erlaubt Federated Learning (FL) das dezentrale Training von Machine-Learning-Modellen. Durch die Kombination von DP, SDG und FL können synthetische Daten kollaborativ erzeugt werden, die sowohl starke Datenschutzgarantien als auch einen Mehrwert für die Forschung bieten, während gleichzeitig die Trainingsdaten nicht mit einer zentralen Instanz geteilt werden müssen. In dieser Masterarbeit wird ein neuartiger Ansatz namens DP-Fed-CTGAN zur Erzeugung synthetischer tabellarischer Daten vorgestellt, der auf FL beruht und strikte DP-Garantien erfüllt. Verglichen mit bestehenden Ansätzen zielt DP-Fed-CTGAN darauf ab, die Menge an Informationen zu minimieren, die Clients während des FL-Verfahrens über ihre lokalen Trainingsdatensätze preisgeben müssen. Die Performanz der Open-Source-Implementierung von DP-Fed-CTGAN wird anhand gängiger Metriken evaluiert, wobei sowohl medizinische als auch häufig verwendete Machine-Learning-Datensätze betrachtet werden. Die Ergebnisse zeigen, dass DP-Fed-CTGAN nicht nur einen vergleichbaren Nutzen und eine verbesserte Realitätsnähe im Vergleich zum zentralen Ansatz von DP-CTGAN erreicht, sondern auch dazu beitragen kann, die Akzeptanz der Patienten für eine Datenspende zu erhöhen und die Einhaltung der Datenschutzgesetze zu erleichtern.

Keywords:

Wireless broadband

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.29

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Privacy-Preserving Technologies in Data

Physical Sciences → Computer Science → Artificial Intelligence

Privacy, Security, and Data Protection

Social Sciences → Social Sciences → Sociology and Political Science

Cryptography and Data Security

Physical Sciences → Computer Science → Artificial Intelligence

Federated Learning for Private Synthetic Data Generation

Abstract

Metrics

Topics

Related Documents

Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning

Distributed Synthetic Time-Series Data Generation With Local Differentially Private Federated Learning

Adaptive Iteration Differential Private Federated Learning with Gradient-Guide Synthetic Data

Federated Generation of Synthetic Tabular Data

GetFed: Accurate, Differentially Private Federated Learning With GAN-Based Data Generation