Synthetische Daten sind eine vielversprechende Technologie, um typische Herausforderungen entlang der Themen wie Modelltraining und -verbesserung oder Datenschutz zu lösen. Trotz des großen Potenzials birgt die Technologie dennoch auch Risiken, die es zu berücksichtigen gilt. Welche Vor- und Nachteile der Einsatz der Technologie hat, wird nachfolgend anhand der erzielten Ergebnisse des Experiments erläutert.
Anhand des Anwendungsfalls konnte gezeigt werden, dass synthetische Daten die Entwicklung beschleunigen und somit Kosten senken können. Insbesondere im Hinblick auf die Bereitstellung entsprechender Daten für ein Modelltraining. Vor allem generative KI-Lösungen wie ChatGPT bergen großes Potenzial, um die Datenstruktur selbstständig erlernen und synthetische Daten generieren zu können. Beispielsweise betrug die absolute durchschnittliche Abweichung der Attributsausprägungen je nach Implementierung 0.25 bzw. 0.05. Wobei ein Wert von 0 eine exakte Kopie der Originaldaten bedeuten würde. Auch das CTGAN erzielte einen guten Wert von 0.25, im Gegensatz zum Vanilla GAN mit 0.87. Jedoch sei hier angemerkt, dass Standard-Parametereinstellungen verwendet wurden und durch eine Optimierung der Hyperparameter mit einer Verbesserung zu rechnen sei.
Grundsätzlich ist an dieser Stelle zu erwähnen, dass der Einsatz entsprechender Techniken auch ein optimales Verständnis über diese erforderlich macht. Dies ist der Tatsache geschuldet, dass es sich um Black-Box-Modelle handelt, die sehr undurchsichtig und komplex sein können. Letztendlich hängt die Qualität stark vom Training des generativen Modells ab, wodurch auch die Qualität der Datenpunkte erheblich variieren kann.
Ferner ist zu beachten, dass synthetische Daten kein Ersatz für reale Daten sind. Je nachdem welcher Ansatz für die Generierung synthetischer Daten gewählt wurde, handelt es sich zwangsläufig immer um eine verzerrte Version der realen Daten. Während synthetische Daten verwendet werden können, um die Performanz bei unausgeglichenen Daten zu verbessern, sollte die Bewertung der Daten immer anhand von realen Daten erfolgen. Beispielsweise lieferte der Ansatz basierend auf relativen Häufigkeiten eine absolute mittlere Abweichung von 0. Das liegt daran, dass die Attributausprägungen entsprechend der Häufigkeitsverteilung der Originaldaten entsprechen. Anders sah es beispielsweise bei SMOTE (0.59) bzw. K-Means SMOTE (0.29) aus, die eine deutliche Verzerrung aufweisen. Dies liegt u. a. daran, dass die Grenzpunkte zwischen den einzelnen Klassen nicht gut definiert sind (insbesondere bei den lokalen Anomalien). So liegen bspw. die numerischen Datenausprägungen DMBTR und WRBTR (d.h. die isolierten Punkte) weit in der Region der Mehrheitsklasse. Dadurch kommt es zu einer Überlappung der Grenzpunkte zwischen der Minderheits- und Mehrheitsklasse.
Außerdem sollte im Umgang mit synthetischen Daten darauf geachtet werden, dass keine Informationen außerhalb des Trainingsdatensatzes berücksichtigt werden. Dies würde zu einer übermäßig optimistischen Leistungsschätzung führen. Weil das ML-Modell einen entsprechenden Zugang zu Informationen hat, die diesem in der realen Welt eigentlich nicht zur Verfügung gestanden hätten. Konkret bedeutet das, dass synthetische Daten ausschließlich auf Basis des Trainingsdatensatzes generiert werden sollten. Andernfalls würde die Möglichkeit bestehen, dass im Testdatensatz die gleichen synthetischen Datenpunkte enthalten wären, die auch im Trainingsdatensatz vorhanden sind.
Mit Blick auf die Leistungsverbesserungen wurden gängige Techniken zur Anomalieerkennung wie Random Forest, Isolation Forest, XGBoost und ein Deep Autoencoder implementiert. Während bei Random Forests jeweils eine deutliche Leistungsverbesserung im Vergleich zu den Originaldaten erzielt werden konnte, führten die synthetischen Anomalien beim Isolation Forest jedoch zu keiner wesentlichen bzw. teilweisen Verschlechterung der Leistung. Eine Begründung liegt hier insbesondere in der Funktionsweise und Parametrisierung des Algorithmus, wie anomale Datenpunkte identifiziert werden (d.h. je mehr Splits für die Isolation jedes einzelnen Datenpunktes benötigt werden, desto unwahrscheinlicher handelt es sich um eine Anomalie).
Das mit Abstand beste Ergebnis erzielte der Deep Autoencoder auf den Originaldaten, der in Abhängigkeit des gewählten Schwellwertes für den Rekonstruktionsfehler alle anomalen Transaktionen identifizierten konnte. Eine Erweiterung des Datensatzes mit synthetischen Anomalien war entsprechend nicht mehr erforderlich. Zusammenfassend lässt sich festhalten, dass durch synthetische Daten eine Leistungsverbesserung erzielt werden kann. Entscheidend ist jedoch zum einen die Qualität der Daten, zum anderen die eingesetzte Technik unter Berücksichtigung der Funktionsweise des verwendeten Algorithmus. Auch wenn der Deep Autoencoder sehr gute Ergebnisse erzielt hat, ist das wohl auch der zugrundeliegenden Datenstruktur der anomalen Datenpunkte geschuldet.
Synthetische Daten bietet nicht nur im Hinblick auf eine etwaige Leistungsverbesserung neue Möglichkeiten, sondern auch bezogen auf den Datenschutz und die Privatsphäre. Da keine sensiblen Informationen verwendet werden, bieten synthetische Daten einen erheblichen Schutz vor Verstößen oder Missbrauch. Dadurch eignen sich diese insbesondere in kollaborativen Projekten, in denen eine gemeinsame Nutzung und Analyse erforderlich ist. Zudem lassen sich kollaborativen Umgebungen einfach nutzen, um auf ML-spezifische Hard- und Software zuzugreifen. Allerdings ist der Prozess der Generierung synthetischer Daten mit einigen Herausforderungen verbunden. So muss dieser robust und sicher konzipiert sein. Andernfalls besteht die Möglichkeit, dass synthetische Daten unbeabsichtigt bestimmte Muster des ursprünglichen Datensatzes widerspiegeln. Dadurch besteht wiederum die Gefahr, dass unbeaufsichtigt sensible Details offengelegt werden. Entsprechend erforderlich ist ein kontinuierliches Monitoring der implementierten Verfahren und Techniken.