Synthetische Daten für Anomalieerkennung

Thema und Problemstellung

Das Anwendungsszenario befasst sich mit der Anomalieerkennung in Finanzbuchhaltungsdaten. Im Kern handelt es sich dabei um ein Multiklassen-Klassifikationsproblem, da neben regulären Finanztransaktionen zwischen zwei Anomalieklassen unterschieden wird.

Da Klassifikationsalgorithmen im Kontext der Anomalieerkennung auf die Beispiele der Mehrheitsklasse ausgerichtet sind, ist die Minderheitsklasse (Klasse der Anomalien) entsprechend im ML-Modell unterrepräsentiert. Durch die Voreingenommenheit des Modells gegenüber den dominanten Klassen ist es möglich, dass das Modell entsprechend diese bevorzugt. Dadurch wird eine sehr hohe Genauigkeit in der Erkennung dieser erzielt. Demgegenüber wird für seltene, potenziell signifikante Ereignisse jedoch eine deutlich schlechtere Genauigkeit erreicht.

Diese Unausgeglichenheit der Klassenverteilung kann somit zu Problemen bei der Erkennung von Anomalien führen. Entsprechend irreführend können traditionelle Bewertungsmetriken sein, wodurch selbst bei einer Modell-Genauigkeit von 95% offensichtliche Anomalien übersehen werden. Zudem besteht die Gefahr einer schlechten Generalisierung des Modells, falls dieses auf eine entlang der Minderheitsklasse ausgerichteten Stichprobenziehung trainiert wurde. Basieren die getroffenen Entscheidungen des Modells auf falschen Korrelationen, hat dies nicht nur Auswirkung auf die Wirtschaftlichkeit der Prüfung (siehe Falsch-Positiv-Rate und Falsch-Negativ-Rate), sondern auch auf die Interpretierbarkeit des Modells selbst. Denn insbesondere im Finanz- und Steuerbereich ist die Nachvollziehbarkeit von Modellentscheidungen sowohl aus organisatorischen als auch rechtlichen Gründen von großer Bedeutung.

Das Ziel des Anwendungsfalls ist es, aussagekräftige Transaktionen der Minderheitsklasse zu reproduzieren. Dementsprechend geht es im Anwendungsfall darum, selten vorkommende bzw. anomale Transaktionen zu approximieren. Durch die so erreichte Erhöhung der Menge und Variabilität der wenig vorhandenen Daten soll die Genauigkeit und Performanz eines ML-Modells verbessert werden. Für die Generierung synthetischer Anomalien wurden unterschiedliche Ansätze implementiert. Die Evaluation erfolgte anhand gängiger ML-Techniken zur Anomalieerkennung.

Lösungsarchitektur

Der verwendete Datensatz stammt von Schreyer et al. und orientiert sich an der SAP-Buchungsstruktur [52]. Dieser enthält insgesamt sieben kategorische und zwei numerische Attribute, die in den SAP FICO-Tabellen BKPF (mit den gebuchten Buchungsköpfen) und BSEG (mit den gebuchten Buchungssegmenten) verfügbar sind. Der Datensatz umfasst insgesamt 533.009 Finanztransaktionen, wobei insgesamt 100 Transaktionen als anomal gekennzeichnet sind. Diese lassen sich selbst in 30 lokale Anomalien und 70 globale Anomalien unterscheiden. Die Durchführung des Experiments selbst umfasst insgesamt vier Schritte (vgl. folgende Abbildung).

Lokale Anomalien: Beschreiben Transaktionen, die eine ungewöhnliche oder seltene Kombination von Attributwerten aufweisen, während die einzelnen Attributwerte recht häufig auftreten, z. B. ungewöhnliche Buchungssätze.

Globale Anomalien: Beschreiben Transaktionen, die ungewöhnliche oder seltene individuelle Attributwerte aufweisen. Diese Anomalien beziehen sich in der Regel auf stark verzerrte Attribute, z. B. selten buchende Benutzer, selten verwendete Konten, sehr hohe Buchungsbeträge oder ungewöhnliche Buchungszeiten.

Für die Generierung synthetischer Anomalien wurden Techniken einzeln, aber auch in Kombination verwendet. So wurden Techniken eingesetzt, die die Klassenverteilung in einem Datensatz ausgleichen. Und zwar indem Datenpunkte der Minderheitsklasse entsprechend der Mehrheitsklasse zufällig vervielfältigt (Random Oversampling) bzw. zusätzlich die Anzahl der Datenpunkte der Mehrheitsklasse durch Stichprobenziehung reduziert (Over- und Undersampling) wurden. Außerdem wurden neue Datenpunkte entsprechend der relativen Häufigkeit aller kategorischer Attributausprägungen zufällig erzeugt.

Neben rein statistischen Verfahren wurden auch zusätzlich KI-basierte Ansätze verprobt. So wurde sowohl mit einem Vanilla GAN¹ als auch einem CTGAN², ein auf tabellarische Daten spezialisiertes GAN, neue anomale Datenpunkte generiert. Das Vanilla GAN bzw. CTGAN wurde dazu auf den anomalen Datenpunkten trainiert. Schließlich wurden auch die Möglichkeiten von ChatGPT³ näher analysiert, um auf „Knopfdruck“ Code für die Generierung synthetischer Anomalien zu erzeugen.

Die Bewertung der Qualität der Daten erfolgte durch gängige statistische Ansätze wie den Vergleich der Attributverteilungen, Hypothesentests und Korrelationsanalysen. Darauf aufbauend wurden Techniken ausgewählt, welche die Ursprungsverteilung bestmöglich widerspiegelten, und entlang dedizierter ML-Verfahren zur Anomalieerkennung evaluiert.

Um Data-Leakage zu vermeiden, wurden ausschließlich auf den im zuvor erstellten Trainingsdatensatz enthaltene Anomalien neue synthetische Anomalien erzeugt und in der Trainingsphase berücksichtigt. Für die Evaluation der Ergebnisse wurden klassische Metriken wie Accuracy, Precision und F1-Score verwendet.

Ergebnisse und Fazit

Synthetische Daten sind eine vielversprechende Technologie, um typische Herausforderungen entlang der Themen wie Modelltraining und -verbesserung oder Datenschutz zu lösen. Trotz des großen Potenzials birgt die Technologie dennoch auch Risiken, die es zu berücksichtigen gilt. Welche Vor- und Nachteile der Einsatz der Technologie hat, wird nachfolgend anhand der erzielten Ergebnisse des Experiments erläutert.

Anhand des Anwendungsfalls konnte gezeigt werden, dass synthetische Daten die Entwicklung beschleunigen und somit Kosten senken können. Insbesondere im Hinblick auf die Bereitstellung entsprechender Daten für ein Modelltraining. Vor allem generative KI-Lösungen wie ChatGPT bergen großes Potenzial, um die Datenstruktur selbstständig erlernen und synthetische Daten generieren zu können. Beispielsweise betrug die absolute durchschnittliche Abweichung der Attributsausprägungen je nach Implementierung 0.25 bzw. 0.05. Wobei ein Wert von 0 eine exakte Kopie der Originaldaten bedeuten würde. Auch das CTGAN erzielte einen guten Wert von 0.25, im Gegensatz zum Vanilla GAN mit 0.87. Jedoch sei hier angemerkt, dass Standard-Parametereinstellungen verwendet wurden und durch eine Optimierung der Hyperparameter mit einer Verbesserung zu rechnen sei.

Grundsätzlich ist an dieser Stelle zu erwähnen, dass der Einsatz entsprechender Techniken auch ein optimales Verständnis über diese erforderlich macht. Dies ist der Tatsache geschuldet, dass es sich um Black-Box-Modelle handelt, die sehr undurchsichtig und komplex sein können. Letztendlich hängt die Qualität stark vom Training des generativen Modells ab, wodurch auch die Qualität der Datenpunkte erheblich variieren kann.

Ferner ist zu beachten, dass synthetische Daten kein Ersatz für reale Daten sind. Je nachdem welcher Ansatz für die Generierung synthetischer Daten gewählt wurde, handelt es sich zwangsläufig immer um eine verzerrte Version der realen Daten. Während synthetische Daten verwendet werden können, um die Performanz bei unausgeglichenen Daten zu verbessern, sollte die Bewertung der Daten immer anhand von realen Daten erfolgen. Beispielsweise lieferte der Ansatz basierend auf relativen Häufigkeiten eine absolute mittlere Abweichung von 0. Das liegt daran, dass die Attributausprägungen entsprechend der Häufigkeitsverteilung der Originaldaten entsprechen. Anders sah es beispielsweise bei SMOTE (0.59) bzw. K-Means SMOTE (0.29) aus, die eine deutliche Verzerrung aufweisen. Dies liegt u. a. daran, dass die Grenzpunkte zwischen den einzelnen Klassen nicht gut definiert sind (insbesondere bei den lokalen Anomalien). So liegen bspw. die numerischen Datenausprägungen DMBTR und WRBTR (d.h. die isolierten Punkte) weit in der Region der Mehrheitsklasse. Dadurch kommt es zu einer Überlappung der Grenzpunkte zwischen der Minderheits- und Mehrheitsklasse.

Außerdem sollte im Umgang mit synthetischen Daten darauf geachtet werden, dass keine Informationen außerhalb des Trainingsdatensatzes berücksichtigt werden. Dies würde zu einer übermäßig optimistischen Leistungsschätzung führen. Weil das ML-Modell einen entsprechenden Zugang zu Informationen hat, die diesem in der realen Welt eigentlich nicht zur Verfügung gestanden hätten. Konkret bedeutet das, dass synthetische Daten ausschließlich auf Basis des Trainingsdatensatzes generiert werden sollten. Andernfalls würde die Möglichkeit bestehen, dass im Testdatensatz die gleichen synthetischen Datenpunkte enthalten wären, die auch im Trainingsdatensatz vorhanden sind.

Mit Blick auf die Leistungsverbesserungen wurden gängige Techniken zur Anomalieerkennung wie Random Forest, Isolation Forest, XGBoost und ein Deep Autoencoder implementiert. Während bei Random Forests jeweils eine deutliche Leistungsverbesserung im Vergleich zu den Originaldaten erzielt werden konnte, führten die synthetischen Anomalien beim Isolation Forest jedoch zu keiner wesentlichen bzw. teilweisen Verschlechterung der Leistung. Eine Begründung liegt hier insbesondere in der Funktionsweise und Parametrisierung des Algorithmus, wie anomale Datenpunkte identifiziert werden (d.h. je mehr Splits für die Isolation jedes einzelnen Datenpunktes benötigt werden, desto unwahrscheinlicher handelt es sich um eine Anomalie).

Das mit Abstand beste Ergebnis erzielte der Deep Autoencoder auf den Originaldaten, der in Abhängigkeit des gewählten Schwellwertes für den Rekonstruktionsfehler alle anomalen Transaktionen identifizierten konnte. Eine Erweiterung des Datensatzes mit synthetischen Anomalien war entsprechend nicht mehr erforderlich. Zusammenfassend lässt sich festhalten, dass durch synthetische Daten eine Leistungsverbesserung erzielt werden kann. Entscheidend ist jedoch zum einen die Qualität der Daten, zum anderen die eingesetzte Technik unter Berücksichtigung der Funktionsweise des verwendeten Algorithmus. Auch wenn der Deep Autoencoder sehr gute Ergebnisse erzielt hat, ist das wohl auch der zugrundeliegenden Datenstruktur der anomalen Datenpunkte geschuldet.

Synthetische Daten bietet nicht nur im Hinblick auf eine etwaige Leistungsverbesserung neue Möglichkeiten, sondern auch bezogen auf den Datenschutz und die Privatsphäre. Da keine sensiblen Informationen verwendet werden, bieten synthetische Daten einen erheblichen Schutz vor Verstößen oder Missbrauch. Dadurch eignen sich diese insbesondere in kollaborativen Projekten, in denen eine gemeinsame Nutzung und Analyse erforderlich ist. Zudem lassen sich kollaborativen Umgebungen einfach nutzen, um auf ML-spezifische Hard- und Software zuzugreifen. Allerdings ist der Prozess der Generierung synthetischer Daten mit einigen Herausforderungen verbunden. So muss dieser robust und sicher konzipiert sein. Andernfalls besteht die Möglichkeit, dass synthetische Daten unbeabsichtigt bestimmte Muster des ursprünglichen Datensatzes widerspiegeln. Dadurch besteht wiederum die Gefahr, dass unbeaufsichtigt sensible Details offengelegt werden. Entsprechend erforderlich ist ein kontinuierliches Monitoring der implementierten Verfahren und Techniken.

¹https://github.com/NextBrain-ai/nbsynthetic
²https://github.com/sdv-dev/SDV
³https://chat.openai.com/

Nächster Artikel