Menu
  • Standorte
  • Services
  • Experten
  • Hot Topics
  • News & Knowledge
  • Karriere
  • Über uns
  • Suche
  • Presse
  • Events
  • Kontakt
  • Sprache
  • Berlin
  • Düsseldorf
  • Frankfurt
  • Hamburg
  • Hannover
  • Köln
  • München
  • Nürnberg
  • Regensburg
  • Rosenheim
  • Stuttgart
  • Tax
  • Digital
  • Advisory
  • Legal
  • Industries
  • Centers of Excellence
  • Tax & Digital
  • Advisory
  • News
  • Tax Weekly
  • WTS Journal
  • Newsletter
  • Webinare & Fachveranstaltungen
  • Podcasts
  • Publikationen
  • IFRS Spotlights
  • WTS als Arbeitgeber
  • Warum WTS
  • Benefits
  • Dein Einstieg
  • Stay in Touch
  • FAQs Karriere
  • Jobbörse
  • WTS im Überblick
  • Werte und Vision
  • Unser Management Team
  • Unsere Partner
  • Unsere Geschichte
  • Unsere Standorte
  • Auszeichnungen
  • Corporate Responsibility
  • Tax CMS
  • Corporate Tax
  • Customs
  • Financial Services Tax
  • GreenTax & Energy
  • HR Taxes
  • Indirect Tax
  • International Tax & Permanent Establishments (ITP)
  • International Tax Desks
  • Mergers & Acquisitions Tax
  • Private Clients
  • Tax Controversy / Tax Disputes
  • Transfer Pricing
  • Digital Trends
  • Digital Partnering
  • Digitale Tools und Lösungen
  • End-to-End Prozesse
  • KI im Steuerbereich
  • SAP S/4HANA Tax
  • Übersicht der internationalen Ertragsteuersätze (CIT rates)
  • Case Studies
  • Alle digitalen Services
  • Reporting & Regulatory
  • Digital Finance
  • Deal Advisory
  • Business Partnering
  • Alle Legal Services
  • Civil & Commercial Law
  • Climate Regulation & Energy Law
  • Corporate Law
  • Data Privacy & IT Law
  • Employment Law
  • Global Expatriate Service
  • Legal Operate
  • Litigation
  • Alle Industries Services
  • Banking
  • Insurance
  • Mittelstand
  • Real Estate
  • Performance & Restructuring Tax Services
  • Sustainability Services (ESG)
  • KI im Steuerbereich
  • plAIground
  • Pillar Two
  • US Steuer- & Zollpolitik
  • Country by Country Reporting (CbCR)
  • E-Rechnung | ViDA
  • Sustainability Services (ESG)
  • Steuerliches Investitions-Sofortprogramm
  • SAP S/4HANA Transformation
  • AI
  • Carve Out
  • IPO Readiness
  • IFRS 18
  • Buy-Side M&A
  • Fit for Sale
  • Impairment Test (IFRS/HGB)
  • Refinancing & Distressed Situations
  • Newsletter Übersicht
  • Newsletter Anmeldung
  • Anmeldung Webinare & Fachveranstaltungen
  • TaxOnAir - Der WTS Steuer Podcast
  • FinanceOnAir - Der WTS Advisory Podcast
  • CSRD-Benchmarking 2024
  • KI Studie 2024
  • White Paper & Studien
  • Dein Einstieg als Schüler:in
  • Dein Einstieg als Student:in
  • Dein Einstieg als Absolvent:in
  • Dein Einstieg als Berufserfahrene:r
  • Bewerbungsprozess
  • Partner München
  • Partner Berlin
  • Partner Düsseldorf
  • Partner Frankfurt
  • Partner Hamburg
  • Partner Hannover
  • Partner Köln
  • Partner Nürnberg
  • Partner Regensburg
  • Partner Rosenheim
  • Partner Stuttgart
  • Alle Standorte
  • Standort Hannover
  • Standort Berlin
  • Standort Düsseldorf
  • Standort Frankfurt
  • Standort Hamburg
  • Standort Köln
  • Standort Nürnberg
  • Standort Regensburg
  • Standort Rosenheim
  • Standort Stuttgart
  • Standort München
  • Unsere Umwelt
  • Soziales Engagement
  • Kulturelles Engagement
  • Diversity
  • Integrierte Rechts- und Steuerberatung
  • Internationale Gehalts- und Schattenabrechnungen
  • Internationale Mitarbeiterentsendungen/Globale Mobilität
  • Internationale Mitarbeitereinsätze und Projektgeschäft
  • Lohnsteuer
  • Nationale Lohn- und Reisekostenabrechnungen
  • Sozialversicherungs- und Arbeitsrecht
  • Work from Anywhere
  • HR Beratung
  • DAC 7
  • Compliance Manager
  • Comply
  • plAIground
  • VAT Health-Check
  • CbCR Risk Analyser
  • CbCR-2-XML
  • TPmanager
  • TPcoordinator
  • CbCRmanager
  • Tax CMS
  • Cesop
  • GewStmanager
  • WTS AI Benchmarking Tool
  • Digital Process Automation
  • End-to-End Ertragsteuer-Prozesse
  • End-to-End Umsatzsteuerprozesse
  • End-to-End Zoll-Prozesse
  • End-to-end-Transfer Pricing Prozess
  • End-to-End Grundsteuer-Prozesse
  • Energiewirtschaftliche Prozesse
  • Nachhaltigkeitsreporting GRI207
  • Tax CMS
  • Case Study Hartmann Gruppe
  • Case Study WTS TPcompiler
  • Case Study Berechnung von Verrechnungspreisen
  • Case Study CbCR Table I
  • Accounting & Reporting
  • IPO Vorbereitung
  • ESG Solutions
  • Carve Out & PMI
  • Governance, Risk & Compliance
  • Financial Services
  • Concepts & Systems
  • SAP S/4HANA Transformation
  • Optimization
  • Advanced Analytics
  • Performance
  • Artificial Intelligence (AI)
  • Technology Partner & Tools
  • M&A Strategy
  • Due Diligence
  • Fact Book
  • Valuation
  • Restructuring
  • Modeling Solutions
  • Presse
  • Events
  • Kontakt
Deutsch
English
  • English
  • Deutsch
WTS weltweit
  • WTS Global
  • Albania
  • Algeria
  • Angola
  • Argentina
  • Armenien
  • Australia
  • Austria
  • Bangladesh
  • Belgium
  • Benin
  • Bolivia
  • Bosnien und Herzegowina
  • Botswana
  • Brazil
  • Bulgaria
  • Burkina Faso
  • Burundi
  • Cambodia
  • Cameroon
  • Canada
  • Cape Verde
  • Central African Republic
  • Chad
  • Chile
  • China
  • Colombia
  • Congo Brazzaville
  • Costa Rica
  • Croatia
  • Cyprus
  • Czech Republic
  • Democratic Republic of Congo
  • Denmark
  • Dominican Republic
  • Ecuador
  • Egypt
  • El Salvador
  • Equatorial Guinea
  • Estonia
  • Eswatini
  • Ethiopia
  • Finland
  • Frankreich
  • Gabon
  • Gambia
  • Georgia
  • Germany
  • Ghana
  • Gibraltar
  • Greece
  • Guatemala
  • Guinea
  • Guinea-Bissau
  • Honduras
  • Hong Kong
  • Hungary
  • Iceland
  • India
  • Indonesia
  • Iran
  • Iraq
  • Ireland
  • Israel
  • Italy
  • Ivory Coast
  • Japan
  • Kazakhstan
  • Kenya
  • Korea
  • Kyrgyzstan
  • Laos
  • Latvia
  • Liberia
  • Libya
  • Lithuania
  • Luxembourg
  • Macao
  • Madagascar
  • Malawi
  • Malaysia
  • Mali
  • Malta
  • Mauritania
  • Mauritius
  • Mexico
  • Moldova
  • Montenegro
  • Morocco
  • Mozambique
  • Myanmar
  • Namibia
  • Nepal
  • Netherlands
  • New Zealand
  • Niger
  • Nigeria
  • North Macedonia
  • Norway
  • Pakistan
  • Panama
  • Paraguay
  • Peru
  • Philippines
  • Poland
  • Portugal
  • Puerto Rico
  • Romania
  • Rwanda
  • São Tomé and Príncipe
  • Saudi Arabia
  • Senegal
  • Serbia
  • Sierra Leone
  • Singapore
  • Slovakia
  • Slovenia
  • Somalia
  • South Africa
  • South Sudan
  • Spain
  • Sri Lanka
  • Sudan
  • Sweden
  • Switzerland
  • Taiwan
  • Tanzania
  • Thailand
  • Togo
  • Trinidad and Tobago
  • Tunisia
  • Turkey
  • Turkmenistan
  • Uganda
  • Ukraine
  • United Arab Emirates
  • United Kingdom
  • Uruguay
  • USA
  • Uzbekistan
  • Venezuela
  • Vietnam
  • Zambia
  • Zimbabwe
  • Services Clothing
    • Tax
      • Tax CMS
      • Corporate Tax
      • Customs
      • Financial Services Tax
      • GreenTax & Energy
      • HR Taxes
        • Integrierte Rechts- und Steuerberatung
        • Internationale Gehalts- und Schattenabrechnungen
        • Internationale Mitarbeiterentsendungen/Globale Mobilität
        • Internationale Mitarbeitereinsätze und Projektgeschäft
        • Lohnsteuer
        • Nationale Lohn- und Reisekostenabrechnungen
        • Sozialversicherungs- und Arbeitsrecht
        • Work from Anywhere
        • HR Beratung
      • Indirect Tax
        • DAC 7
      • International Tax & Permanent Establishments (ITP)
      • International Tax Desks
      • Mergers & Acquisitions Tax
      • Private Clients
      • Tax Controversy / Tax Disputes
      • Transfer Pricing
    • Digital
      • Digital Trends
      • Digital Partnering
      • Digitale Tools und Lösungen
        • Compliance Manager
        • Comply
        • plAIground
        • VAT Health-Check
        • CbCR Risk Analyser
        • CbCR-2-XML
        • TPmanager
        • TPcoordinator
        • CbCRmanager
        • Tax CMS
        • Cesop
        • GewStmanager
        • WTS AI Benchmarking Tool
        • Digital Process Automation
      • End-to-End Prozesse
        • End-to-End Ertragsteuer-Prozesse
        • End-to-End Umsatzsteuerprozesse
        • End-to-End Zoll-Prozesse
        • End-to-end-Transfer Pricing Prozess
        • End-to-End Grundsteuer-Prozesse
        • Energiewirtschaftliche Prozesse
        • Nachhaltigkeitsreporting GRI207
        • Tax CMS
      • KI im Steuerbereich
      • SAP S/4HANA Tax
      • Übersicht der internationalen Ertragsteuersätze (CIT rates)
      • Case Studies
        • Case Study Hartmann Gruppe
        • Case Study WTS TPcompiler
        • Case Study Berechnung von Verrechnungspreisen
        • Case Study CbCR Table I
      • Alle digitalen Services
    • Advisory
      • Reporting & Regulatory
        • Accounting & Reporting
        • IPO Vorbereitung
        • ESG Solutions
        • Carve Out & PMI
        • Governance, Risk & Compliance
        • Financial Services
      • Digital Finance
        • Concepts & Systems
        • SAP S/4HANA Transformation
        • Optimization
        • Advanced Analytics
        • Performance
        • Artificial Intelligence (AI)
        • Technology Partner & Tools
      • Deal Advisory
        • M&A Strategy
        • Due Diligence
        • Fact Book
        • Valuation
        • Restructuring
        • Modeling Solutions
      • Business Partnering
    • Legal
      • Alle Legal Services
      • Civil & Commercial Law
      • Climate Regulation & Energy Law
      • Corporate Law
      • Data Privacy & IT Law
      • Employment Law
      • Global Expatriate Service
      • Legal Operate
      • Litigation
    • Industries
      • Alle Industries Services
      • Banking
      • Insurance
      • Mittelstand
      • Real Estate
    • Centers of Excellence
      • Performance & Restructuring Tax Services
      • Sustainability Services (ESG)
    Services

    Mehr über unsere umfassenden Services

    ESG 

    Unsere Sustainability Services im Überblick

  • Experten
  • Hot Topics Clothing
    • Tax & Digital
      • KI im Steuerbereich
      • plAIground
      • Pillar Two
      • US Steuer- & Zollpolitik
      • Country by Country Reporting (CbCR)
      • E-Rechnung | ViDA
      • Sustainability Services (ESG)
      • Steuerliches Investitions-Sofortprogramm
    • Advisory
      • SAP S/4HANA Transformation
      • AI
      • Carve Out
      • IPO Readiness
      • IFRS 18
      • Buy-Side M&A
      • Fit for Sale
      • Impairment Test (IFRS/HGB)
      • Refinancing & Distressed Situations
    Buy-Side M&A

    Unternehmenskauf mit WTS Advisory: M&A-Prozesse strategisch steuern statt nur reagieren. 

    Investitionsbooster

    Alles zum steuerlichen Investitionssofortprogramm. 

  • News & Knowledge Clothing
    • News
    • Tax Weekly
    • WTS Journal
    • Newsletter
      • Newsletter Übersicht
      • Newsletter Anmeldung
    • Webinare & Fachveranstaltungen
      • Anmeldung Webinare & Fachveranstaltungen
    • Podcasts
      • TaxOnAir - Der WTS Steuer Podcast
      • FinanceOnAir - Der WTS Advisory Podcast
    • Publikationen
      • CSRD-Benchmarking 2024
      • KI Studie 2024
      • White Paper & Studien
    • IFRS Spotlights
    Unser TaxOnAir Podcast
  • Karriere Clothing
    • WTS als Arbeitgeber
    • Warum WTS
    • Benefits
    • Dein Einstieg
      • Dein Einstieg als Schüler:in
      • Dein Einstieg als Student:in
      • Dein Einstieg als Absolvent:in
      • Dein Einstieg als Berufserfahrene:r
      • Bewerbungsprozess
    • Stay in Touch
    • FAQs Karriere
    • Jobbörse
    Deine Karriere bei WTS 

    Different. Like you.

  • Über uns Clothing
    • WTS im Überblick
    • Werte und Vision
    • Unser Management Team
    • Unsere Partner
      • Partner München
      • Partner Berlin
      • Partner Düsseldorf
      • Partner Frankfurt
      • Partner Hamburg
      • Partner Hannover
      • Partner Köln
      • Partner Nürnberg
      • Partner Regensburg
      • Partner Rosenheim
      • Partner Stuttgart
    • Unsere Geschichte
    • Unsere Standorte
      • Alle Standorte
      • Standort Hannover
      • Standort Berlin
      • Standort Düsseldorf
      • Standort Frankfurt
      • Standort Hamburg
      • Standort Köln
      • Standort Nürnberg
      • Standort Regensburg
      • Standort Rosenheim
      • Standort Stuttgart
      • Standort München
    • Auszeichnungen
    • Corporate Responsibility
      • Unsere Umwelt
      • Soziales Engagement
      • Kulturelles Engagement
      • Diversity
    Über uns

    WTS im Überblick: Was uns besonders macht

    Interesse an unseren Kunstführungen im Münchner Werksviertel? 

  • Suche
  • KI Studie Übersicht
  • Editorial
  • Zusammenfassung
  • Einleitung
  • Aktuelle Entwicklungen der Ki
  • KI-Anwendungen im Steuerbereich
  • Anwendungsszenarien
  • Schlussfolgerung
  • Glossar
  • Literatur
  • Inhaltsverzeichnis
  • Suche
  • KI Studie Übersicht Anwendungsszenarien Synthetische Daten für Anomalieerkennung

Synthetische Daten für Anomalieerkennung

Thema und Problemstellung

Das Anwendungsszenario befasst sich mit der Anomalieerkennung in Finanzbuchhaltungsdaten. Im Kern handelt es sich dabei um ein Multiklassen-Klassifikationsproblem, da neben regulären Finanztransaktionen zwischen zwei Anomalieklassen unterschieden wird.

Da Klassifikationsalgorithmen im Kontext der Anomalieerkennung auf die Beispiele der Mehrheitsklasse ausgerichtet sind, ist die Minderheitsklasse (Klasse der Anomalien) entsprechend im ML-Modell unterrepräsentiert. Durch die Voreingenommenheit des Modells gegenüber den dominanten Klassen ist es möglich, dass das Modell entsprechend diese bevorzugt. Dadurch wird eine sehr hohe Genauigkeit in der Erkennung dieser erzielt. Demgegenüber wird für seltene, potenziell signifikante Ereignisse jedoch eine deutlich schlechtere Genauigkeit erreicht.

Diese Unausgeglichenheit der Klassenverteilung kann somit zu Problemen bei der Erkennung von Anomalien führen. Entsprechend irreführend können traditionelle Bewertungsmetriken sein, wodurch selbst bei einer Modell-Genauigkeit von 95% offensichtliche Anomalien übersehen werden. Zudem besteht die Gefahr einer schlechten Generalisierung des Modells, falls dieses auf eine entlang der Minderheitsklasse ausgerichteten Stichprobenziehung trainiert wurde. Basieren die getroffenen Entscheidungen des Modells auf falschen Korrelationen, hat dies nicht nur Auswirkung auf die Wirtschaftlichkeit der Prüfung (siehe Falsch-Positiv-Rate und Falsch-Negativ-Rate), sondern auch auf die Interpretierbarkeit des Modells selbst. Denn insbesondere im Finanz- und Steuerbereich ist die Nachvollziehbarkeit von Modellentscheidungen sowohl aus organisatorischen als auch rechtlichen Gründen von großer Bedeutung.

Das Ziel des Anwendungsfalls ist es, aussagekräftige Transaktionen der Minderheitsklasse zu reproduzieren. Dementsprechend geht es im Anwendungsfall darum, selten vorkommende bzw. anomale Transaktionen zu approximieren. Durch die so erreichte Erhöhung der Menge und Variabilität der wenig vorhandenen Daten soll die Genauigkeit und Performanz eines ML-Modells verbessert werden. Für die Generierung synthetischer Anomalien wurden unterschiedliche Ansätze implementiert. Die Evaluation erfolgte anhand gängiger ML-Techniken zur Anomalieerkennung.

Lösungsarchitektur

Der verwendete Datensatz stammt von Schreyer et al. und orientiert sich an der SAP-Buchungsstruktur [52]. Dieser enthält insgesamt sieben kategorische und zwei numerische Attribute, die in den SAP FICO-Tabellen BKPF (mit den gebuchten Buchungsköpfen) und BSEG (mit den gebuchten Buchungssegmenten) verfügbar sind. Der Datensatz umfasst insgesamt 533.009 Finanztransaktionen, wobei insgesamt 100 Transaktionen als anomal gekennzeichnet sind. Diese lassen sich selbst in 30 lokale Anomalien und 70 globale Anomalien unterscheiden. Die Durchführung des Experiments selbst umfasst insgesamt vier Schritte (vgl. folgende Abbildung).

Lokale Anomalien: Beschreiben Transaktionen, die eine ungewöhnliche oder seltene Kombination von Attributwerten aufweisen, während die einzelnen Attributwerte recht häufig auftreten, z. B. ungewöhnliche Buchungssätze.

Globale Anomalien: Beschreiben Transaktionen, die ungewöhnliche oder seltene individuelle Attributwerte aufweisen. Diese Anomalien beziehen sich in der Regel auf stark verzerrte Attribute, z. B. selten buchende Benutzer, selten verwendete Konten, sehr hohe Buchungsbeträge oder ungewöhnliche Buchungszeiten.

Für die Generierung synthetischer Anomalien wurden Techniken einzeln, aber auch in Kombination verwendet. So wurden Techniken eingesetzt, die die Klassenverteilung in einem Datensatz ausgleichen. Und zwar indem Datenpunkte der Minderheitsklasse entsprechend der Mehrheitsklasse zufällig vervielfältigt (Random Oversampling) bzw. zusätzlich die Anzahl der Datenpunkte der Mehrheitsklasse durch Stichprobenziehung reduziert (Over- und Undersampling) wurden. Außerdem wurden neue Datenpunkte entsprechend der relativen Häufigkeit aller kategorischer Attributausprägungen zufällig erzeugt.

Neben rein statistischen Verfahren wurden auch zusätzlich KI-basierte Ansätze verprobt. So wurde sowohl mit einem Vanilla GAN1 als auch einem CTGAN2, ein auf tabellarische Daten spezialisiertes GAN, neue anomale Datenpunkte generiert. Das Vanilla GAN bzw. CTGAN wurde dazu auf den anomalen Datenpunkten trainiert. Schließlich wurden auch die Möglichkeiten von ChatGPT3 näher analysiert, um auf „Knopfdruck“ Code für die Generierung synthetischer Anomalien zu erzeugen.

Die Bewertung der Qualität der Daten erfolgte durch gängige statistische Ansätze wie den Vergleich der Attributverteilungen, Hypothesentests und Korrelationsanalysen. Darauf aufbauend wurden Techniken ausgewählt, welche die Ursprungsverteilung bestmöglich widerspiegelten, und entlang dedizierter ML-Verfahren zur Anomalieerkennung evaluiert.

Um Data-Leakage zu vermeiden, wurden ausschließlich auf den im zuvor erstellten Trainingsdatensatz enthaltene Anomalien neue synthetische Anomalien erzeugt und in der Trainingsphase berücksichtigt. Für die Evaluation der Ergebnisse wurden klassische Metriken wie Accuracy, Precision und F1-Score verwendet.

 

Ergebnisse und Fazit

Synthetische Daten sind eine vielversprechende Technologie, um typische Herausforderungen entlang der Themen wie Modelltraining und -verbesserung oder Datenschutz zu lösen. Trotz des großen Potenzials birgt die Technologie dennoch auch Risiken, die es zu berücksichtigen gilt. Welche Vor- und Nachteile der Einsatz der Technologie hat, wird nachfolgend anhand der erzielten Ergebnisse des Experiments erläutert.

Anhand des Anwendungsfalls konnte gezeigt werden, dass synthetische Daten die Entwicklung beschleunigen und somit Kosten senken können. Insbesondere im Hinblick auf die Bereitstellung entsprechender Daten für ein Modelltraining. Vor allem generative KI-Lösungen wie ChatGPT bergen großes Potenzial, um die Datenstruktur selbstständig erlernen und synthetische Daten generieren zu können. Beispielsweise betrug die absolute durchschnittliche Abweichung der Attributsausprägungen je nach Implementierung 0.25 bzw. 0.05. Wobei ein Wert von 0 eine exakte Kopie der Originaldaten bedeuten würde. Auch das CTGAN erzielte einen guten Wert von 0.25, im Gegensatz zum Vanilla GAN mit 0.87. Jedoch sei hier angemerkt, dass Standard-Parametereinstellungen verwendet wurden und durch eine Optimierung der Hyperparameter mit einer Verbesserung zu rechnen sei.

Grundsätzlich ist an dieser Stelle zu erwähnen, dass der Einsatz entsprechender Techniken auch ein optimales Verständnis über diese erforderlich macht. Dies ist der Tatsache geschuldet, dass es sich um Black-Box-Modelle handelt, die sehr undurchsichtig und komplex sein können. Letztendlich hängt die Qualität stark vom Training des generativen Modells ab, wodurch auch die Qualität der Datenpunkte erheblich variieren kann.

Ferner ist zu beachten, dass synthetische Daten kein Ersatz für reale Daten sind. Je nachdem welcher Ansatz für die Generierung synthetischer Daten gewählt wurde, handelt es sich zwangsläufig immer um eine verzerrte Version der realen Daten. Während synthetische Daten verwendet werden können, um die Performanz bei unausgeglichenen Daten zu verbessern, sollte die Bewertung der Daten immer anhand von realen Daten erfolgen. Beispielsweise lieferte der Ansatz basierend auf relativen Häufigkeiten eine absolute mittlere Abweichung von 0. Das liegt daran, dass die Attributausprägungen entsprechend der Häufigkeitsverteilung der Originaldaten entsprechen. Anders sah es beispielsweise bei SMOTE (0.59) bzw. K-Means SMOTE (0.29) aus, die eine deutliche Verzerrung aufweisen. Dies liegt u. a. daran, dass die Grenzpunkte zwischen den einzelnen Klassen nicht gut definiert sind (insbesondere bei den lokalen Anomalien). So liegen bspw. die numerischen Datenausprägungen DMBTR und WRBTR (d.h. die isolierten Punkte) weit in der Region der Mehrheitsklasse. Dadurch kommt es zu einer Überlappung der Grenzpunkte zwischen der Minderheits- und Mehrheitsklasse.

Außerdem sollte im Umgang mit synthetischen Daten darauf geachtet werden, dass keine Informationen außerhalb des Trainingsdatensatzes berücksichtigt werden. Dies würde zu einer übermäßig optimistischen Leistungsschätzung führen. Weil das ML-Modell einen entsprechenden Zugang zu Informationen hat, die diesem in der realen Welt eigentlich nicht zur Verfügung gestanden hätten. Konkret bedeutet das, dass synthetische Daten ausschließlich auf Basis des Trainingsdatensatzes generiert werden sollten. Andernfalls würde die Möglichkeit bestehen, dass im Testdatensatz die gleichen synthetischen Datenpunkte enthalten wären, die auch im Trainingsdatensatz vorhanden sind.

Mit Blick auf die Leistungsverbesserungen wurden gängige Techniken zur Anomalieerkennung wie Random Forest, Isolation Forest, XGBoost und ein Deep Autoencoder implementiert. Während bei Random Forests jeweils eine deutliche Leistungsverbesserung im Vergleich zu den Originaldaten erzielt werden konnte, führten die synthetischen Anomalien beim Isolation Forest jedoch zu keiner wesentlichen bzw. teilweisen Verschlechterung der Leistung. Eine Begründung liegt hier insbesondere in der Funktionsweise und Parametrisierung des Algorithmus, wie anomale Datenpunkte identifiziert werden (d.h. je mehr Splits für die Isolation jedes einzelnen Datenpunktes benötigt werden, desto unwahrscheinlicher handelt es sich um eine Anomalie).

Das mit Abstand beste Ergebnis erzielte der Deep Autoencoder auf den Originaldaten, der in Abhängigkeit des gewählten Schwellwertes für den Rekonstruktionsfehler alle anomalen Transaktionen identifizierten konnte. Eine Erweiterung des Datensatzes mit synthetischen Anomalien war entsprechend nicht mehr erforderlich. Zusammenfassend lässt sich festhalten, dass durch synthetische Daten eine Leistungsverbesserung erzielt werden kann. Entscheidend ist jedoch zum einen die Qualität der Daten, zum anderen die eingesetzte Technik unter Berücksichtigung der Funktionsweise des verwendeten Algorithmus. Auch wenn der Deep Autoencoder sehr gute Ergebnisse erzielt hat, ist das wohl auch der zugrundeliegenden Datenstruktur der anomalen Datenpunkte geschuldet.

Synthetische Daten bietet nicht nur im Hinblick auf eine etwaige Leistungsverbesserung neue Möglichkeiten, sondern auch bezogen auf den Datenschutz und die Privatsphäre. Da keine sensiblen Informationen verwendet werden, bieten synthetische Daten einen erheblichen Schutz vor Verstößen oder Missbrauch. Dadurch eignen sich diese insbesondere in kollaborativen Projekten, in denen eine gemeinsame Nutzung und Analyse erforderlich ist. Zudem lassen sich kollaborativen Umgebungen einfach nutzen, um auf ML-spezifische Hard- und Software zuzugreifen. Allerdings ist der Prozess der Generierung synthetischer Daten mit einigen Herausforderungen verbunden. So muss dieser robust und sicher konzipiert sein. Andernfalls besteht die Möglichkeit, dass synthetische Daten unbeabsichtigt bestimmte Muster des ursprünglichen Datensatzes widerspiegeln. Dadurch besteht wiederum die Gefahr, dass unbeaufsichtigt sensible Details offengelegt werden. Entsprechend erforderlich ist ein kontinuierliches Monitoring der implementierten Verfahren und Techniken.


1https://github.com/NextBrain-ai/nbsynthetic
2https://github.com/sdv-dev/SDV
3https://chat.openai.com/

Nächster Artikel

weitere Artikel

Automatisierte Generierung von Verrechnungspreisdokumentationen
Automatisierung des Transfer Pricing Benchmarking Prozess
Informationsextraktion aus Grundsteuerbescheiden
Umsatzsteuerliche Klassifizierung von Leistungsbeschreibungen von Rechnungen
Kombination großer Sprachmodelle mit Wissensgraphen

Kontaktieren Sie uns noch heute

Sie haben Fragen zu unseren Services oder der WTS? Lassen Sie es uns wissen. Schreiben Sie uns einfach eine E-Mail oder rufen Sie uns direkt an.

Kontakt
Services
  • Tax
  • Digital
  • Advisory
  • Industries
  • Legal
Hot Topics
  • KI im Steuerbereich
  • plAIground
  • Pillar Two
  • Sustainability Services (ESG)
  • E-Rechnung | ViDA
Karriere
  • Jobbörse
  • WTS als Arbeitgeber
  • Warum WTS
  • Dein Einstieg
  • Stay in Touch
News & Knowledge
  • Tax Weekly
  • Newsletter Übersicht
  • WTS Journal
  • Newsletter Anmeldung
Über WTS
  • Experten
  • Über uns
  • Werte und Vision
  • Unsere Partner
  • Corporate Responsibility
  • Auszeichnungen
© 2025 WTS Impressum Unternehmensangaben Disclaimer Datenschutzerklärung Hinweisgebersystem AGBs Informationen für Lieferanten BMF Portal