Menu
  • Standorte
  • Services
  • Experten
  • Hot Topics
  • News & Knowledge
  • Karriere
  • Über uns
  • Suche
  • Presse
  • Events
  • Kontakt
  • Sprache
  • Berlin
  • Düsseldorf
  • Frankfurt
  • Hamburg
  • Hannover
  • Köln
  • München
  • Nürnberg
  • Regensburg
  • Rosenheim
  • Stuttgart
  • Tax
  • Digital
  • Advisory
  • Legal
  • Industries
  • Centers of Excellence
  • Tax & Digital
  • Advisory
  • News
  • Tax Weekly
  • WTS Journal
  • Newsletter
  • Webinare & Fachveranstaltungen
  • Podcasts
  • Publikationen
  • IFRS Spotlights
  • WTS als Arbeitgeber
  • Warum WTS
  • Benefits
  • Dein Einstieg
  • Stay in Touch
  • FAQs Karriere
  • Jobbörse
  • WTS im Überblick
  • Werte und Vision
  • Unser Management Team
  • Unsere Partner
  • Unsere Geschichte
  • Unsere Standorte
  • Auszeichnungen
  • Corporate Responsibility
  • Tax CMS
  • Corporate Tax
  • Customs
  • Financial Services Tax
  • GreenTax & Energy
  • HR Taxes
  • Indirect Tax
  • International Tax & Permanent Establishments (ITP)
  • International Tax Desks
  • Mergers & Acquisitions Tax
  • Private Clients
  • Tax Controversy / Tax Disputes
  • Transfer Pricing
  • Digital Trends
  • Digital Partnering
  • Digitale Tools und Lösungen
  • End-to-End Prozesse
  • KI im Steuerbereich
  • SAP S/4HANA Tax
  • Übersicht der internationalen Ertragsteuersätze (CIT rates)
  • Case Studies
  • Alle digitalen Services
  • Reporting & Regulatory
  • Digital Finance
  • Deal Advisory
  • Business Partnering
  • Alle Legal Services
  • Civil & Commercial Law
  • Climate Regulation & Energy Law
  • Corporate Law
  • Data Privacy & IT Law
  • Employment Law
  • Global Expatriate Service
  • Legal Operate
  • Litigation
  • Alle Industries Services
  • Banking
  • Insurance
  • Mittelstand
  • Real Estate
  • Performance & Restructuring Tax Services
  • Sustainability Services (ESG)
  • KI im Steuerbereich
  • plAIground
  • Pillar Two
  • US Steuer- & Zollpolitik
  • Country by Country Reporting (CbCR)
  • E-Rechnung | ViDA
  • Sustainability Services (ESG)
  • Steuerliches Investitions-Sofortprogramm
  • SAP S/4HANA Transformation
  • AI
  • Carve Out
  • IPO Readiness
  • IFRS 18
  • Buy-Side M&A
  • Fit for Sale
  • Impairment Test (IFRS/HGB)
  • Refinancing & Distressed Situations
  • Newsletter Übersicht
  • Newsletter Anmeldung
  • Anmeldung Webinare & Fachveranstaltungen
  • TaxOnAir - Der WTS Steuer Podcast
  • FinanceOnAir - Der WTS Advisory Podcast
  • CSRD-Benchmarking 2024
  • KI Studie 2024
  • White Paper & Studien
  • Dein Einstieg als Schüler:in
  • Dein Einstieg als Student:in
  • Dein Einstieg als Absolvent:in
  • Dein Einstieg als Berufserfahrene:r
  • Bewerbungsprozess
  • Partner München
  • Partner Berlin
  • Partner Düsseldorf
  • Partner Frankfurt
  • Partner Hamburg
  • Partner Hannover
  • Partner Köln
  • Partner Nürnberg
  • Partner Regensburg
  • Partner Rosenheim
  • Partner Stuttgart
  • Alle Standorte
  • Standort Hannover
  • Standort Berlin
  • Standort Düsseldorf
  • Standort Frankfurt
  • Standort Hamburg
  • Standort Köln
  • Standort Nürnberg
  • Standort Regensburg
  • Standort Rosenheim
  • Standort Stuttgart
  • Standort München
  • Unsere Umwelt
  • Soziales Engagement
  • Kulturelles Engagement
  • Diversity
  • Integrierte Rechts- und Steuerberatung
  • Internationale Gehalts- und Schattenabrechnungen
  • Internationale Mitarbeiterentsendungen/Globale Mobilität
  • Internationale Mitarbeitereinsätze und Projektgeschäft
  • Lohnsteuer
  • Nationale Lohn- und Reisekostenabrechnungen
  • Sozialversicherungs- und Arbeitsrecht
  • Work from Anywhere
  • HR Beratung
  • DAC 7
  • Compliance Manager
  • Comply
  • plAIground
  • VAT Health-Check
  • CbCR Risk Analyser
  • CbCR-2-XML
  • TPmanager
  • TPcoordinator
  • CbCRmanager
  • Tax CMS
  • Cesop
  • GewStmanager
  • WTS AI Benchmarking Tool
  • Digital Process Automation
  • End-to-End Ertragsteuer-Prozesse
  • End-to-End Umsatzsteuerprozesse
  • End-to-End Zoll-Prozesse
  • End-to-end-Transfer Pricing Prozess
  • End-to-End Grundsteuer-Prozesse
  • Energiewirtschaftliche Prozesse
  • Nachhaltigkeitsreporting GRI207
  • Tax CMS
  • Case Study Hartmann Gruppe
  • Case Study WTS TPcompiler
  • Case Study Berechnung von Verrechnungspreisen
  • Case Study CbCR Table I
  • Accounting & Reporting
  • IPO Vorbereitung
  • ESG Solutions
  • Carve Out & PMI
  • Governance, Risk & Compliance
  • Financial Services
  • Concepts & Systems
  • SAP S/4HANA Transformation
  • Optimization
  • Advanced Analytics
  • Performance
  • Artificial Intelligence (AI)
  • Technology Partner & Tools
  • M&A Strategy
  • Due Diligence
  • Fact Book
  • Valuation
  • Restructuring
  • Modeling Solutions
  • Presse
  • Events
  • Kontakt
Deutsch
English
  • English
  • Deutsch
WTS weltweit
  • WTS Global
  • Albania
  • Algeria
  • Angola
  • Argentina
  • Armenien
  • Australia
  • Austria
  • Bangladesh
  • Belgium
  • Benin
  • Bolivia
  • Bosnien und Herzegowina
  • Botswana
  • Brazil
  • Bulgaria
  • Burkina Faso
  • Burundi
  • Cambodia
  • Cameroon
  • Canada
  • Cape Verde
  • Central African Republic
  • Chad
  • Chile
  • China
  • Colombia
  • Congo Brazzaville
  • Costa Rica
  • Croatia
  • Cyprus
  • Czech Republic
  • Democratic Republic of Congo
  • Denmark
  • Dominican Republic
  • Ecuador
  • Egypt
  • El Salvador
  • Equatorial Guinea
  • Estonia
  • Eswatini
  • Ethiopia
  • Finland
  • Frankreich
  • Gabon
  • Gambia
  • Georgia
  • Germany
  • Ghana
  • Gibraltar
  • Greece
  • Guatemala
  • Guinea
  • Guinea-Bissau
  • Honduras
  • Hong Kong
  • Hungary
  • Iceland
  • India
  • Indonesia
  • Iran
  • Iraq
  • Ireland
  • Israel
  • Italy
  • Ivory Coast
  • Japan
  • Kazakhstan
  • Kenya
  • Korea
  • Kyrgyzstan
  • Laos
  • Latvia
  • Liberia
  • Libya
  • Lithuania
  • Luxembourg
  • Macao
  • Madagascar
  • Malawi
  • Malaysia
  • Mali
  • Malta
  • Mauritania
  • Mauritius
  • Mexico
  • Moldova
  • Montenegro
  • Morocco
  • Mozambique
  • Myanmar
  • Namibia
  • Nepal
  • Netherlands
  • New Zealand
  • Niger
  • Nigeria
  • North Macedonia
  • Norway
  • Pakistan
  • Panama
  • Paraguay
  • Peru
  • Philippines
  • Poland
  • Portugal
  • Puerto Rico
  • Romania
  • Rwanda
  • São Tomé and Príncipe
  • Saudi Arabia
  • Senegal
  • Serbia
  • Sierra Leone
  • Singapore
  • Slovakia
  • Slovenia
  • Somalia
  • South Africa
  • South Sudan
  • Spain
  • Sri Lanka
  • Sudan
  • Sweden
  • Switzerland
  • Taiwan
  • Tanzania
  • Thailand
  • Togo
  • Trinidad and Tobago
  • Tunisia
  • Turkey
  • Turkmenistan
  • Uganda
  • Ukraine
  • United Arab Emirates
  • United Kingdom
  • Uruguay
  • USA
  • Uzbekistan
  • Venezuela
  • Vietnam
  • Zambia
  • Zimbabwe
  • Services Clothing
    • Tax
      • Tax CMS
      • Corporate Tax
      • Customs
      • Financial Services Tax
      • GreenTax & Energy
      • HR Taxes
        • Integrierte Rechts- und Steuerberatung
        • Internationale Gehalts- und Schattenabrechnungen
        • Internationale Mitarbeiterentsendungen/Globale Mobilität
        • Internationale Mitarbeitereinsätze und Projektgeschäft
        • Lohnsteuer
        • Nationale Lohn- und Reisekostenabrechnungen
        • Sozialversicherungs- und Arbeitsrecht
        • Work from Anywhere
        • HR Beratung
      • Indirect Tax
        • DAC 7
      • International Tax & Permanent Establishments (ITP)
      • International Tax Desks
      • Mergers & Acquisitions Tax
      • Private Clients
      • Tax Controversy / Tax Disputes
      • Transfer Pricing
    • Digital
      • Digital Trends
      • Digital Partnering
      • Digitale Tools und Lösungen
        • Compliance Manager
        • Comply
        • plAIground
        • VAT Health-Check
        • CbCR Risk Analyser
        • CbCR-2-XML
        • TPmanager
        • TPcoordinator
        • CbCRmanager
        • Tax CMS
        • Cesop
        • GewStmanager
        • WTS AI Benchmarking Tool
        • Digital Process Automation
      • End-to-End Prozesse
        • End-to-End Ertragsteuer-Prozesse
        • End-to-End Umsatzsteuerprozesse
        • End-to-End Zoll-Prozesse
        • End-to-end-Transfer Pricing Prozess
        • End-to-End Grundsteuer-Prozesse
        • Energiewirtschaftliche Prozesse
        • Nachhaltigkeitsreporting GRI207
        • Tax CMS
      • KI im Steuerbereich
      • SAP S/4HANA Tax
      • Übersicht der internationalen Ertragsteuersätze (CIT rates)
      • Case Studies
        • Case Study Hartmann Gruppe
        • Case Study WTS TPcompiler
        • Case Study Berechnung von Verrechnungspreisen
        • Case Study CbCR Table I
      • Alle digitalen Services
    • Advisory
      • Reporting & Regulatory
        • Accounting & Reporting
        • IPO Vorbereitung
        • ESG Solutions
        • Carve Out & PMI
        • Governance, Risk & Compliance
        • Financial Services
      • Digital Finance
        • Concepts & Systems
        • SAP S/4HANA Transformation
        • Optimization
        • Advanced Analytics
        • Performance
        • Artificial Intelligence (AI)
        • Technology Partner & Tools
      • Deal Advisory
        • M&A Strategy
        • Due Diligence
        • Fact Book
        • Valuation
        • Restructuring
        • Modeling Solutions
      • Business Partnering
    • Legal
      • Alle Legal Services
      • Civil & Commercial Law
      • Climate Regulation & Energy Law
      • Corporate Law
      • Data Privacy & IT Law
      • Employment Law
      • Global Expatriate Service
      • Legal Operate
      • Litigation
    • Industries
      • Alle Industries Services
      • Banking
      • Insurance
      • Mittelstand
      • Real Estate
    • Centers of Excellence
      • Performance & Restructuring Tax Services
      • Sustainability Services (ESG)
    Services

    Mehr über unsere umfassenden Services

    ESG 

    Unsere Sustainability Services im Überblick

  • Experten
  • Hot Topics Clothing
    • Tax & Digital
      • KI im Steuerbereich
      • plAIground
      • Pillar Two
      • US Steuer- & Zollpolitik
      • Country by Country Reporting (CbCR)
      • E-Rechnung | ViDA
      • Sustainability Services (ESG)
      • Steuerliches Investitions-Sofortprogramm
    • Advisory
      • SAP S/4HANA Transformation
      • AI
      • Carve Out
      • IPO Readiness
      • IFRS 18
      • Buy-Side M&A
      • Fit for Sale
      • Impairment Test (IFRS/HGB)
      • Refinancing & Distressed Situations
    Buy-Side M&A

    Unternehmenskauf mit WTS Advisory: M&A-Prozesse strategisch steuern statt nur reagieren. 

    Investitionsbooster

    Alles zum steuerlichen Investitionssofortprogramm. 

  • News & Knowledge Clothing
    • News
    • Tax Weekly
    • WTS Journal
    • Newsletter
      • Newsletter Übersicht
      • Newsletter Anmeldung
    • Webinare & Fachveranstaltungen
      • Anmeldung Webinare & Fachveranstaltungen
    • Podcasts
      • TaxOnAir - Der WTS Steuer Podcast
      • FinanceOnAir - Der WTS Advisory Podcast
    • Publikationen
      • CSRD-Benchmarking 2024
      • KI Studie 2024
      • White Paper & Studien
    • IFRS Spotlights
    Unser TaxOnAir Podcast
  • Karriere Clothing
    • WTS als Arbeitgeber
    • Warum WTS
    • Benefits
    • Dein Einstieg
      • Dein Einstieg als Schüler:in
      • Dein Einstieg als Student:in
      • Dein Einstieg als Absolvent:in
      • Dein Einstieg als Berufserfahrene:r
      • Bewerbungsprozess
    • Stay in Touch
    • FAQs Karriere
    • Jobbörse
    Deine Karriere bei WTS 

    Different. Like you.

  • Über uns Clothing
    • WTS im Überblick
    • Werte und Vision
    • Unser Management Team
    • Unsere Partner
      • Partner München
      • Partner Berlin
      • Partner Düsseldorf
      • Partner Frankfurt
      • Partner Hamburg
      • Partner Hannover
      • Partner Köln
      • Partner Nürnberg
      • Partner Regensburg
      • Partner Rosenheim
      • Partner Stuttgart
    • Unsere Geschichte
    • Unsere Standorte
      • Alle Standorte
      • Standort Hannover
      • Standort Berlin
      • Standort Düsseldorf
      • Standort Frankfurt
      • Standort Hamburg
      • Standort Köln
      • Standort Nürnberg
      • Standort Regensburg
      • Standort Rosenheim
      • Standort Stuttgart
      • Standort München
    • Auszeichnungen
    • Corporate Responsibility
      • Unsere Umwelt
      • Soziales Engagement
      • Kulturelles Engagement
      • Diversity
    Über uns

    WTS im Überblick: Was uns besonders macht

    Interesse an unseren Kunstführungen im Münchner Werksviertel? 

  • Suche
  • KI Studie Übersicht
  • Editorial
  • Zusammenfassung
  • Einleitung
  • Aktuelle Entwicklungen der Ki
  • KI-Anwendungen im Steuerbereich
  • Anwendungsszenarien
  • Schlussfolgerung
  • Glossar
  • Literatur
  • Inhaltsverzeichnis
  • Suche
  • KI Studie Übersicht Anwendungsszenarien Informationsextraktion aus Grundsteuerbescheiden

Informationsextraktion aus Grundsteuerbescheiden

Thema & Problemstellung

Die Dokumentenverarbeitung stellt einen zentralen Bestandteil der alltäglichen Unternehmenstätigkeiten dar. Insbesondere die Extraktion der in Dokumenten enthaltenen Informationen und deren anschließende Weiterverarbeitung (bspw. Transfer in relevante Informationssysteme) ist ein häufig wiederkehrender Arbeitsablauf. Hinzu kommt, dass papierbasierte Dokumente nach wie vor eine große Rolle beim Informationsaustausch im unternehmerischen Kontext (im Sinne von B2B, B2C und B2G) spielen[45] und damit zentrale Informationen über die unternehmerischen Geschäftsbeziehungen beinhalten. Oft unterliegen diese Informationen zusätzlichen Compliance-Anforderungen, wodurch eine fehlerfreie Erfassung von Informationen unerlässlich ist.

Aufgrund der zuvor geschilderten Gegebenheiten und dem gleichzeitig hohen Automatisierungspotenzial hat sich die Dokumentenverarbeitung als ein prädestinierter Anwendungsfall für RPA entwickelt[14], [46]. Durch die oft analogen Speicherformate liegen die enthaltenen Informationen ohne weitere Verarbeitungsschritte nicht in einem maschinenlesbaren Format vor. Zusätzlich weisen entsprechende Dokumente häufig unstrukturierte oder semistrukturierte Formate mit abweichenden Layouts auf, bedingt durch unterschiedliche Absender der Dokumente. So greifen Unternehmen in der Regel auf ihre eigenen Rechnungsformate zurück und Finanzämter nutzen eigene Vorlagen für die von ihnen ausgestellten Steuerbescheide. Dadurch wird es für automatisierte Extraktionssysteme recht schwer, entsprechende Daten zu identifizieren und auszulesen.

Dank der technologischen Fortschritte im Bereich Deep Learning der letzten Jahre wurde verstärkt erforscht, inwiefern Deep Learning für die Informationsextraktion aus komplexen Dokumententypen realisiert werden kann. Dabei wurden bemerkenswerte Verbesserungen (im Sinne der Extraktionsergebnisse) gegenüber zuvor existierenden regelbasierten und einfacheren ML-Verfahren erzielt. Mit Hilfe dieser Deep Learning Konzepte ist es also möglich, dass sich mit entsprechenden KI-Modellen nicht nur rein textuelle Inhalte (basierend auf OCR), sondern auch visuelle und layout-orientiert Informationen der Dokumente verarbeiten lassen. So können bspw. fettgedruckte Wörter oder Wörter mit erhöhter Schriftgröße etwaige Hinweise auf zentrale Inhalte innerhalb der Dokumente geben und zugleich eine Orientierungshilfe bieten. Solche visuellen Hinweise werden bei einer manuellen Dokumentenverarbeitung durch einen Sachbearbeiter ebenfalls implizit und explizit genutzt.

Die Forschung befasst sich in jüngster Vergangenheit intensiv damit, wie sich diese verschiedenen Informationsmodalitäten bestmöglich in KI-Modelle integrieren lassen. Insgesamt erfolgt somit eine intelligente Informationsextraktion, die zukünftig über eine rein sequenzielle Textverarbeitung weit hinausgeht.

Lösungsarchitektur

In diesem Zusammenhang wurde in Kooperation zwischen WTS und DFKI ein Prototyp entwickelt, welcher eine Deep-Learning-basierte Informationsextraktion aus Einheitswertbescheiden ermöglicht. Hintergrund ist die derzeitige Grundsteuerreform und den dadurch bedingten Verwaltungsaufwänden seitens Steuerabteilungen und steuerpflichtigen Mandanten. Konkret dient die entwickelte KI-Lösung dazu, sämtliche Grundsteuerwert- und Grundsteuermessbetragsbescheide sowie Grundsteuerbescheide der einzelnen Mandanten automatisiert auszulesen und die darin enthaltenen Informationen in einer zentralen Datenbasis aufzubereiten.

Ziel ist es, einen umfassenden Überblick über die Grundbesitzverhältnisse und deren zentralen Kennzahlen wie bspw. Einheitswerte bzw. Grundsteuerwerte, Grundstücksarten und Bebauungen zu erfassen. Basierend auf dieser Datengrundlage kann in nachgelagerten Prüfschritten untersucht werden, ob bspw. die von Finanzämtern bzw. Gemeinden festgesetzten Werte auch den (intern) erwarteten Werten entsprechen.

Durch die Extraktion des Dokumentendatums aus den Grundsteuerwert- und Grundsteuermessbetragsbescheiden kann ebenfalls erfasst werden, bis wann (im Falle von Abweichungen) ein entsprechender Einspruch eingelegt werden kann. Der entwickelte Prototyp setzt an der Informationsextraktion der Einheitswert- bzw- Grundsteuerwert- und Grundsteuermessbetragsbescheide an und liefert somit die Basis für die geschilderten nachgelagerten Prüfschritte. Der Prototyp basiert auf einem hybriden System bestehend aus zwei grundlegenden Komponenten, um die jeweiligen Stärken und Schwächen der beiden Methoden auszunutzen und eine robustere Extraktion zu ermöglichen (vgl. folgende Abbildung).

Das Extraktionssystem selbst wurde in einer separat entwickelten Webanwendung eingebettet. Ziel dabei ist, die Verwendung so einfach wie möglich zu gestalten – unabhängig vom technischen Hintergrund der jeweiligen Endanwender. Dazu ermöglicht die Webanwendung einen Upload der zu verarbeitenden Dokumente, welche auch zu Aufgabengruppen zusammengefasst werden können, sowie die anschließende Ausführung des Extraktionssystems im Hintergrund.

Schritt 1 – Zusätzliche Vorverarbeitungsschritte: Vor der eigentlichen Extraktion verschiedene Vorverarbeitungsschritte durchgeführt, um die Bildqualität und dadurch bedingt die Extraktionsqualität zu verbessern. Ziel dabei ist, bspw. schlechte Dokumentenscans mit schiefer Ausrichtung oder evtl. vorhandene Scan-Artefakte zu reduzieren bzw. zu beseitigen. Bei verschiedenen Tests hat sich herausgestellt, dass insbesondere die korrekte Dokumentenausrichtung maßgeblich zur Ergebnisverbesserung beitragen konnte. Denn dadurch muss das OCR-System keine schiefen Texte verarbeiten, was nicht selten zu Fehlern führt.

Schritt 2 – Regelbasierte Verarbeitung: Der regelbasierte Teil wird durch sog. reguläre Ausdrücke umgesetzt, die auf dem extrahierten Text der Dokumente agieren und innerhalb dieser Texte nach gewissen, vordefinierten Mustern und Formulierungen suchen. Immer mit dem Ziel, die gewünschten Informationen zu extrahieren. Ein solches regelbasiertes Vorgehen äußert sich zwar durch einen relativ hohen Aufwand, der für die Erstellung entsprechender Regeln aufgebracht werden muss, kann aber dennoch sehr gute Extraktionsergebnisse liefern. Zudem bietet es aufgrund der Verständlichkeit zugehöriger Regeln bzw. Muster zugleich ein hohes Maß an Transparenz[47].

Schritt 3 – Deep-Learning-basierte Verarbeitung: Diese Komponente basiert auf der Transformer-Architektur. Da sie ursprünglich für die Verarbeitung linearer Textsequenzen konzipiert wurde, musste sie für den hier vorliegenden Anwendungsfall erweitert werden. Dadurch ist das Modell nun in der Lage, Informationen zu Positionen von Wörtern im Dokument sowie visuelle Informationen der Dokumente in Form von Pixeldaten zu erfassen. Positionsinformationen werden durch Koordinaten sowie Breite und Höhe der Wörter auf den Dokumenten angegeben. Die Integration dieser Informationsquellen ermöglicht dem Modell, positions-orientierte Beziehungen zwischen den Wörtern auf den Dokumenten zu lernen. Die Informationsextraktion wird dadurch gelöst, dass das Modell für jedes identifizierte Wort auf einem Dokument eine Klasse (bspw. Aktenzeichen) vorhersagt. Basierend auf diesen Vorhersagen können dann für die jeweiligen Klassen entsprechend zugeordnete Wörter erfasst werden.

Schritt 4 – Validierung der Ergebnisse: Sobald die Extraktion abgeschlossen ist, kann der Benutzer die Validierung der Ergebnisse durchführen. Dadurch lässt sich sicherzustellen, dass die Inhalte korrekt extrahiert wurden. Hierfür wurde eine Benutzeroberfläche entwickelt, welche einerseits das zugrundeliegende, navigierbare Dokument und andererseits die extrahierten Texte der einzelnen Klassen bzw. Felder übersichtlich und nach Bescheiden getrennt anzeigt. Hier können vom Benutzer die jeweiligen Texte angepasst und/oder ergänzt bzw. entfernt werden, um potenzielle Extraktionsfehler zu entfernen.

Ergebnisse und Fazit

Die Prototypentwicklung, also die Regelentwicklung wie auch das Modelltraining, wurde anhand von rund 2200 zur Verfügung gestellten Einheitswertbescheiden umgesetzt. Die zugrundeliegende Datenbasis setzt sich aus vielen unterschiedlichen Layouts zusammen und umfasst eine sehr große Zeitspanne mit teilweise über 30 Jahre alten Einheitswertbescheiden. Diese heterogene Datengrundlage ermöglicht es, u. a. Aussagen darüber zu treffen wie generalisierend das System auf unbekannte Formate ist.

Eine quantitative Evaluation, die misst, wie gut die extrahierten Informationen (in textueller Form) gegenüber den tatsächlich korrekten Informationen sind, hat ergeben, dass das System ca. 86 % der Informationen korrekt und fehlerfrei extrahiert. Auffällig ist, dass sich die Ergebnisse je nach zu extrahierendem Feld stärker unterscheiden. Beispielsweise wurde das Aktenzeichen in 97,5 % der Fälle fehlerfrei extrahiert. Auf der anderen Seite wurden die Angaben zu den Straßen der Grundstücke nur zu 45 % fehlerfrei erkannt. Der Hauptgrund für diese Diskrepanzen liegt an der OCR-Extraktion, welche die auf den Dokumenten enthaltenen Texte nicht immer korrekt erkennt.

Aufgrund dessen sind Informationen zu Straßennamen inkl. Hausnummern oder andere Zusätze mit langen zugehörigen Texten sehr fehleranfällig. Und zwar in dem Sinne, dass innerhalb dieser Texte mit hoher Wahrscheinlichkeit mindestens ein falsch erkanntes Zeichen vorliegt. Dadurch können der extrahierte und tatsächliche Wert minimal voneinander abweichen. In diesem Zusammenhang sei aber auch erwähnt, dass solche geringfügigen Extraktionsfehler bei gewissen Feldern wie Straßennamen weniger gravierend sind. Kritische Felder wie das Aktenzeichen, das für eine eindeutige Identifikation der Grundsteuerbescheide notwendig ist, wurden wie oben geschildert sehr gut extrahiert.

Zusätzlich wurde eine erste Umfrage mit dem Personenkreis erhoben, der mit dem Prototyp gearbeitet hat. Das Ergebnis: Durch den Einsatz der KI-Lösung kann die Prozesslaufzeit der Informationsextraktion gegenüber einer rein manuellen Verarbeitung um 25 % bis 50 % reduziert werden. Diese Effizienzsteigerungen resultieren u. a. aus der Tatsache, dass der Endanwender die PDF-Dokumente nicht mehr manuell durchgehen, Bescheide identifizieren und anschließend die enthaltenen Informationen auslesen muss. Außerdem übernimmt der Prototyp die Übertragung der extrahierten Inhalte in ein konsistentes Datenformat. Dadurch müssen die Informationen nicht mehr manuell in eine andere Stelle, bspw. eine Exceldatei, übertragen werden. Folglich wird die Arbeitslast des Sachbearbeiters auf die reine Validierung der automatisiert extrahierten Informationen reduziert.

Aus der Entwicklung des Prototypens ging hervor, dass eine zentrale Herausforderung von automatisierten Extraktionssystemen in der Praxis das zugrundeliegende OCR-System ist. Insbesondere wenn externe OCR-Systeme verwendet werden, die nicht auf den eigenen Dokumenten der Organisation feinjustiert wurden. Denn dann kann es zu vielen falsch erkannten Zeichen kommen, die sich negativ auf das nachgelagerte System zur Informationsextraktion auswirken.

Neben der eigentlichen Performanz des OCR-Systems kann auch die Scanqualität die Extraktionsergebnisse erheblich beeinflussen, wie eingangs bereits geschildert. Insbesondere Stempel, Unterschriften und weitere handschriftliche Notizen kommen nicht selten in der Praxis vor. Allerdings können all diese Elemente die zu extrahierenden Inhalte überdecken und damit die Texterkennung verschlechtern[48]. Gerade für Anwendungsfälle, bei denen die extrahierten Daten ausnahmslos fehlerfrei sein müssen, wird somit die Einbindung eines anschließenden Validierungsprozesses notwendig, im Zuge dessen eine manuelle Validierung der zuvor extrahierten Inhalte stattfindet[46], [48].

Nächster Artikel

weitere Artikel

Automatisierte Generierung von Verrechnungspreisdokumentationen
Automatisierung des Transfer Pricing Benchmarking Prozess
Synthetische Daten für Anomalieerkennung
Umsatzsteuerliche Klassifizierung von Leistungsbeschreibungen von Rechnungen
Kombination großer Sprachmodelle mit Wissensgraphen

Kontaktieren Sie uns noch heute

Sie haben Fragen zu unseren Services oder der WTS? Lassen Sie es uns wissen. Schreiben Sie uns einfach eine E-Mail oder rufen Sie uns direkt an.

Kontakt
Services
  • Tax
  • Digital
  • Advisory
  • Industries
  • Legal
Hot Topics
  • KI im Steuerbereich
  • plAIground
  • Pillar Two
  • Sustainability Services (ESG)
  • E-Rechnung | ViDA
Karriere
  • Jobbörse
  • WTS als Arbeitgeber
  • Warum WTS
  • Dein Einstieg
  • Stay in Touch
News & Knowledge
  • Tax Weekly
  • Newsletter Übersicht
  • WTS Journal
  • Newsletter Anmeldung
Über WTS
  • Experten
  • Über uns
  • Werte und Vision
  • Unsere Partner
  • Corporate Responsibility
  • Auszeichnungen
© 2025 WTS Impressum Unternehmensangaben Disclaimer Datenschutzerklärung Hinweisgebersystem AGBs Informationen für Lieferanten BMF Portal