Menu
  • Standorte
  • Services
  • Experten
  • Hot Topics
  • News & Knowledge
  • Karriere
  • Über uns
  • Suche
  • Presse
  • Events
  • Kontakt
  • Sprache
  • Berlin
  • Düsseldorf
  • Frankfurt
  • Hamburg
  • Hannover
  • Köln
  • München
  • Nürnberg
  • Regensburg
  • Rosenheim
  • Stuttgart
  • Tax
  • Digital
  • Advisory
  • Legal
  • Industries
  • Centers of Excellence
  • Tax & Digital
  • Advisory
  • News
  • Tax Weekly
  • WTS Journal
  • Newsletter
  • Webinare & Fachveranstaltungen
  • Podcasts
  • Publikationen
  • IFRS Spotlights
  • WTS als Arbeitgeber
  • Warum WTS
  • Benefits
  • Dein Einstieg
  • Stay in Touch
  • FAQs Karriere
  • Jobbörse
  • WTS im Überblick
  • Werte und Vision
  • Unser Management Team
  • Unsere Partner
  • Unsere Geschichte
  • Unsere Standorte
  • Auszeichnungen
  • Corporate Responsibility
  • Tax CMS
  • Corporate Tax
  • Customs
  • Financial Services Tax
  • GreenTax & Energy
  • HR Taxes
  • Indirect Tax
  • International Tax & Permanent Establishments (ITP)
  • International Tax Desks
  • Mergers & Acquisitions Tax
  • Private Clients
  • Tax Controversy / Tax Disputes
  • Transfer Pricing
  • Digital Trends
  • Digital Partnering
  • Digitale Tools und Lösungen
  • End-to-End Prozesse
  • KI im Steuerbereich
  • SAP S/4HANA Tax
  • Übersicht der internationalen Ertragsteuersätze (CIT rates)
  • Case Studies
  • Alle digitalen Services
  • Reporting & Regulatory
  • Digital Finance
  • Deal Advisory
  • Business Partnering
  • Alle Legal Services
  • Civil & Commercial Law
  • Climate Regulation & Energy Law
  • Corporate Law
  • Data Privacy & IT Law
  • Employment Law
  • Global Expatriate Service
  • Legal Operate
  • Litigation
  • Alle Industries Services
  • Banking
  • Insurance
  • Mittelstand
  • Real Estate
  • Performance & Restructuring Tax Services
  • Sustainability Services (ESG)
  • KI im Steuerbereich
  • plAIground
  • Pillar Two
  • US Steuer- & Zollpolitik
  • Country by Country Reporting (CbCR)
  • E-Rechnung | ViDA
  • Sustainability Services (ESG)
  • Steuerliches Investitions-Sofortprogramm
  • SAP S/4HANA Transformation
  • AI
  • Carve Out
  • IPO Readiness
  • IFRS 18
  • Buy-Side M&A
  • Fit for Sale
  • Impairment Test (IFRS/HGB)
  • Refinancing & Distressed Situations
  • Newsletter Übersicht
  • Newsletter Anmeldung
  • Anmeldung Webinare & Fachveranstaltungen
  • TaxOnAir - Der WTS Steuer Podcast
  • FinanceOnAir - Der WTS Advisory Podcast
  • CSRD-Benchmarking 2024
  • KI Studie 2024
  • White Paper & Studien
  • Dein Einstieg als Schüler:in
  • Dein Einstieg als Student:in
  • Dein Einstieg als Absolvent:in
  • Dein Einstieg als Berufserfahrene:r
  • Bewerbungsprozess
  • Partner München
  • Partner Berlin
  • Partner Düsseldorf
  • Partner Frankfurt
  • Partner Hamburg
  • Partner Hannover
  • Partner Köln
  • Partner Nürnberg
  • Partner Regensburg
  • Partner Rosenheim
  • Partner Stuttgart
  • Alle Standorte
  • Standort Hannover
  • Standort Berlin
  • Standort Düsseldorf
  • Standort Frankfurt
  • Standort Hamburg
  • Standort Köln
  • Standort Nürnberg
  • Standort Regensburg
  • Standort Rosenheim
  • Standort Stuttgart
  • Standort München
  • Unsere Umwelt
  • Soziales Engagement
  • Kulturelles Engagement
  • Diversity
  • Integrierte Rechts- und Steuerberatung
  • Internationale Gehalts- und Schattenabrechnungen
  • Internationale Mitarbeiterentsendungen/Globale Mobilität
  • Internationale Mitarbeitereinsätze und Projektgeschäft
  • Lohnsteuer
  • Nationale Lohn- und Reisekostenabrechnungen
  • Sozialversicherungs- und Arbeitsrecht
  • Work from Anywhere
  • HR Beratung
  • DAC 7
  • Compliance Manager
  • Comply
  • plAIground
  • VAT Health-Check
  • CbCR Risk Analyser
  • CbCR-2-XML
  • TPmanager
  • TPcoordinator
  • CbCRmanager
  • Tax CMS
  • Cesop
  • GewStmanager
  • WTS AI Benchmarking Tool
  • Digital Process Automation
  • End-to-End Ertragsteuer-Prozesse
  • End-to-End Umsatzsteuerprozesse
  • End-to-End Zoll-Prozesse
  • End-to-end-Transfer Pricing Prozess
  • End-to-End Grundsteuer-Prozesse
  • Energiewirtschaftliche Prozesse
  • Nachhaltigkeitsreporting GRI207
  • Tax CMS
  • Case Study Hartmann Gruppe
  • Case Study WTS TPcompiler
  • Case Study Berechnung von Verrechnungspreisen
  • Case Study CbCR Table I
  • Accounting & Reporting
  • IPO Vorbereitung
  • ESG Solutions
  • Carve Out & PMI
  • Governance, Risk & Compliance
  • Financial Services
  • Concepts & Systems
  • SAP S/4HANA Transformation
  • Optimization
  • Advanced Analytics
  • Performance
  • Artificial Intelligence (AI)
  • Technology Partner & Tools
  • M&A Strategy
  • Due Diligence
  • Fact Book
  • Valuation
  • Restructuring
  • Modeling Solutions
  • Presse
  • Events
  • Kontakt
Deutsch
English
  • English
  • Deutsch
WTS weltweit
  • WTS Global
  • Albania
  • Algeria
  • Angola
  • Argentina
  • Armenien
  • Australia
  • Austria
  • Bangladesh
  • Belgium
  • Benin
  • Bolivia
  • Bosnien und Herzegowina
  • Botswana
  • Brazil
  • Bulgaria
  • Burkina Faso
  • Burundi
  • Cambodia
  • Cameroon
  • Canada
  • Cape Verde
  • Central African Republic
  • Chad
  • Chile
  • China
  • Colombia
  • Congo Brazzaville
  • Costa Rica
  • Croatia
  • Cyprus
  • Czech Republic
  • Democratic Republic of Congo
  • Denmark
  • Dominican Republic
  • Ecuador
  • Egypt
  • El Salvador
  • Equatorial Guinea
  • Estonia
  • Eswatini
  • Ethiopia
  • Finland
  • Frankreich
  • Gabon
  • Gambia
  • Georgia
  • Germany
  • Ghana
  • Gibraltar
  • Greece
  • Guatemala
  • Guinea
  • Guinea-Bissau
  • Honduras
  • Hong Kong
  • Hungary
  • Iceland
  • India
  • Indonesia
  • Iran
  • Iraq
  • Ireland
  • Israel
  • Italy
  • Ivory Coast
  • Japan
  • Kazakhstan
  • Kenya
  • Korea
  • Kyrgyzstan
  • Laos
  • Latvia
  • Liberia
  • Libya
  • Lithuania
  • Luxembourg
  • Macao
  • Madagascar
  • Malawi
  • Malaysia
  • Mali
  • Malta
  • Mauritania
  • Mauritius
  • Mexico
  • Moldova
  • Montenegro
  • Morocco
  • Mozambique
  • Myanmar
  • Namibia
  • Nepal
  • Netherlands
  • New Zealand
  • Niger
  • Nigeria
  • North Macedonia
  • Norway
  • Pakistan
  • Panama
  • Paraguay
  • Peru
  • Philippines
  • Poland
  • Portugal
  • Puerto Rico
  • Romania
  • Rwanda
  • São Tomé and Príncipe
  • Saudi Arabia
  • Senegal
  • Serbia
  • Sierra Leone
  • Singapore
  • Slovakia
  • Slovenia
  • Somalia
  • South Africa
  • South Sudan
  • Spain
  • Sri Lanka
  • Sudan
  • Sweden
  • Switzerland
  • Taiwan
  • Tanzania
  • Thailand
  • Togo
  • Trinidad and Tobago
  • Tunisia
  • Turkey
  • Turkmenistan
  • Uganda
  • Ukraine
  • United Arab Emirates
  • United Kingdom
  • Uruguay
  • USA
  • Uzbekistan
  • Venezuela
  • Vietnam
  • Zambia
  • Zimbabwe
  • Services Clothing
    • Tax
      • Tax CMS
      • Corporate Tax
      • Customs
      • Financial Services Tax
      • GreenTax & Energy
      • HR Taxes
        • Integrierte Rechts- und Steuerberatung
        • Internationale Gehalts- und Schattenabrechnungen
        • Internationale Mitarbeiterentsendungen/Globale Mobilität
        • Internationale Mitarbeitereinsätze und Projektgeschäft
        • Lohnsteuer
        • Nationale Lohn- und Reisekostenabrechnungen
        • Sozialversicherungs- und Arbeitsrecht
        • Work from Anywhere
        • HR Beratung
      • Indirect Tax
        • DAC 7
      • International Tax & Permanent Establishments (ITP)
      • International Tax Desks
      • Mergers & Acquisitions Tax
      • Private Clients
      • Tax Controversy / Tax Disputes
      • Transfer Pricing
    • Digital
      • Digital Trends
      • Digital Partnering
      • Digitale Tools und Lösungen
        • Compliance Manager
        • Comply
        • plAIground
        • VAT Health-Check
        • CbCR Risk Analyser
        • CbCR-2-XML
        • TPmanager
        • TPcoordinator
        • CbCRmanager
        • Tax CMS
        • Cesop
        • GewStmanager
        • WTS AI Benchmarking Tool
        • Digital Process Automation
      • End-to-End Prozesse
        • End-to-End Ertragsteuer-Prozesse
        • End-to-End Umsatzsteuerprozesse
        • End-to-End Zoll-Prozesse
        • End-to-end-Transfer Pricing Prozess
        • End-to-End Grundsteuer-Prozesse
        • Energiewirtschaftliche Prozesse
        • Nachhaltigkeitsreporting GRI207
        • Tax CMS
      • KI im Steuerbereich
      • SAP S/4HANA Tax
      • Übersicht der internationalen Ertragsteuersätze (CIT rates)
      • Case Studies
        • Case Study Hartmann Gruppe
        • Case Study WTS TPcompiler
        • Case Study Berechnung von Verrechnungspreisen
        • Case Study CbCR Table I
      • Alle digitalen Services
    • Advisory
      • Reporting & Regulatory
        • Accounting & Reporting
        • IPO Vorbereitung
        • ESG Solutions
        • Carve Out & PMI
        • Governance, Risk & Compliance
        • Financial Services
      • Digital Finance
        • Concepts & Systems
        • SAP S/4HANA Transformation
        • Optimization
        • Advanced Analytics
        • Performance
        • Artificial Intelligence (AI)
        • Technology Partner & Tools
      • Deal Advisory
        • M&A Strategy
        • Due Diligence
        • Fact Book
        • Valuation
        • Restructuring
        • Modeling Solutions
      • Business Partnering
    • Legal
      • Alle Legal Services
      • Civil & Commercial Law
      • Climate Regulation & Energy Law
      • Corporate Law
      • Data Privacy & IT Law
      • Employment Law
      • Global Expatriate Service
      • Legal Operate
      • Litigation
    • Industries
      • Alle Industries Services
      • Banking
      • Insurance
      • Mittelstand
      • Real Estate
    • Centers of Excellence
      • Performance & Restructuring Tax Services
      • Sustainability Services (ESG)
    Services

    Mehr über unsere umfassenden Services

    ESG 

    Unsere Sustainability Services im Überblick

  • Experten
  • Hot Topics Clothing
    • Tax & Digital
      • KI im Steuerbereich
      • plAIground
      • Pillar Two
      • US Steuer- & Zollpolitik
      • Country by Country Reporting (CbCR)
      • E-Rechnung | ViDA
      • Sustainability Services (ESG)
      • Steuerliches Investitions-Sofortprogramm
    • Advisory
      • SAP S/4HANA Transformation
      • AI
      • Carve Out
      • IPO Readiness
      • IFRS 18
      • Buy-Side M&A
      • Fit for Sale
      • Impairment Test (IFRS/HGB)
      • Refinancing & Distressed Situations
    Buy-Side M&A

    Unternehmenskauf mit WTS Advisory: M&A-Prozesse strategisch steuern statt nur reagieren. 

    Investitionsbooster

    Alles zum steuerlichen Investitionssofortprogramm. 

  • News & Knowledge Clothing
    • News
    • Tax Weekly
    • WTS Journal
    • Newsletter
      • Newsletter Übersicht
      • Newsletter Anmeldung
    • Webinare & Fachveranstaltungen
      • Anmeldung Webinare & Fachveranstaltungen
    • Podcasts
      • TaxOnAir - Der WTS Steuer Podcast
      • FinanceOnAir - Der WTS Advisory Podcast
    • Publikationen
      • CSRD-Benchmarking 2024
      • KI Studie 2024
      • White Paper & Studien
    • IFRS Spotlights
    Unser TaxOnAir Podcast
  • Karriere Clothing
    • WTS als Arbeitgeber
    • Warum WTS
    • Benefits
    • Dein Einstieg
      • Dein Einstieg als Schüler:in
      • Dein Einstieg als Student:in
      • Dein Einstieg als Absolvent:in
      • Dein Einstieg als Berufserfahrene:r
      • Bewerbungsprozess
    • Stay in Touch
    • FAQs Karriere
    • Jobbörse
    Deine Karriere bei WTS 

    Different. Like you.

  • Über uns Clothing
    • WTS im Überblick
    • Werte und Vision
    • Unser Management Team
    • Unsere Partner
      • Partner München
      • Partner Berlin
      • Partner Düsseldorf
      • Partner Frankfurt
      • Partner Hamburg
      • Partner Hannover
      • Partner Köln
      • Partner Nürnberg
      • Partner Regensburg
      • Partner Rosenheim
      • Partner Stuttgart
    • Unsere Geschichte
    • Unsere Standorte
      • Alle Standorte
      • Standort Hannover
      • Standort Berlin
      • Standort Düsseldorf
      • Standort Frankfurt
      • Standort Hamburg
      • Standort Köln
      • Standort Nürnberg
      • Standort Regensburg
      • Standort Rosenheim
      • Standort Stuttgart
      • Standort München
    • Auszeichnungen
    • Corporate Responsibility
      • Unsere Umwelt
      • Soziales Engagement
      • Kulturelles Engagement
      • Diversity
    Über uns

    WTS im Überblick: Was uns besonders macht

    Interesse an unseren Kunstführungen im Münchner Werksviertel? 

  • Suche
  • KI Studie Übersicht
  • Editorial
  • Zusammenfassung
  • Einleitung
  • Aktuelle Entwicklungen der Ki
  • KI-Anwendungen im Steuerbereich
  • Anwendungsszenarien
  • Schlussfolgerung
  • Glossar
  • Literatur
  • Inhaltsverzeichnis
  • Suche
  • KI Studie Übersicht Anwendungsszenarien Umsatzsteuerliche Klassifizierung von Leistungsbeschreibungen von Rechnungen

Umsatzsteuerliche Klassifizierung von Leistungsbeschreibungen von Rechnungen

Thema & Problemstellung

Nach § 14 Abs. 4 Satz 1 Nr. 5 UStG muss eine Rechnung zur Berechtigung des Vorsteuerabzugs eine Leistungsbeschreibung enthalten. Diese soll es ermöglichen, die Leistung eindeutig zu identifizieren und leicht nachprüfbar zu machen. Aufgrund einer zu allgemeinen Formulierung, dem Mangel an Details oder branchenspezifischer Besonderheiten kann es jedoch zur Ablehnung des Vorsteuerabzugs kommen.

Prinzipiell werden mit dem Schreiben vom 01.12.2021 des Bundesministeriums für Finanzen (BMF)1 die inhaltlichen Voraussetzungen für die Bezeichnung einer Leistung in einer Rechnung näher definiert. Dennoch ist nach wie vor nicht eindeutig bestimmt, was eine zutreffende Leistungsbeschreibung tatsächlich ist. Der Interpretationsspielraum, ob bspw. eine Ware in der Leistungsbeschreibung als „handelsüblich“ beschrieben wurde, stellt insbesondere Steuerabteilungen in Unternehmen vor eine große Herausforderung. So gelten Lieferungen mit Gattungsbezeichnungen wie „T-Shirt“, „Bluse“ o. ä. als handelsüblich. Demgegenüber ist bei sonstigen Leistungen keine entsprechende Angabe vorgesehen. So wird z. B. die Leistungsbeschreibung „Erbringung juristischer Dienstleistungen“ von der Finanzverwaltung als eine nicht ausreichende Leistungsbeschreibung beurteilt2.

Da die Kontrolle der Leistungsbeschreibung komplex und häufig noch manuell erfolgt, befasst sich vorliegendes Anwendungsszenario mit der Frage, inwieweit sich große Sprachmodelle für die Klassifikation von Leistungsbeschreibungen nutzen lassen können. Ähnlich einem Vier-Augen-Prinzip soll durch die KI eine Vorabprüfung stattfinden, sodass der Steuerexperte nur noch solche Leistungsbeschreibungen manuell prüfen muss, die tendenziell nicht für einen Vorsteuerabzug ausreichend sind. Aufgrund des repetitiven Charakters des Prüfprozesses, aber auch der Quantität an zu prüfende Rechnungen, birgt dieser Ansatz ein enormes Automatisierungspotenzial, welches den Steuerexperten in dessen täglichen Arbeit maßgeblich entlasten können.

Lösungsarchitektur

Ziel des Anwendungsszenarios ist die Bewertung, inwieweit sich große Sprachmodelle mit ihrem vorhandenen allgemeinen Wissen und ihrer Generalisierungsfähigkeit für die Klassifikation von Leistungsbeschreibungen nutzen lassen. Für die Anpassung eines LLM an eine spezifische Aufgabe gibt es unterschiedliche Ansätze, die in der Literatur diskutiert werden [40]. Die Lösungsarchitektur des Anwendungsfalls basiert auf unterschiedlichen Prompt-Tuning-Ansätzen.

Hard Prompt Tuning: Der Fokus liegt weniger auf der Bereitstellung von Kontextinformationen, sondern auf der Ermittlung der besten Prompt-Formulierung. Durch eine möglichst präzise Formulierung soll dem Sprachmodell wenig Interpretationsspielraum gegeben werden, um so eine möglichst präzise Antwort zu erhalten. Entsprechend wurden unterschiedliche Formulierungen verprobt und evaluiert.

In-Context Learning (ICL): Die Idee besteht darin, Beispiele und zusätzliche Informationen zur Lösung der spezifischen Aufgabe bereitzustellen. Dadurch ist das Sprachmodell in der Lage, das gewünschte Verhalten und Informationen abzuleiten und entsprechende Antworten zu generieren. Der Vorteil liegt darin, dass für diese Art des Fine-Tunings nur eine begrenzt oder gar keine gelabelten Trainingsdaten verfügbar sein müssen. Außerdem lässt sich der Ansatz schnell implementieren und auch perspektivisch für andere steuerliche Aufgaben nutzen, bei denen ein Fine-Tuning der Modellparameter nicht möglich ist, z. B. aufgrund fehlendem Direktzugriff auf das Sprachmodell.

Few-shot Prompt-Tuning: Bei diesem verprobten Verfahren handelt es sich um eine Methode, im Zuge derer das LLM auf eine spezifische Aufgabe anhand einer sehr begrenzten Anzahl von Beispielen angepasst wird – den sogenannten „Shots“.

Die Umsetzung des Anwendungsfalls erfolgte in Form eines binären Klassifikationsproblems auf den zwei LLMs LeoLM3- und GPT-44.

LeoLM: Dabei handelt es sich um ein auf der deutschen Sprache optimiertes Llama-2-Modell, basierend auf einer Transformer-Architektur [41]. Das auf Chat-Texten abgestimmte Modell wurde mit dem Ziel ausgewählt, überwiegend in deutscher Sprache vorliegende Anfragen und Leistungsbeschreibungen besser zu verstehen und möglichst kohärente, relevante und kontextuell konsistente Antworten zu generieren. Die Implementierung des Anwendungsfalls erfolgte innerhalb der internen DFKI-Infrastruktur. Die Lizenzierung dieses Modells erlaubt eine kommerzielle Nutzung.

GPT-4: Das auf der GPT-Architektur basierte große multimodale Sprachmodell wurde von OpenAI entwickelt. Im Vergleich zu GPT-3, das ausschließlich natürliche Sprache verarbeiten kann, ist GPT-4 in der Lage, auch Bilder, Dokumente oder Code basierend auf den Eingaben zu generieren, die es erhält. Das Modell wurde mit einer Vielzahl an Daten trainiert und durch ein unüberwachtes Nachtrainieren sowie menschlichen Feedback (RLHF) verbessert.

Die Evaluation erfolgte auf 73 gelabelten Leistungsbeschreibungen, die aus realen Rechnungen extrahiert, gelabelt und durch die WTS bereitgestellt wurden. Zwecks Sicherstellung des Datenschutzes wurden diese entsprechend anonymisiert. Bei den Leistungsbeschreibungen handelt es sich sowohl um Waren- als auch um Dienstleistungen. Insgesamt wurden neun verschiedene Prompts entwickelt – vier Hard-Prompts (Prompt 1-4), drei ICL-basierte Prompts (Prompt 5-7) sowie zwei Few-shot-Prompts (Prompt 8-9).

Die Abfragen wurden so formuliert, dass das Sprachmodell zwei Antworten zurückliefern soll, entweder „Ja“ (d.h. Leistungsbeschreibung berechtigt zum Vorsteuerabzug) oder „Nein“ (d.h. Leistungsbeschreibung berechtigt nicht zum Vorsteuerabzug)5. Nachfolgend sind die unterschiedlichen Ansätze sowie deren Abfragen näher erläutert:

Ansätze und Abfrage
  • Hard-Prompts: Um den Einfluss der Abfrage auf die Klassifikation zu bewerten, wurden unterschiedliche Formulierungen gewählt. So wurden bspw. Anfragen mit oder ohne Rollenbeschreibung getestet, leicht sprachlich umformuliert oder weitere Hinweise, die nützlich zur Lösung der Aufgabenstellung sein könnten, mitangegeben (z. B.: Ist ein Vorsteuerabzug nach § 14 UStG in Deutschland möglich?).

  • In-Context Learning: Für die Umsetzung des ICL-Ansatzes wurde genau eine Abfrage definiert, die mit unterschiedlichen Kontextinformationen angereichert wurde. So wurden bspw. allgemeine oder spezifischere Informationen in der Anfrage mit angegeben, wie eine Leistungsbeschreibung definiert bzw. wann ein Vorsteuerabzug möglich ist.

  • Few-shot Prompts: Hier wurde ebenfalls eine Abfrage definiert, die jeweils mit zwei unterschiedlichen Beispiel-Datensätzen angereichert wurde. Bei den Beispiel-Datensätzen handelt es sich zum einen um einen, der sowohl vorsteuerabzugsberechtige als auch nicht vorsteuerabzugsberechtige Leistungsbeschreibungen enthielt. Der zweite Beispiel-Datensatz basiert auf einer Blacklist mit Leistungsbeschreibungen, die ausschließlich nicht zum Vorsteuerabzug berechtigen.

Die Evaluation der Ergebnisse erfolgte anhand gängiger ML-Metriken wie Accuracy, Precision, Recall und F1-Score. Diese wurden dabei für jede Klasse berechnet. In erster Linie, um besser verstehen zu können, wie gut das Modell diese vorhersagt.

Ergebnisse und Fazit

Die Evaluation zeigte, dass Prompt-Tuning-Ansätze durchaus eine ressourceneffiziente Möglichkeit zur Feinabstimmung großer Sprachmodelle für die Bewertung von Leistungsbeschreibungen darstellen. Insbesondere beim GPT-4 zeigte sich, dass die Aufforderungen im Prompt sehr gut verstanden werden. So wurden in allen Prompts die Fragen mit „Ja“ oder „Nein“ beantwortet. Abhängig des gewählten Prompt-Tuning-Ansatzes wurden zudem gute, aber auch schlechtere Ergebnisse erzielt.

Anders im Fall von LeoLM, dass neben den forcierten Antwortmöglichkeiten oft eine längere Antwort bzw. oft auch keine Antwort zurücklieferte. In den Antworten von LeoLM konnten zudem vereinzelt Halluzinationen bzw. Falschinformationen beobachtet werden. Ein möglicher Grund dafür könnte sein, dass LeoLM mit seinen 13 Milliarden Parametern deutlich kleiner als GPT-4 ist und somit eine wesentlich kleinere Wissensbasis aufweist. Dies erklärt auch die im Schnitt schlechteren Ergebnisse, wie in folgender Abbildung dargestellt.

Im Rahmen eines Prompt-Tuning sollte man sich jedoch immer bewusst darüber sein, dass ein detaillierter oder zu eingeschränkter Prompt das Modell in eine bestimmte Richtung lenken kann. Eine Richtung, die nicht unbedingt optimal oder sogar irreführend zur Lösung der spezifischen Aufgabe beiträgt. So konnte durch die Angabe einer Rollenbeschreibung (Prompt 2) mit GPT-4 die Accuracy im Vergleich zu einem einfachen Prompt nur mit der Frage (Prompt 1) verbessert werden (0.75). Durch die Angabe weiterer Anforderungen (z. B. Berücksichtigung § 14 UStG (Prompt 3)) oder durch eine sprachliche Umformulierung (Prompt 4) zeigte sich jedoch, dass sich die Vorhersage deutlich verschlechterte (0.69 bzw. 0.49).

Außerdem kann das Modell seine Fähigkeit verlieren, über den spezifischen Kontext der Aufforderung hinaus zu verallgemeinern, wenn es zu sehr auf die im Prompt angegebenen Beispiele spezialisiert wurde. Dies zeigten die Ergebnisse der Few-shot Prompts (Prompt 8, 9) sowohl mit GPT-4 als auch LeoLM, die deutlich schlechter ausfielen. Insbesondere dann, wenn nur negative Beispiele (Prompt 9) mit angegeben wurden. Hier zeigte sich, dass das Modell sich stark an den Beispielen orientiert und somit deutlich restriktiver und pessimistischer in seiner Klassifikation ist.

Aber auch durch die Berücksichtigung zu allgemeiner Kontextinformationen kann die Genauigkeit der Klassifikation abnehmen. Dies zeigte sich beim ICL. So erzielte zwar LeoLM durch die Bereitstellung allgemeiner Kontextinformationen (Prompt 5) eine etwas bessere Accuracy (0.75) als GPT-4 (0.73), jedoch zeigte sich bei einer detaillierteren Betrachtung der F1-Scores von 0.85 (Ja) und 0.25 (Nein), dass der Prompt sich nur bedingt für den praktischen Einsatz eignen würde. Ein etwas anderes Verhalten zeigte sich bei GPT-4, dessen Accuracy sich durch die Angabe spezifischerer Kontextinformationen (Prompt 6) leicht verbesserte (0.73 auf 0.79).

Zusammenfassend lässt sich sagen: Durch ein Prompt-Tuning können bereits vortrainierte LLMs zur Klassifikation von Leistungsbeschreibungen durchaus zum Einsatz kommen. Für sehr domänenspezifische Fragestellungen, wie sie im Steuerbereich bzw. im Kontext der Beurteilung eines Vorsteuerabzugs vorkommen, implizieren die Ergebnisse jedoch auch, dass ein einfaches Prompt-Tuning nicht ausreichend sein wird. Vor allem wenn es darum geht, den Prozess der Vorprüfung komplett zu automatisieren bzw. eine hohe Genauigkeit bei der Vorhersage sicherzustellen.

Ein Grund dafür ist, dass Leistungsbeschreibungen allgemein sehr vage sein können und oft nur zusammen mit weiteren Informationen (z. B. den Rechnungsdaten) abhängig des Einzelfalls bewertet werden können1. Um diese Herausforderung zu berücksichtigen, gibt es jedoch unterschiedliche Verbesserungsmöglichkeiten oder weitere Möglichkeiten, LLMs für spezifische Aufgaben nutzbar zu machen. So stellt bspw. das LLM-Indexing oder Retrieval-Augmented Generation (RAG) Systeme eine weitere Möglichkeit dar, bei dem externe Daten indiziert und so strukturiert, dass das LLM effizient darauf zugreifen kann.. Dadurch lassen sich zusätzliche Informationen aus einer Menge an für die Bewertung der Leistungsbeschreibung relevanter Dokumente berücksichtigen, auf deren Basis schließlich die Beurteilung erfolgt [40]. Weitere Ansätze, um LLM auf die Zielaufgabe effizient anzupassen, werden in der Literatur auch unter dem Begriff Parameter-Efficient Fine-Tuning (PEFT) diskutiert [42].


1Bundesministerium der Finanzen (BMF), 1.12.2021, III C 2 - S 7280 - a/19/10002 :001
2BFH-Urteil vom 10. 11. 1994, V R 45/93, BStBl 1995 II S. 395
3https://huggingface.co/LeoLM/leo-hessianai-13b-chat
4https://openai.com/gpt-4
5So wurde explizit die Anweisung mitangegeben: „Antworte mit Ja oder Nein. Fall du die Antwort nicht kennst, antworte mit Nein.“

Nächster Artikel

weitere Artikel

Automatisierte Generierung von Verrechnungspreisdokumentationen
Automatisierung des Transfer Pricing Benchmarking Prozess
Informationsextraktion aus Grundsteuerbescheiden
Synthetische Daten für Anomalieerkennung
Kombination großer Sprachmodelle mit Wissensgraphen

Kontaktieren Sie uns noch heute

Sie haben Fragen zu unseren Services oder der WTS? Lassen Sie es uns wissen. Schreiben Sie uns einfach eine E-Mail oder rufen Sie uns direkt an.

Kontakt
Services
  • Tax
  • Digital
  • Advisory
  • Industries
  • Legal
Hot Topics
  • KI im Steuerbereich
  • plAIground
  • Pillar Two
  • Sustainability Services (ESG)
  • E-Rechnung | ViDA
Karriere
  • Jobbörse
  • WTS als Arbeitgeber
  • Warum WTS
  • Dein Einstieg
  • Stay in Touch
News & Knowledge
  • Tax Weekly
  • Newsletter Übersicht
  • WTS Journal
  • Newsletter Anmeldung
Über WTS
  • Experten
  • Über uns
  • Werte und Vision
  • Unsere Partner
  • Corporate Responsibility
  • Auszeichnungen
© 2025 WTS Impressum Unternehmensangaben Disclaimer Datenschutzerklärung Hinweisgebersystem AGBs Informationen für Lieferanten BMF Portal