Wenn in Kanzleien und Steuerabteilungen heute von KI die Rede ist, ist meist der Chatbot gemeint. Auf eine Frage folgt eine Antwort. Für Recherchen, Erläuterungen und Entwürfe funktioniert das gut. Schwierige Entscheidungen werden im Berufsalltag aber selten auf Basis einer einzelnen Meinung getroffen, sondern aus mehreren Blickwinkeln vorbereitet. Die Technologie kann diesen Schritt inzwischen mitgehen: Weg von der einzelnen Antwort, hin zu Systemen, die mehrere Perspektiven erzeugen und strukturiert zusammenführen. Was dabei unter der Haube passiert, lohnt einen genaueren Blick.
Der Ausgangspunkt ist der einzelne Assistent und das, was bei ihm technisch geschieht. Ein Sprachmodell erzeugt Text, indem es Schritt für Schritt die wahrscheinlichste Fortsetzung berechnet und zwar auf Basis dessen, was in seinem Kontextfenster steht. Das kann die Frage, mitgegebene Dokumente, vorangegangene Nachrichten beinhalten. Es gibt dahinter keine Datenbank richtiger Antworten und keinen Prüfplan. Alles, was nicht im Kontext steht, ergänzt das Modell aus den Mustern seiner Trainingsdaten. Das ist dann sprachlich überzeugend, aber ungesteuert. Ziel des Modells ist es immer, eine sprachlich passende Antwort zu geben. Einen Mechanismus, die eigene Ausgabe in Zweifel zu ziehen, bringt der einzelne Durchlauf nicht mit.
Vom Chatbot zum konfigurierten MyAssistant
Für die Qualität entscheidend ist deshalb, was den Kontext füllt und steuert. Genau hier setzt die Konfiguration an, die im plAIground jeden MyAssistant (individueller KI-Assistent) vom rohen Chatbot unterscheidet. Drei Schichten kommen hinzu: Der Systemprompt ist eine dauerhafte Instruktionsschicht, die bei jedem Aufruf vor der eigentlichen Eingabe in den Kontext geladen wird und das Verhalten konditioniert. Vergleichbar mit einer Aufgabenbeschreibung lassen sich Rolle, Argumentationsweise, Grenzen festlegen. Die individuelle Wissensbasis spielt die relevanten Dokumente des Falls in den Kontext ein, sodass das Modell mit den tatsächlichen Unterlagen arbeitet statt mit Weltwissen. Und Arbeitsanweisungen wie ein Prüfschema definieren nicht nur, was abzuarbeiten ist, sondern auch das Ausgabeformat, wie etwa die Vorgabe, jeden Prüfpunkt einzeln mit Ergebnis auszuweisen. Das verschiebt die Ausgabe messbar: von plausibel klingend zu nachprüfbar abgearbeitet.
Das Expert Panel: Mehrere Perspektiven, eine Stimme
Auch ein so konfigurierter Assistent liefert am Ende aber nur eine einzelne Analyse mit einer einzigen Perspektive. Das Expert Panel setzt darüber eine zweite Ebene: Orchestrierung. Mehrere MyAssistants, jeder mit eigenem Systemprompt, eigener Wissenskonfiguration und vor allem eigenem, getrenntem Kontext, erhalten denselben Auftrag. Die Trennung ist kein Detail, sondern der Kern: Würden alle MyAssistants gemeinsam arbeiten, würde aus drei Perspektiven ein Echo. Stattdessen analysiert zunächst jede Rolle unabhängig; erst danach führt die Orchestrierung die Positionen zusammen und stößt einen abschließenden Konsolidierungsschritt an. Dies ist ein eigener Verarbeitungslauf, der die Analysen abgleicht und auf Wunsch beispielsweise drei Dinge ausweist: Wo decken sich die Einschätzungen, wo widersprechen sie sich mit Begründung und welche Fragen kann keiner der Beteiligten aus den Unterlagen beantworten?
Die Gegenüberstellung lässt sich damit präzise fassen. Der Einzelassistent durchläuft das Material einmal und liefert ein Ergebnis, dessen Lücken unsichtbar bleiben. Das Panel erzwingt mehrere unabhängige Durchläufe mit unterschiedlicher Schwerpunktsetzung und macht deren Differenz zum eigentlichen Ergebnis: Punkte, die nur eine Rolle erhebt, sind zu verifizieren. Punkte, in denen sich gegensätzlich beauftragte Rollen einig sind, haben Gewicht und dokumentierte Widersprüche markieren den Entscheidungsbedarf des Menschen. Diese Einordnung ist der eigentliche Mehrwert gegenüber der einzelnen Antwort.
Ein Test an einem fiktiven Übungsfall, einer Bescheidprüfung mit umfangreichem Dokumentensatz, hat beide Seiten dieser Architektur sichtbar gemacht. Im ersten Durchlauf verglich das System Angaben über Dokumentgrenzen hinweg und fand Abweichungen zwischen den Unterlagen, die uns beim Konstruieren des Falls selbst entgangen waren. Zugleich ließen alle drei Rollen dieselben Routineprüfungen aus, weil nichts im Kontext deren Abarbeitung verlangte. Nach einer einzigen Änderung des Systemprompts (es wurde ein Prüfschema mit der Pflicht, jeden Punkt einzeln mit Ergebnis auszuweisen, eingefügt) arbeitete der zweite Durchlauf die Prüfungen vollständig ab. Kein neues Modell, kein Training: Der Unterschied zwischen den Durchläufen war ausschließlich Kontext.
Die richtigen Anwendungsfälle
Nicht jede Aufgabe braucht diesen Aufwand. Dieser lohnt sich nur, wenn die Fragestellung es hergibt. Als Faustregel: Es gibt mehrere legitime Perspektiven auf den Fall, am Ende steht eine echte Entscheidung, und der Fall ist bedeutsam genug, dass sich die zusätzliche Reibung rechnet. In der Praxis sind das vor allem komplizierte Fragestellungen, die Vorbereitung von Betriebsprüfungen und komplexen Besprechungen, Strukturierungsfragen mit mehreren vertretbaren Wegen, komplexe Sachverhaltsanalysen und die Qualitätssicherung vor Abgabe. Für die Routineaufgaben bleibt der einzelne, gut konfigurierte MyAssistent das richtige Werkzeug. Unabhängig vom Aufbau gilt trotzdem immer, dass Fundstellen und Schlussfolgerungen zu verifizieren sind und die Letztverantwortung für die Entscheidung der Berufsträger trägt, der das System aufgesetzt hat und seine Ergebnisse würdigt („Human-in-the-loop“)
Der Weg vom Chatbot zum Expert Panel ist damit kein Sprung zu einer neuen KI, sondern die logische Weiterentwicklung hin zu einem hybriden Team: Der Berufsträger besetzt die Rollen, gibt Anweisungen und Prüfschemata vor und ein Team aus KI-Co-Workern arbeitet ihm zu, statt dass ein Chatbot ihm antwortet. So entsteht aus vielen Perspektiven am Ende eine Entscheidung.