Oder: Warum Human in the Loop oft zu kurz greift und AI in the Loop neu gedacht werden muss

In der Schweizer Finanzbranche wird derzeit intensiv darüber diskutiert, wie Verantwortung und Kontrolle beim Einsatz von künstlicher Intelligenz konkret ausgestaltet werden sollen. Häufig fällt dabei der Begriff Human in the Loop. Gemeint ist meist ein Setup, in dem KI-gestützte Entscheidungen von einem Menschen geprüft werden, bevor sie wirksam werden (siehe FINMA Guidance 08/2024 Abs. 2). Dieser Anstoss bzw. diese Empfehlung ist zwar nachvollziehbar und verständlich, greift jedoch zu kurz.

Denn die entscheidende Frage ist nicht, ob ein Mensch im Prozess vorhanden ist, sondern welche Rolle er tatsächlich einnimmt. In vielen Human-in-the-Loop\-Konstellationen wird der Mensch zur Kontrollinstanz für hoch plausible, konsistente KI-Outputs. Gerade weil die Outputs von der KI im ersten Augenblick so plausibel und hochpoliert aussehen und zudem bei repetitiven Entscheidungen durch den Menschen vorgenommen werden müssen, führt das nicht zu besserer Qualität, sondern zu sinkender Aufmerksamkeit und wachsender Abhängigkeit vom System.

Statt den Menschen in den Loop der KI zu zwingen, sollte die KI in den Denk- und Entscheidungsprozess des Menschen eingebunden werden. Nicht als Entscheider, sondern als Werkzeug. Nicht zur Absicherung von Automatisierung, sondern zur Stärkung menschlicher Entscheidungshoheit.


Bestehende Loop-Modelle und ihre Grenzen

In Forschung und Praxis haben sich drei grundlegende Modelle etabliert, um das Zusammenspiel von Mensch und KI zu beschreiben:

  • Human-in-the-Loop
  • Human-on-the-Loop
  • Human-out-of-the-Loop

Diese Begriffe haben geholfen, erste Ordnung in ein komplexes Feld zu bringen und Verantwortlichkeiten zumindest formal zu adressieren.

Allen drei Modellen ist gemeinsam, dass sie primär beschreiben, wo der Mensch im Prozess positioniert ist. Sie sagen jedoch wenig darüber aus, ob diese Position der menschlichen Eignung und der Tragweite der Entscheidung entspricht.

Human-in-the-Loop

Im Human-in-the-Loop\-Modell prüft der Mensch KI-generierte Vorschläge, bevor sie wirksam werden. In der Praxis bedeutet dies häufig, dass hoch plausible, konsistente Outputs repetitiv begutachtet werden müssen. Genau hier entsteht ein strukturelles Problem: Aufmerksamkeit sinkt, kritische Distanz geht verloren, und formale Kontrolle ersetzt keine echte Entscheidungshoheit.

Human-on-the-Loop

Human-on-the-Loop verschiebt diese Dynamik weiter. Die KI handelt weitgehend autonom, der Mensch überwacht und greift bei Abweichungen ein. Verantwortung wird reaktiv, nicht gestaltend. Der Mensch ist Beobachter eines Systems, dessen Entscheidungen er nur im Ausnahmefall beeinflusst.

Human-out-of-the-Loop

Human-out-of-the-Loop verzichtet vollständig auf menschliche Intervention. Dieses Modell ist dort sinnvoll, wo Fehlentscheide geringe Tragweite haben und systemisch überwacht werden können. Es beantwortet jedoch nicht die Frage, wie mit Entscheidungen umzugehen ist, die erklärt, begründet und verantwortet werden müssen.

Diese Modelle sind hilfreich, aber unvollständig. Sie ordnen Rollen, nicht Verantwortung. Sie beschreiben Beteiligung, nicht Führung. Vor allem berücksichtigen sie kaum, dass Menschen für unterschiedliche Aufgaben unterschiedlich geeignet sind.


Menschliche Eignung ist keine Frage von Disziplin

Die Human-Factors-Forschung zeigt seit Jahrzehnten, dass Menschen für dauerhafte, repetitive Kontrollaufgaben schlecht geeignet sind. Aufmerksamkeit und Genauigkeit nehmen bereits nach kurzer Zeit messbar ab, selbst bei trainierten und motivierten Personen. Studien zur Vigilanzforschung zeigen, dass bei monotonen Überwachungsaufgaben bereits nach etwa 15 bis 30 Minuten ein signifikanter Leistungsabfall einsetzt. Nach 30 bis 60 Minuten steigen Fehlerraten deutlich an. Training oder erhöhte Motivation können diesen Effekt nur begrenzt kompensieren (Norman Mackworth, 1948 - Mackworth Clock Test und Christopher Wickens et al. Engineering Psychology and Human Performance).

Menschen sind gut darin, Kontext zu verstehen, Ambiguität einzuordnen und Verantwortung zu tragen. Sie sind jedoch schlecht darin, hoch konsistente, scheinbar korrekte Ergebnisse repetitiv zu begutachten, insbesondere wenn Abweichungen selten auftreten. Der Mensch ist für monotone Begutachtung schlichtweg nicht geeignet, so wie er auch für permanente, exakte Umweltmessung ungeeignet ist. Deshalb gibt es zum Beispiel hoch effiziente IoT-Sensoren für kontinuierliche Messungen. Und deshalb braucht es auch beim Einsatz von KI einen Perspektivenwechsel.

Mit Human in the Loop im KI Kontext wird versucht, den Menschen funktional in eine Rolle zu bringen, für die er nicht gemacht ist.

Wenn Kontrolle zur Illusion wird: ein Blick in die Praxis

Dass diese Grenzen nicht nur theoretischer Natur sind, zeigte sich auch beim Einsatz KI-gestützter Risikobewertungssysteme im US-Justizsystem. In mehreren Bundesstaaten wurden Algorithmen eingesetzt, um die Rückfallwahrscheinlichkeit von Angeklagten zu bewerten und Richter bei Strafmass oder Bewährungsentscheiden zu unterstützen. Formal blieb der Mensch im Entscheidungsprozess eingebunden. In der Praxis folgten Gerichte den Empfehlungen jedoch häufig, obwohl weder Richter noch Verteidigung nachvollziehen konnten, nach welchen Kriterien diese Bewertungen zustande kamen.

Der investigative Bericht Machine Bias der Journalistenplattform ProPublica machte 2016 sichtbar, dass diese Systeme nicht nur schwer erklärbar waren, sondern teilweise systematische Verzerrungen aufwiesen. Entscheidend ist dabei weniger die Frage der Fairness einzelner Modelle als die strukturelle Konstellation: Der Mensch sollte eine Empfehlung prüfen, deren innere Logik ihm nicht zugänglich war. Der Mensch war im Loop, aber nicht in der Lage, die Entscheidung substanziell zu hinterfragen.

Dieses Beispiel wirkt auf den ersten Blick extrem. Gerade deshalb ist es aufschlussreich. Denn selbst dort, wo hochqualifizierte Experten Entscheidungen treffen, zeigte sich eine klare Grenze. Nicht die Kompetenz fehlte, sondern die Prüfbarkeit. Verantwortung wurde formal getragen, faktisch jedoch an ein System delegiert, dessen Entscheidungslogik sich der menschlichen Kontrolle entzog.

Wenn Anwesenheit mit Kontrolle verwechselt wird

Eine ähnliche Logik zeigt sich auch bei teilautomatisierten Fahrzeugsystemen. In bestimmten Automatisierungsstufen (konkret bei Level 3 - vgl. TCS Erklärvideo) wird vorausgesetzt, dass ein Mensch hinter dem Steuer sitzt, um im Bedarfsfall eingreifen zu können. Diese Anforderung stellt jedoch in erster Linie formale Anwesenheit sicher. Sie sagt wenig darüber aus, ob der Mensch die Situation versteht, rechtzeitig reagieren kann oder überhaupt in der Lage ist, eine fundierte Entscheidung zu treffen.

Die Forschung zum autonomen Fahren zeigt seit Jahren, dass genau diese Übergabesituationen besonders kritisch sind. Je länger ein System zuverlässig autonom agiert, desto schwieriger wird es für den Menschen, situativ wieder Kontrolle zu übernehmen. Aufmerksamkeit, Situationsverständnis und Reaktionsfähigkeit sind in solchen Momenten eingeschränkt. (vgl. Takeover Time in Highly Automated Vehicles: Noncritical Transitions to and From Manual Control)

Anwesenheit ersetzt keine Entscheidungskompetenz.

Diese Logik ist auch im organisationalen Kontext relevant. Wenn KI-Systeme Entscheidungen vorbereiten oder faktisch treffen und der Mensch lediglich als Rückfallebene vorgesehen ist, entsteht dieselbe Illusion von Kontrolle. Der Mensch soll eingreifen können, ohne den Entscheidungsraum geführt zu haben. Human in the Loop wird damit zu einer formalen Bedingung, nicht zu einem funktionalen Sicherheitsmechanismus.


Das Decision Sovereignty Model

An diesem Punkt setzt das Decision Sovereignty Model an. Es verschiebt den Fokus weg von der Frage, ob ein Mensch im Loop ist, hin zur Frage, wer die Entscheidungshoheit trägt und unter welchen Bedingungen Automatisierung sinnvoll ist.

AI Decision Sovereignty Model
AI Decision Sovereignty Model - Quelle: digital-age.ch

Das Modell kombiniert zwei Dimensionen:

  • Erstens den Involvierungsgrad der KI, von unterstützend über beratend und strukturierend bis hin zu entscheidend und vollautomatisiert.
  • Zweitens die Tragweite einer möglichen Fehlentscheidung, von gering über mittel bis hoch, abhängig von finanziellen, rechtlichen, ethischen oder existenziellen Konsequenzen.

Die zentrale Aussage ist einfach: Je höher die Tragweite einer Fehlentscheidung, desto stärker muss die Entscheidung beim Menschen verbleiben. Vollautomatisierte Systeme sind dort sinnvoll und legitim, wo Fehlentscheide geringe Auswirkungen haben und systemisch überwacht werden können. Wo Entscheidungen jedoch erklärt, begründet und verantwortet werden müssen, darf die Entscheidungshoheit nicht an ein System delegiert werden, dessen Logik sich der menschlichen Prüfung entzieht.

Besonders problematisch ist der Bereich, in dem KI faktisch entscheidet und der Mensch lediglich prüft oder überwacht. Hier entsteht eine Illusion von Kontrolle, ohne echte Entscheidungshoheit.


Fazit: Verantwortung braucht Führung, nicht Anwesenheit

Überträgt man diese Erkenntnisse auf den Unternehmensalltag, wird das Problem greifbar. In vielen Organisationen sollen Mitarbeitende KI-generierte Vorschläge beurteilen, die plausibel, konsistent und formal korrekt erscheinen. Anders als im Gerichtssaal verfügen sie dabei oft weder über tiefe fachliche Spezialisierung noch über Zeit oder methodische Hilfsmittel, um solche Empfehlungen kritisch zu hinterfragen.

Die Erwartung, dass menschliche Kontrolle unter diesen Bedingungen automatisch zu besseren Entscheidungen führt, ist unrealistisch. Die entscheidende Frage ist daher nicht, ob ein Mensch im Loop ist. Die entscheidende Frage ist, ob der Mensch die Entscheidung führt. KI entfaltet ihren grössten Wert nicht als Richter oder Kontrolleur, sondern als Werkzeug im menschlichen Denkprozess. Nicht für jede Entscheidung braucht es einen Menschen. Aber jede verantwortungsvolle Entscheidung braucht menschliche Souveränität.


Könnte dich auch interessieren