Künstliche Intelligenz · Spracherkennung

„Untertitelung des ZDF, 2020" – was Whispers schönste Halluzinationen über seine Erziehung verraten

Man diktiert einen ganz normalen Satz, holt kurz Luft – und im Text steht plötzlich „Untertitelung des ZDF, 2020". Gesagt hat das niemand. Bei der Entwicklung unserer Echtzeit-Diktier-App haben wir OpenAIs Spracherkennung Whisper beim Träumen zugesehen. Und ihre Tagträume verraten erstaunlich viel darüber, womit sie großgeworden ist.

Stand: Juni 2026 · von byteland software solutions

Für Yeandi.App, unsere Diktier-App, läuft Whisper – das Spracherkennungsmodell von OpenAI – lokal auf der eigenen Grafikkarte und verwandelt Gesprochenes in Text. In rund neunundneunzig Prozent der Fälle ist das schlicht großartig: schnell, präzise, mit Satzzeichen und allem Drum und Dran. Aber es gibt diesen einen Moment, in dem das Modell uns wochenlang in den Wahnsinn getrieben hat – und uns am Ende zum Schmunzeln brachte. Den Moment, in dem es nichts zu hören gibt.

Eine KI, die nicht schweigen kann

Whisper hat eine Aufgabe: aus Ton wird Text. Was es nicht gelernt hat, ist der Zustand „hier ist gerade nichts". Eine Sprechpause, das leise Ausschwingen am Satzende, die kurze Stille an einer Schnittstelle, wenn ein langes Diktat in Häppchen zerlegt wird – für uns Menschen ist das offensichtlich Stille. Für ein generatives Modell ist es eine Einladung.

Denn eine KI antwortet nicht mit „da war nichts". Sie rät. Sie füllt die Leere mit dem, was nach allem, was sie je gehört hat, am wahrscheinlichsten als Nächstes käme. Das Tückische daran: Sie tut es mit voller Überzeugung. Der erfundene Text ist flüssig, grammatikalisch tadellos, und das Modell meldet dafür hervorragende Sicherheitswerte. Im Fachjargon heißt das Halluzination – und was Whisper auf Stille halluziniert, ist der eigentliche Witz dieser Geschichte.

Whisper verrät, was es geschaut hat

Whisper wurde auf über 600.000 Stunden Audio aus dem Internet trainiert. Und das hört man – wortwörtlich. Auf Stille fällt dem Modell mit schöner Regelmäßigkeit genau das ein, was in seinen Trainingsdaten am Ende von Tonspuren steht: der Abspann. Hier ein paar echte Funde aus unseren Debug-Logs:

Echte Whisper-Ausgaben auf (nahezu) stillem Audio:

Untertitelung des ZDF, 2020
Untertitel im Auftrag des ZDF für funk, 2017
Untertitel der Deutschen Welle
Copyright WDR 2020
Untertitelung im Auftrag des NDR
Untertitel im Auftrag von ARD und ZDF

Das ist Teletext. Das sind die Untertitel-Credits, wie sie seit Jahrzehnten am Ende deutscher Fernsehsendungen laufen – in den Mediatheken, in Mitschnitten, überall. Whisper hat ganz offensichtlich eine Menge öffentlich-rechtliches Fernsehen gesehen und sich den Abspann gemerkt wie ein Kind, das die Tagesschau-Melodie mitsummen kann. Die ganze Senderfamilie ist dabei vertreten: ZDF, ARD, WDR, NDR, SWR, MDR, RBB, BR, 3sat, arte, Phoenix – und natürlich „funk".

Unser Lieblingsfund stammt aus einem echten Live-Diktat. Es endete so:

Live-Log, ein langes Diktat am Schnittpunkt:

… dann soll der Platz eben ausreichen für einen
Doppelpult-Dach Untertitelung des ZDF, 2020

Das „Doppelpult-Dach" war echt diktiert. Den Rest hat das Fernsehen beigesteuert. Genau an der Stelle, an der der Sprecher kurz innehielt, schaltete Whisper innerlich auf den Feierabend-Modus und blendete den Sendeschluss ein.

Der mysteriöse Christian

Whisper hat aber nicht nur ferngesehen. Es war auch viel auf YouTube. Wenn die Stille ein wenig anders liegt, erfindet es keine geschriebenen Teletext-Credits mehr, sondern gesprochene Video-Abspänne:

Gesprochene Outros, die Whisper aus dem Nichts anhängt:

Das war's für heute. Vielen Dank fürs Zuschauen und
bis zum nächsten Mal. Tschüss!
Vergesst nicht zu abonnieren. Bis bald!
Danke fürs Zusehen, bis zum nächsten Video.
Bis zum nächsten Mal, euer Christian.

Besonders der letzte hat es uns angetan. Irgendwo in den Tiefen der Trainingsdaten muss es einen YouTuber namens Christian geben, der seine Videos so unermüdlich mit „bis zum nächsten Mal, euer Christian" verabschiedet hat, dass Whisper ihn auswendig kann. Wir haben Christian nie kennengelernt. Aber in den ersten Versionen grüßte unsere Diktier-App regelmäßig von ihm. Ein freundlicher Gruß eines Fremden, mitten im Behördenschreiben – „Vergesst nicht zu abonnieren!" unter dem Antrag auf einen Radweg.

Wenn die KI ihre eigene Anweisung nachplappert

Ein letztes Kuriosum, und es ist fast schon philosophisch. Damit Whisper Fachbegriffe und Eigennamen zuverlässiger trifft, kann man ihm vorab einen kleinen Hinweistext mitgeben – sinngemäß: „Folgende deutsche Begriffe kommen im Diktat vor: …". Eine Gedächtnisstütze, kein zu transkribierender Inhalt.

Auf ganz kurzen Tönen passiert dann das hier:

Whisper auf einem winzigen Geräusch:

Begriffe folgen im Diktat vor.

Statt etwas zu transkribieren, gibt das Modell schlicht ein Bruchstück unserer eigenen Anweisung zurück. Es ist, als bäte man jemanden „Sag mal was Schönes", und die Antwort lautet: „Was Schönes." Die KI hat zugehört – nur eben dem Falschen.

Die eigentliche Kunst: die Floskel vom echten Wort unterscheiden

Hier wird aus der Anekdote Ingenieursarbeit. Das Schwierige ist nämlich nicht, eine Halluzination zu erkennen. Das Schwierige ist, sie wegzuwerfen, ohne echtes Diktat zu beschädigen. Denn dieselben Wörter sind mal Müll und mal heilig:

„Der ZDF-Beitrag war wirklich gut." → echtes Diktat, muss bleiben.
„Füge bitte einen Untertitel hinzu." → echtes Diktat, muss bleiben.
„Mit freundlichen Grüßen, Stefan Matz." → echte Grußformel, muss bleiben.
„… Doppelpult-Dach Untertitelung des ZDF, 2020" → Halluzination, muss weg.
„… und bis zum nächsten Mal, euer Christian." → Halluzination, muss weg.

Ein plumper Filter, der einfach jedes „ZDF" oder jedes „Tschüss" löscht, würde mehr zerstören als reparieren. Deshalb sind unsere Filter bewusst eng gefasst:

Sie greifen nur ganz am Ende des Textes – dort, wo die Stille sitzt und der Abspann eingeblendet wird.
Nur auf die Kombination – „Untertitelung" plus Sendername plus Jahreszahl –, niemals auf ein nacktes „ZDF" mitten im Satz.
Gesprochene Abspänne nur, wenn eine starke Abspann-Floskel dabei ist („fürs Zuschauen", „abonnieren", „bis zum nächsten Mal"). Ein schlichtes „Tschüss" am Ende eines Diktats bleibt stehen – es könnte ja echt gemeint sein.
Reine Floskel-Sätze fliegen nur dann komplett raus, wenn sie den gesamten Output ausmachen – nicht, wenn sie zufällig in einem echten Satz vorkommen.

Im Kern: Man muss erst sehr genau wissen, wie ein echter Schluss klingt, um den falschen zu erkennen. Die halbe Arbeit steckt nicht im Wegwerfen, sondern im Verschonen.

Wie wir die Geister einfangen

Eine einzelne Regel reicht nicht – die Halluzinationen kommen über zu viele verschiedene Wege herein. Also haben wir sie gestaffelt, eine Verteidigung in mehreren Linien:

Weniger Stille anbieten. An das Aufnahmeende hängen wir nur ein winziges Ausschwingen an – gerade genug, dass das letzte Wort nicht abgehackt wird, aber so wenig wie möglich freie Fläche zum Träumen.
Das Tor zum Ton. Ein Energie-Gate misst die tatsächliche Lautstärke jedes Abschnitts. Wo kein Ton ist, kann keine Sprache sein – der Abschnitt fliegt raus, noch bevor sein Text überhaupt durchgereicht wird.
Der Abspann-Filter. Schneidet bekannte Teletext- und Video-Floskeln am Textende sauber ab – nach den engen Regeln von oben.
Die Plausibilitätsprüfung. Wer in einer Sekunde Ton einen halben Roman ausgibt, wer für ein kurzes Geräusch verdächtig lange „grübelt" oder wer denselben Satz zweimal hintereinander schreibt, wird als Halluzination markiert – vier voneinander unabhängige Messungen.
Kein Nachhall. Rutscht doch einmal eine Floskel durch, landet sie auf einer Stoppliste – damit Whisper sie nicht als vermeintlichen „Kontext" aufgreift und im nächsten Satz munter weiterspinnt.

Was uns das über Künstliche Intelligenz gelehrt hat

Am Ende ist das Schönste an Whispers Halluzinationen, dass sie ehrlich sind. Eine KI erfindet nichts aus Bosheit und nichts aus Fantasie – sie greift nach dem Wahrscheinlichsten, das sie kennt. Wenn das Wahrscheinlichste „Untertitelung des ZDF" ist, dann sagt das weniger über einen Fehler als über die Herkunft. Man sieht der Maschine beim Halluzinieren an, womit man sie großgezogen hat – wie ein Kind, das im Schlaf die Werbejingles murmelt, die es tagsüber zu oft gehört hat.

Die Lehre fürs Handwerk: Ein KI-Modell ist nie der ganze Bauplan, sondern eine sehr fähige, sehr eigenwillige Zutat. Den Unterschied zwischen „beeindruckendem Demo" und „Werkzeug, dem man im Alltag vertraut" macht nicht das Modell – den macht die nüchterne Ingenieursarbeit drumherum, die seine Tagträume erkennt und höflich, aber bestimmt aussortiert. Wer wissen will, was ein Modell wirklich gelernt hat, sollte ihm zuhören, wenn es eigentlich nichts zu sagen hätte.

Häufige Fragen

Was ist eine Halluzination bei der Spracherkennung?

Ein Sprach-KI-Modell wie Whisper ist darauf trainiert, aus Audio Text zu machen – es kennt keinen Zustand „hier ist nichts". Auf Stille oder kaum hörbarem Ton füllt es die Lücke mit dem statistisch Wahrscheinlichsten und liefert flüssigen, grammatikalisch korrekten Text, der nie gesprochen wurde. Das nennt man Halluzination.

Warum halluziniert Whisper ausgerechnet ZDF-Untertitel und YouTube-Abspänne?

Weil das in seinen Trainingsdaten steht. Whisper wurde auf hunderttausende Stunden Audio aus dem Internet trainiert – darunter unzählige Fernsehmitschnitte mit Teletext-Untertiteln und YouTube-Videos. Am Ende solcher Tonspuren steht typischerweise der Abspann: „Untertitelung des ZDF" oder „Vielen Dank fürs Zuschauen". Auf Stille greift das Modell nach genau diesem erlernten Muster.

Sind solche Halluzinationen ein Zeichen für ein schlechtes Modell?

Nein. Whisper ist exzellent. Halluzinationen auf Stille sind eine bekannte Eigenart aller generativen Sprachmodelle und sagen mehr über die Trainingsdaten als über die Qualität aus. Die Aufgabe der App ist nicht, das Modell zu ändern, sondern seine Ausgabe sauber zu prüfen und die erfundenen Floskeln zu erkennen.

Wie verhindert man, dass solche Floskeln im Diktat landen?

Mit mehreren ineinandergreifenden Stufen: möglichst wenig Stille an das Audio anhängen, ein Energie-Gate, das tonlose Abschnitte verwirft, ein Filter, der bekannte Abspann-Floskeln nur am Textende abschneidet, eine Plausibilitätsprüfung gegen unnatürlich schnellen oder sich wiederholenden Output und eine Stoppliste, damit eine Floskel nicht als Kontext weitergetragen wird.

Kann man Halluzinationen nicht einfach abschalten?

Einen Schalter „aus" gibt es nicht. Die Kunst liegt im Unterscheiden: „Der ZDF-Beitrag war gut" oder „Mit freundlichen Grüßen" müssen erhalten bleiben, „Untertitelung des ZDF, 2020" und „bis zum nächsten Mal, euer Christian" müssen weg. Deshalb greifen die Filter bewusst eng – nur am Textende und nur auf eindeutige Floskel-Kombinationen.

Eine KI-Idee, die im Alltag wirklich tragen soll?

Zwischen einem beeindruckenden Prototyp und einem Werkzeug, dem man täglich vertraut, liegt genau die nüchterne Ingenieursarbeit, von der dieser Beitrag handelt. Genau die bauen wir – für Sprache, Text und Automatisierung. Sprechen Sie uns an.

Jetzt Kontakt aufnehmen →