KI-BastelstubeTechnik-Demo · 100 % lokal

Diktieren ohne Cloud – Spracherkennung in Ihrem Browser

Was 2026 lokal im Browser möglich ist – und was nicht: Probieren Sie es aus und entscheiden Sie selbst zwischen Sinn und Unsinn.

Sprechen Sie ins Mikrofon, und ein Whisper-Sprachmodell tippt mit – auf Wunsch übersetzt es Ihr Deutsch dabei direkt ins Englische. Das Besondere: Das Modell läuft in Ihrem Browser. Ihre Stimme verlässt Ihr Gerät nicht – kein Upload, kein Speichern, verarbeitet wird nur im Arbeitsspeicher. Wichtig: Dies ist eine technische Demonstration zum Ausprobieren, kein fertiges Produkt.

So funktioniert der Start: Mit einem Klick lädt Ihr Browser einmalig die freie Bibliothek transformers.js (CDN jsDelivr) und das gewählte Whisper-Modell von Hugging Face. Danach arbeitet die Demo vollständig lokal; das Modell bleibt im Browser-Cache. Ihr Browser fragt beim ersten Diktat nach der Mikrofon-Erlaubnis – die Aufnahme wird nirgendwohin gesendet und nicht gespeichert. Details: Datenschutzerklärung, Abschnitt 9.

Flink – Whisper baseDownload ca. 135 MB, einmalig. Rechnet zügig, verhört sich aber gern mal – nehmen Sie die Ergebnisse mit Humor. Gut für den ersten Eindruck. Gründlich – Whisper smallDownload ca. 285 MB, einmalig (bleibt im Browser-Cache). Deutlich sattelfester bei Fachbegriffen und Namen – die Gewichtsklasse macht den Unterschied, wie bei unserem Copilot.

Mit Grafikbeschleunigung (WebGPU) flott; ohne läuft es per WebAssembly – dann heißt es bei längeren Diktaten: kurz Geduld. Am angenehmsten am Desktop oder Notebook.

Die große Schwester: Yeandi.App

Yeandi.App Diktieren mit KI – komplett im eigenen Haus. 100 % On-PremiseDSGVO by DesignTLS-verschlüsselt yeandi.app ansehen →

Diese Demo zeigt das Prinzip – im Alltag darf es mehr sein. Yeandi.App, die Diktierlösung aus unserem Haus, arbeitet mit kräftigeren Modellen, bereitet den Text mit einem lokalen Sprachmodell nach (Zeichensetzung, Fachbegriffe, saubere Formulierung) und beherrscht Deutsch → Deutsch wie Deutsch → Englisch – als Client-Server-Lösung komplett im eigenen Netz, ohne dass ein Wort das Haus verlässt. Mehr unter yeandi.app; Fragen dazu beantworten wir gern persönlich.

Wie das technisch funktioniert

Ihr Browser nimmt das Mikrofon per WebRTC auf, wandelt die Aufnahme in 16-kHz-Audio und übergibt sie an Whisper – OpenAIs frei verfügbares Spracherkennungsmodell, hier ausgeführt von transformers.js über WebGPU bzw. WebAssembly. Die Englisch-Übersetzung ist keine nachgeschaltete Übersetzungs-KI, sondern Whispers eingebauter translate-Modus. Und falls das Modell bei Stille oder Nuscheln kreativ wird: Warum Whisper dann Dinge wie „Untertitelung des ZDF" erfindet, erklärt unser Werkstatt-Artikel über Whispers schönste Halluzinationen.