Diktieren ohne Cloud – Spracherkennung in Ihrem Browser
Was 2026 lokal im Browser möglich ist – und was nicht: Probieren Sie es aus und entscheiden Sie selbst zwischen Sinn und Unsinn.
Sprechen Sie ins Mikrofon, und ein Whisper-Sprachmodell tippt mit – auf Wunsch übersetzt es Ihr Deutsch dabei direkt ins Englische. Das Besondere: Das Modell läuft in Ihrem Browser. Ihre Stimme verlässt Ihr Gerät nicht – kein Upload, kein Speichern, verarbeitet wird nur im Arbeitsspeicher. Wichtig: Dies ist eine technische Demonstration zum Ausprobieren, kein fertiges Produkt.
So funktioniert der Start: Mit einem Klick lädt Ihr Browser einmalig die freie Bibliothek transformers.js (CDN jsDelivr) und das gewählte Whisper-Modell von Hugging Face. Danach arbeitet die Demo vollständig lokal; das Modell bleibt im Browser-Cache. Ihr Browser fragt beim ersten Diktat nach der Mikrofon-Erlaubnis – die Aufnahme wird nirgendwohin gesendet und nicht gespeichert. Details: Datenschutzerklärung, Abschnitt 9.
Mit Grafikbeschleunigung (WebGPU) flott; ohne läuft es per WebAssembly – dann heißt es bei längeren Diktaten: kurz Geduld. Am angenehmsten am Desktop oder Notebook.
Bereit. Sprechen Sie nach dem Start einfach los – Stopp spätestens nach 60 Sekunden.
Die große Schwester: Yeandi.App
Diese Demo zeigt das Prinzip – im Alltag darf es mehr sein. Yeandi.App, die Diktierlösung aus unserem Haus, arbeitet mit kräftigeren Modellen, bereitet den Text mit einem lokalen Sprachmodell nach (Zeichensetzung, Fachbegriffe, saubere Formulierung) und beherrscht Deutsch → Deutsch wie Deutsch → Englisch – als Client-Server-Lösung komplett im eigenen Netz, ohne dass ein Wort das Haus verlässt. Mehr unter yeandi.app; Fragen dazu beantworten wir gern persönlich.
Wie das technisch funktioniert
Ihr Browser nimmt das Mikrofon per WebRTC auf, wandelt die Aufnahme in 16-kHz-Audio und übergibt sie an Whisper – OpenAIs frei verfügbares Spracherkennungsmodell, hier ausgeführt von transformers.js über WebGPU bzw. WebAssembly. Die Englisch-Übersetzung ist keine nachgeschaltete Übersetzungs-KI, sondern Whispers eingebauter translate-Modus. Und falls das Modell bei Stille oder Nuscheln kreativ wird: Warum Whisper dann Dinge wie „Untertitelung des ZDF" erfindet, erklärt unser Werkstatt-Artikel über Whispers schönste Halluzinationen.