Produkt & Zugänglichkeit

Sprachfunktion: Vorlesen und Diktieren in Autistic Mirror

Autistic Mirror kann jetzt Antworten vorlesen und Spracheingabe entgegennehmen. Beides ist optional, jederzeit deaktivierbar und an keinen externen Sprachdienst gebunden. Dieser Artikel erklärt den neurologischen Hintergrund, die technische Umsetzung und warum die Stimmen aktuell noch synthetisch klingen.

Warum eine Sprachfunktion neurologisch entlastet

Tippen ist nicht neutral. Es koppelt drei Systeme aneinander: Feinmotorik, visuelle Rückmeldung am Bildschirm und sprachliche Formulierung. Bei autistischer Verarbeitung läuft jedes dieser Systeme nicht automatisch im Hintergrund mit, sondern verbraucht messbar exekutive Ressourcen. Wer parallel reizoffen ist, hat dafür weniger Budget.

Lesen ist ähnlich. Längere Textblöcke am Bildschirm fordern Sakkadensteuerung, Kontrastverarbeitung und Aufmerksamkeitsausrichtung gleichzeitig. An einem Tag mit hoher Reizfilter-Last, mit Migräneneigung, mit POTS-bedingter Augenermüdung oder nach einem langen Maskierungstag sind genau diese Ressourcen knapp. Eine Antwort vorgelesen zu bekommen, entkoppelt den Inhalt vom visuellen Verarbeitungsaufwand.

Diktieren statt Tippen reduziert die motorische und exekutive Last beim Formulieren. Der Gedanke wird einmal gesprochen, statt dass er parallel zum Schreiben strukturiert werden muss. Für viele autistische und AuDHD-Menschen ist das der Unterschied zwischen einer gestellten Frage und einer Frage, die nur im Kopf bleibt.

Für wen das spürbar wird

Die Sprachfunktion ist kein "Komfort-Feature". Sie senkt die Eintrittshürde für mehrere Gruppen, die in textbasierten Tools oft schweigen.

AuDHD-Verarbeitung: Diktieren umgeht den Anfangs-Inertia-Block am leeren Eingabefeld.
Begleitende Lese-Rechtschreib-Schwäche oder Dysgraphie: Tippen kostet überproportional viel.
Augenermüdung an POTS-, Migräne-, Fatigue- oder Postviralen Tagen: Lesen am Bildschirm wird schmerzhaft.
Phasen mit hoher Maskierungs-Last: Wenn das Sprach-Übersetzungssystem ohnehin überlastet ist, hilft jede zusätzliche Modalität.
Motorische Begleitdiagnosen wie Ehlers-Danlos: Tastatur-Sessions sind körperlich begrenzt.

Was die Funktion technisch tut

Die Spracheingabe nutzt die Web Speech API des Browsers. Das gesprochene Audio bleibt auf dem Gerät bzw. wird über die Spracherkennung des Browsers verarbeitet, je nach Browser-Hersteller. Vor der ersten Nutzung erscheint ein Hinweisdialog mit Klartext, was wo passiert. Datenschutzhinweise sind in der Datenschutzerklärung dokumentiert.

Das Vorlesen der Antworten nutzt die Speech Synthesis API des Browsers. Es wird kein externer Sprachdienst angesprochen, kein zusätzlicher Server kontaktiert, keine Aufnahme erstellt. Die Stimme stammt aus dem System des Endgeräts.

Beide Funktionen sind optional. Der Mikrofon-Knopf erscheint nur, wenn der Browser Spracheingabe unterstützt. Das Vorlesen lässt sich pro Antwort starten und stoppen. Es gibt keinen Auto-Play. Wer die Funktion nicht nutzen möchte, sieht keinen Unterschied zur klassischen Texteingabe.

Warum die Stimmen noch nicht professionell klingen

Die vorgelesenen Antworten klingen auf den meisten Geräten synthetisch. Auf manchen Systemen wirkt die Stimme flach, auf anderen mechanisch, auf wieder anderen brauchbar. Das ist kein Bug, sondern eine bewusste Entscheidung mit klarem Hintergrund.

Professionelle KI-Sprachsynthese (Voice-Cloning auf dem Niveau von ElevenLabs, OpenAI Voice oder Google WaveNet) liefert Stimmen, die kaum mehr von menschlichen Aufnahmen zu unterscheiden sind. Sie kostet pro Monat einen mittleren bis hohen dreistelligen Eurobetrag bei realistischer Nutzung, plus laufende Verbrauchskosten je gesprochener Sekunde. Das ist für ein solo-finanziertes, credit-basiertes Projekt aktuell nicht tragbar, ohne den Preis pro Antwort spürbar zu erhöhen.

Die Alternative wäre, die Sprachfunktion erst dann zu veröffentlichen, wenn sie professionell klingt. Diese Strategie hätte bedeutet, dass Menschen mit Lese- oder Tippe-Hürden weiter ohne diese Funktion gearbeitet hätten, möglicherweise über Monate. Eine vorhandene, klanglich nüchterne Stimme ist nutzbar. Eine fehlende Stimme ist nicht nutzbar.

Sobald Credit-Umsätze die laufenden Kosten einer professionellen Lösung tragen, wird die Stimme ausgetauscht, ohne dass sich am Funktionsumfang etwas ändert.

Datenschutz

Die Spracheingabe wird über die Browser-Schnittstelle abgewickelt. Es entstehen keine Audio-Aufnahmen auf dem Server von Autistic Mirror. Der erkannte Text wird nach Bestätigung wie ein normaler Chat-Beitrag behandelt und unterliegt denselben Sicherheits- und Löschregeln wie alle anderen Eingaben. Die Browser-Hersteller (Apple, Google, Mozilla, Microsoft) verarbeiten die Audio-Daten nach ihren eigenen Regeln. Für Chromium-basierte Browser erfolgt die Verarbeitung in der Regel cloudseitig beim Hersteller. Im Hinweisdialog vor der ersten Nutzung steht das in Klartext.

Das Vorlesen erzeugt keine Daten, die das Gerät verlassen. Die Stimm-Engine läuft lokal auf dem Endgerät.

Ein Lichtblick

Zugänglichkeit entsteht selten in einem großen Wurf. Sie entsteht, wenn Funktionen veröffentlicht werden, sobald sie nutzbar sind, und nicht erst, wenn sie auf Konzern-Niveau poliert sind. Die Sprachfunktion ist ein konkretes Beispiel dafür: rau, ehrlich beschriftet, jederzeit abschaltbar, ohne neue Datenflüsse, ohne Zwang zur Nutzung. Wer sie braucht, hat sie ab heute. Wer sie nicht braucht, merkt nichts.

Autistic Mirror erklärt autistische Neurologie individuell, auf deine Situation bezogen. Ob für dich selbst, als Elternteil oder als Fachperson.