Product & Toegankelijkheid

Spraakfunctie: Voorlezen en dicteren in Autistic Mirror

Autistic Mirror kan nu antwoorden voorlezen en spraakinvoer ontvangen. Beiden zijn optioneel, op elk moment deactiveerbaar en niet gebonden aan een externe spraakdienst. Dit artikel legt de neurologische achtergrond uit, de technische uitvoering en waarom de stemmen momenteel nog synthetisch klinken.

Waarom een spraakfunctie neurologisch ontlast

Typen is niet neutraal. Het koppelt drie systemen aan elkaar: fijnmotoriek, visuele feedback op het scherm en talige formulering. Bij autistische verwerking draait elk van deze systemen niet automatisch op de achtergrond mee, maar verbruikt het meetbaar executieve bronnen. Wie parallel daaraan openstaat voor prikkels, heeft daarvoor minder budget.

Lezen is vergelijkbaar. Langere tekstblokken op het scherm vragen tegelijkertijd om saccadesturing, contrastverwerking en aandachtsrichting. Op een dag met een hoge prikkelfilter-belasting, met neiging tot migraine, met POTS-gerelateerde oogvermoeidheid of na een lange dag maskeren zijn precies deze bronnen schaars. Een antwoord voorgelezen krijgen, ontkoppelt de inhoud van de visuele verwerkingsinspanning.

Dicteren in plaats van typen vermindert de motorische en executieve last bij het formuleren. De gedachte wordt eenmalig uitgesproken, in plaats van dat deze parallel aan het schrijven gestructureerd moet worden. Voor veel autistische en AuDHD-personen is dat het verschil tussen een gestelde vraag en een vraag die alleen in het hoofd blijft zitten.

Voor wie dit merkbaar wordt

De spraakfunctie is geen "comfort-feature". Het verlaagt de drempel voor meerdere groepen die in tekstgebaseerde tools vaak zwijgen.

AuDHD-verwerking: Dicteren omzeilt het begin-inertia-blok bij het lege invoerveld.
Co-occurring lees- en spellingsproblemen of dysgrafie: Typen kost onevenredig veel kracht.
Oogvermoeidheid op POTS-, migraine-, fatigue- of postvirale dagen: Lezen op het scherm wordt pijnlijk.
Fasen met een hoge maskerings-last: Wanneer het taal-vertaalsysteem sowieso al overbelast is, helpt elke extra modaliteit.
Motorische co-occurring condities zoals Ehlers-Danlos: Toetsenbordsessies zijn fysiek beperkt.

Wat de functie technisch doet

De spraakinvoer maakt gebruik van de Web Speech API van de browser. De gesproken audio blijft op het apparaat of wordt via de spraakherkenning van de browser verwerkt, afhankelijk van de browserfabrikant. Voor het eerste gebruik verschijnt een informatiedialoog met duidelijke tekst over wat waar gebeurt. Privacy-informatie is gedocumenteerd in de privacyverklaring.

Het voorlezen van de antwoorden maakt gebruik van de Speech Synthesis API van de browser. Er wordt geen externe spraakdienst aangesproken, geen extra server gecontacteerd en geen opname gemaakt. De stem is afkomstig van het systeem van het eindapparaat.

Beide functies zijn optioneel. De microfoonknop verschijnt alleen als de browser spraakinvoer ondersteunt. Het voorlezen kan per antwoord worden gestart en gestopt. Er is geen auto-play. Wie de functie niet wil gebruiken, ziet geen verschil met de klassieke tekstinvoer.

Waarom de stemmen nog niet professioneel klinken

Die voorgelezen antwoorden klinken op de meeste apparaten synthetisch. Op sommige systemen komt de stem vlak over, op andere mechanisch, op weer andere bruikbaar. Dat is geen bug, maar een bewuste keuze met een duidelijke achtergrond.

Professionele AI-spraaksynthese (voice-cloning op het niveau van ElevenLabs, OpenAI Voice of Google WaveNet) levert stemmen die nauwelijks meer van menselijke opnames te onderscheiden zijn. Dit kost per maand een gemiddeld tot hoog driecijferig eurobedrag bij realistisch gebruik, plus lopende gebruikskosten per gesproken seconde. Dat is voor een solo-gefinancierd, op credits gebaseerd project momenteel niet haalbaar zonder de prijs per antwoord merkbaar te verhogen.

Het alternatief zou zijn om de spraakfunctie pas te publiceren wanneer deze professioneel klinkt. Deze strategie zou betekenen dat mensen met lees- of typedrempels langer zonder deze functie hadden moeten werken, mogelijk maandenlang. Een beschikbare, tonaal nuchtere stem is bruikbaar. Een ontbrekende stem is niet bruikbaar.

Zodra de credit-omzet de lopende kosten van een professionele oplossing kan dragen, wordt de stem vervangen zonder dat de functionaliteit verandert.

Privacy

De spraakinvoer wordt via de browser-interface afgehandeld. Er ontstaan geen audio-opnames op de server van Autistic Mirror. De herkende tekst wordt na bevestiging behandeld als een normale chat-bijdrage en is onderworpen aan dezelfde beveiligings- en verwijderingsregels als alle andere invoer. De browserfabrikanten (Apple, Google, Mozilla, Microsoft) verwerken de audio-data volgens hun eigen regels. Voor op Chromium gebaseerde browsers vindt de verwerking meestal plaats in de cloud bij de fabrikant. In de informatiedialoog voor het eerste gebruik staat dit in duidelijke taal vermeld.

Het voorlezen genereert geen gegevens die het apparaat verlaten. De voice-engine draait lokaal op het eindapparaat.

Een lichtpuntje

Toegankelijkheid ontstaat zelden in één grote worp. Het ontstaat wanneer functies worden gepubliceerd zodra ze bruikbaar zijn, en niet pas wanneer ze op big-tech-niveau gepolijst zijn. De spraakfunctie is daar een concreet voorbeeld van: ruw, eerlijk gelabeld, op elk moment uitschakelbaar, zonder nieuwe datastromen, zonder dwang tot gebruik. Wie het nodig heeft, heeft het vanaf vandaag. Wie het niet nodig heeft, merkt niets.

Autistic Mirror legt autistische neurologie individueel uit, toegespitst op jouw situatie. Of het nu voor jezelf is, als ouder of als professional.