Produkt & Tilgængelighed

Stemmefunktion: Oplæsning og diktering i Autistic Mirror

Autistic Mirror kan nu læse svar op og modtage stemmeinput. Begge dele er valgfrie, kan deaktiveres når som helst og er ikke bundet til eksterne tjenester. Denne artikel forklarer den neurologiske baggrund, den tekniske implementering, og hvorfor stemmerne i øjeblikket stadig lyder syntetiske.

Hvorfor en stemmefunktion aflaster neurologisk

At skrive er ikke neutralt. Det kobler tre systemer sammen: finmotorik, visuel feedback på skærmen og sproglig formulering. Ved autistisk processering kører hvert af disse systemer ikke automatisk i baggrunden, men bruger målbare eksekutive ressourcer. Hvis man samtidig er sansestærk, er der mindre budget til rådighed.

Læsning er lignende. Længere tekstblokke på skærmen kræver styring af øjenbevægelser (sakkader), kontrastbehandling og opmærksomhedsstyring samtidigt. På en dag med høj belastning af sansefilteret, med tendens til migræne, med POTS-relateret øjentræthed eller efter en lang dag med maskering, er netop disse ressourcer knappe. At få et svar læst op afkobler indholdet fra den visuelle bearbejdningsindsats.

Diktering i stedet for indtastning reducerer den motoriske og eksekutive belastning ved formulering. Tanken udtales én gang, i stedet for at den skal struktureres parallelt med skrivningen. For mange autistiske og AuDHD-mennesker er dette forskellen på et stillet spørgsmål og et spørgsmål, der kun bliver inde i hovedet.

Hvem det gør en forskel for

Stemmefunktionen er ikke en "komfort-feature". Den sænker adgangsbarrieren for flere grupper, som ofte tier i tekstbaserede værktøjer.

AuDHD-processering: Diktering omgår start-inertia-blokeringen ved det tomme indtastningsfelt.
Sameksisterende læse-skrive-vanskeligheder eller dysgrafi: Indtastning koster uforholdsmæssigt meget energi.
Øjentræthed på POTS-, migræne-, fatigue- eller postvirale dage: Læsning på skærmen bliver smertefuldt.
Faser med høj maskeringsbelastning: Når det sproglige oversættelsessystem i forvejen er overbelastet, hjælper enhver ekstra modalitet.
Motoriske følgetilstande som Ehlers-Danlos: Tastatursessioner er fysisk begrænsede.

Hvad funktionen gør teknisk

Stemmeinput bruger browserens Web Speech API. Den talte lyd bliver på enheden eller behandles via browserens genkendelse, afhængigt af browserproducenten. Før første brug vises en infoboks med klar besked om, hvad der sker hvor. Privatlivsoplysninger er dokumenteret i privatlivspolitikken.

Oplæsning af svar bruger browserens Speech Synthesis API. Der tages ikke kontakt til eksterne stemmetjenester, ingen ekstra servere kontaktes, og der oprettes ingen optagelse. Stemmen stammer fra slutenhedens eget system.

Begge funktioner er valgfrie. Mikrofonknappen vises kun, hvis browseren understøtter stemmeinput. Oplæsning kan startes og stoppes for hvert svar. Der er ingen auto-play. Hvis man ikke ønsker at bruge funktionen, ser man ingen forskel fra klassisk tekstindtastning.

Hvorfor stemmerne endnu ikke lyder professionelle

De oplæste svar lyder syntetiske på de fleste enheder. På nogle systemer virker stemmen flad, på andre mekanisk, på atter andre brugbar. Dette er ikke en fejl, men en bevidst beslutning med en klar baggrund.

Professionel AI-stemsyntese (voice-cloning på niveau med ElevenLabs, OpenAI Voice eller Google WaveNet) leverer stemmer, der næsten ikke kan skelnes fra menneskelige optagelser. Det koster et mellemstort til højt trecifret eurobeløb pr. måned ved realistisk brug, plus løbende forbrugsomkostninger pr. talt sekund. Det er i øjeblikket ikke holdbart for et selvfinansieret, kredit-baseret projekt uden at øge prisen pr. svar mærkbart.

Alternativet ville være først at udgive stemmefunktionen, når den lyder professionel. Denne strategi ville have betydet, at mennesker med læse- eller skrivebarrierer fortsat ville have arbejdet uden denne funktion, muligvis i måneder. En eksisterende, lydmæssigt nøgtern stemme er brugbar. En manglende stemme er ikke brugbar.

Så snart indtægter fra kreditter kan dække de løbende omkostninger til en professionel løsning, vil stemmen blive udskiftet, uden at det ændrer på funktionsomfanget.

Databeskyttelse

Stemmeinput håndteres via browserens grænseflade. Der oprettes ingen lydoptagelser på Autistic Mirrors server. Den genkendte tekst behandles efter bekræftelse som et normalt chat-indlæg og er underlagt de samme sikkerheds- og sletningsregler som alle andre input. Browserproducenterne (Apple, Google, Mozilla, Microsoft) behandler lyddata efter deres egne regler. For Chromium-baserede browsere sker behandlingen som regel i producentens cloud. I infoboksen før første brug står dette i klartekst.

Oplæsning genererer ingen data, der forlader enheden. Stemme-motoren kører lokalt på slutenheden.

Et lyspunkt

Tilgængelighed opstår sjældent i ét stort spring. Den opstår, når funktioner udgives, så snart de er brugbare, og ikke først når de er poleret til koncern-niveau. Stemmefunktionen er et konkret eksempel på dette: rå, ærligt beskrevet, kan deaktiveres når som helst, uden nye datastrømme, uden tvang til brug. De, der har brug for den, har den fra i dag. De, der ikke har brug for den, mærker intet.

Autistic Mirror forklarer autistisk neurologi individuelt, ud fra din situation. Uanset om det er til dig selv, som forælder eller som fagperson.