Produto & Acessibilidade

Função de voz: Leitura em voz alta e ditado no Autistic Mirror

O Autistic Mirror agora pode ler respostas em voz alta e aceitar entrada de voz. Ambas as funções são opcionais, podem ser desativadas a qualquer momento e não estão vinculadas a nenhum serviço de voz externo. Este artigo explica o contexto neurológico, a implementação técnica e por que as vozes ainda soam sintéticas no momento.

Por que uma função de voz alivia a carga neurológica

Digitar não é um processo neutro. Isso acopla três sistemas: coordenação motora fina, feedback visual na tela e formulação linguística. No processamento autista, cada um desses sistemas não funciona automaticamente em segundo plano, mas consome recursos executivos mensuráveis. Quem é paralelamente sensível a estímulos tem menos orçamento disponível para isso.

Ler é semelhante. Blocos de texto longos na tela exigem controle de sacadas oculares, processamento de contraste e direcionamento da atenção simultaneamente. Em um dia com alta carga de filtragem de estímulos, com tendência a enxaquecas, com fadiga ocular relacionada à POTS ou após um longo dia de masking, esses recursos são escassos. Ter uma resposta lida em voz alta desvincula o conteúdo do esforço de processamento visual.

Ditar em vez de digitar reduz a carga motora e executiva na formulação. O pensamento é falado uma única vez, em vez de precisar ser estruturado paralelamente à escrita. Para muitas pessoas autistas e AuDHD, essa é a diferença entre uma pergunta feita e uma pergunta que permanece apenas na cabeça.

Para quem isso se torna perceptível

A função de voz não é um "recurso de conveniência". Ela reduz a barreira de entrada para vários grupos que muitas vezes permanecem em silêncio em ferramentas baseadas em texto.

Processamento AuDHD: O ditado contorna o bloqueio de inércia inicial no campo de entrada vazio.
Condições co-ocorrentes de dislexia ou disgrafia: Digitar custa desproporcionalmente caro.
Fadiga ocular em dias de POTS, enxaqueca, fadiga ou pós-virais: Ler na tela torna-se doloroso.
Fases com alta carga de masking: Quando o sistema de tradução de linguagem já está sobrecarregado, qualquer modalidade adicional ajuda.
Diagnósticos motores co-ocorrentes como Ehlers-Danlos: Sessões de teclado são fisicamente limitadas.

O que a função faz tecnicamente

A entrada de voz utiliza a Web Speech API do navegador. O áudio falado permanece no dispositivo ou é processado através do reconhecimento de voz do navegador, dependendo do fabricante. Antes do primeiro uso, aparece um diálogo informativo explicando claramente o que acontece e onde. As informações de proteção de dados estão documentadas na declaração de privacidade.

A leitura das respostas utiliza a Speech Synthesis API do navegador. Nenhum serviço de voz externo é acionado, nenhum servidor adicional é contatado, nenhuma gravação é criada. A voz provém do sistema do dispositivo final.

Ambas as funções são opcionais. O botão do microfone só aparece se o navegador suportar entrada de voz. A leitura em voz alta pode ser iniciada e parada para cada resposta. Não existe auto-play. Quem não deseja usar a função não verá diferença em relação à entrada de texto clássica.

Por que as vozes ainda não parecem profissionais

As respostas lidas em voz alta soam sintéticas na maioria dos dispositivos. Em alguns sistemas a voz parece plana, em outros mecânica, em outros aceitável. Isso não é um bug, mas uma decisão consciente com um motivo claro.

A síntese de voz por IA profissional (clonagem de voz no nível de ElevenLabs, OpenAI Voice ou Google WaveNet) fornece vozes que mal podem ser distinguidas de gravações humanas. Ela custa mensalmente um valor médio a alto de três dígitos em euros com uso realista, além dos custos de consumo por segundo falado. Isso não é sustentável para um projeto financiado individualmente e baseado em créditos sem aumentar significativamente o preço por resposta.

A alternativa seria publicar a função de voz apenas quando ela soasse profissional. Essa estratégia significaria que pessoas com barreiras para ler ou digitar continuariam trabalhando sem essa função, possivelmente por meses. Uma voz existente e de sonoridade sóbria é utilizável. Uma voz inexistente não é utilizável.

Assim que a receita dos créditos cobrir os custos operacionais de uma solução profissional, a voz será substituída sem que nada mude no escopo das funções.

Proteção de dados

A entrada de voz é processada através da interface do navegador. Nenhuma gravação de áudio é criada no servidor do Autistic Mirror. O texto reconhecido é tratado como uma contribuição normal do chat após a confirmação e está sujeito às mesmas regras de segurança e exclusão que todas as outras entradas. Os fabricantes de navegadores (Apple, Google, Mozilla, Microsoft) processam os dados de áudio de acordo com suas próprias regras. Para navegadores baseados em Chromium, o processamento geralmente ocorre na nuvem do fabricante. Isso é indicado claramente no diálogo informativo antes do primeiro uso.

A leitura em voz alta não gera dados que saiam do dispositivo. O motor de voz roda localmente no dispositivo final.

Um ponto positivo

A acessibilidade raramente surge de um único grande salto. Ela surge quando funções são lançadas assim que se tornam utilizáveis, e não apenas quando estão polidas em nível corporativo. A função de voz é um exemplo concreto disso: bruta, rotulada de forma honesta, desativável a qualquer momento, sem novos fluxos de dados, sem obrigação de uso. Quem precisa dela, a tem a partir de hoje. Quem não precisa, não percebe nada.

O Autistic Mirror explica a neurologia autista de forma individual, referindo-se à sua situação. Seja para você mesmo, como pai/mãe ou como profissional.