Producto y Accesibilidad

Función de voz: Lectura en voz alta y dictado en Autistic Mirror

Autistic Mirror ahora puede leer respuestas en voz alta y recibir entrada de voz. Ambas funciones son opcionales, pueden desactivarse en cualquier momento y no dependen de ningún servicio de voz externo. Este artículo explica el trasfondo neurológico, la implementación técnica y por qué las voces todavía suenan sintéticas en la actualidad.

Por qué una función de voz reduce la carga neurológica

Escribir no es neutral. Vincula tres sistemas: la motricidad fina, la retroalimentación visual en la pantalla y la formulación lingüística. En el procesamiento autista, cada uno de estos sistemas no funciona automáticamente en segundo plano, sino que consume recursos ejecutivos medibles. Quien es sensible a los estímulos de forma paralela, tiene menos presupuesto para ello.

Leer es similar. Los bloques de texto largos en la pantalla requieren el control de los movimientos sacádicos, el procesamiento del contraste y la orientación de la atención al mismo tiempo. En un día con una alta carga de filtrado de estímulos, propenso a las migrañas, con fatiga ocular debida al POTS o después de un largo día de enmascaramiento, precisamente estos recursos escasean. Que se lea una respuesta en voz alta desacopla el contenido del esfuerzo de procesamiento visual.

Dictar en lugar de escribir reduce la carga motora y ejecutiva al formular. El pensamiento se expresa verbalmente una vez, en lugar de tener que estructurarse paralelamente a la escritura. Para muchas personas autistas y con AuDHD (TDAH y Autismo), esta es la diferencia entre hacer una pregunta y que la pregunta se quede solo en la cabeza.

Para quién se vuelve esto perceptible

La función de voz no es una "característica de comodidad". Reduce la barrera de entrada para varios grupos que a menudo permanecen en silencio en las herramientas basadas en texto.

Procesamiento AuDHD: Dictar evita el bloqueo de inercia inicial ante un campo de entrada vacío.
Dificultades de lectoescritura o disgrafía co-ocurrentes: Escribir cuesta proporcionalmente mucho más.
Fatiga ocular en días de POTS, migraña, fatiga o postvirales: Leer en la pantalla se vuelve doloroso.
Fases con alta carga de enmascaramiento: Cuando el sistema de traducción del lenguaje ya está sobrecargado, cualquier modalidad adicional ayuda.
Diagnósticos motores co-ocurrentes como Ehlers-Danlos: Las sesiones de teclado están limitadas físicamente.

Qué hace la función técnicamente

La entrada de voz utiliza la Web Speech API del navegador. El audio hablado permanece en el dispositivo o es procesado por el reconocimiento de voz del navegador, dependiendo del fabricante del mismo. Antes del primer uso, aparece un diálogo de aviso que explica con claridad qué sucede y dónde. La información sobre protección de datos está documentada en la política de privacidad.

La lectura de las respuestas utiliza la Speech Synthesis API del navegador. No se contacta con ningún servicio de voz externo, no se utiliza ningún servidor adicional y no se crea ninguna grabación. La voz procede del sistema del dispositivo final.

Ambas funciones son opcionales. El botón del micrófono solo aparece si el navegador admite la entrada de voz. La lectura en voz alta se puede iniciar y detener para cada respuesta. No hay reproducción automática. Quien no desee utilizar la función no verá ninguna diferencia con la entrada de texto clásica.

Por qué las voces aún no suenan profesionales

Las respuestas leídas en voz alta suenan sintéticas en la mayoría de los dispositivos. En algunos sistemas la voz parece plana, en otros mecánica y en otros aceptable. Esto no es un error, sino una decisión consciente con un trasfondo claro.

La síntesis de voz profesional mediante IA (clonación de voz al nivel de ElevenLabs, OpenAI Voice o Google WaveNet) ofrece voces que apenas pueden distinguirse de las grabaciones humanas. Tiene un coste mensual de tres cifras (media o alta) en euros con un uso realista, además de los costes de consumo corrientes por segundo hablado. Esto no es asumible actualmente para un proyecto financiado en solitario y basado en créditos, sin aumentar notablemente el precio por respuesta.

La alternativa habría sido no publicar la función de voz hasta que sonara profesional. Esta estrategia habría significado que las personas con barreras para leer o escribir habrían seguido trabajando sin esta función, posiblemente durante meses. Una voz existente y de sonido sobrio es utilizable. Una voz ausente no es utilizable.

Tan pronto como los ingresos por créditos cubran los costes corrientes de una solución profesional, se cambiará la voz sin que cambie el alcance de las funciones.

Protección de datos

La entrada de voz se gestiona a través de la interfaz del navegador. No se generan grabaciones de audio en el servidor de Autistic Mirror. Tras la confirmación, el texto reconocido se trata como una contribución de chat normal y está sujeto a las mismas reglas de seguridad y eliminación que cualquier otra entrada. Los fabricantes de navegadores (Apple, Google, Mozilla, Microsoft) procesan los datos de audio según sus propias reglas. Para los navegadores basados en Chromium, el procesamiento suele realizarse en la nube del fabricante. En el diálogo de aviso previo al primer uso, esto se indica con claridad.

La lectura en voz alta no genera datos que abandonen el dispositivo. El motor de voz se ejecuta localmente en el dispositivo final.

Un rayo de esperanza

La accesibilidad rara vez surge de un solo gran golpe. Surge cuando las funciones se publican tan pronto como son utilizables, y no solo cuando están pulidas al nivel de una gran corporación. La función de voz es un ejemplo concreto de esto: cruda, etiquetada con honestidad, desactivable en cualquier momento, sin nuevos flujos de datos y sin obligación de uso. Quien la necesita, la tiene a partir de hoy. Quien no la necesita, no nota nada.

Autistic Mirror explica la neurología autista de forma individual, adaptada a tu situación. Ya sea para ti mismo, como progenitor o como profesional.