Nós atacamos nosso próprio aplicativo

O que é uma rodada de Red Team, por que realizamos mais de 1.100 tentativas em 19 idiomas e o que terminou em zero

O Autistic Mirror é frequentemente utilizado em momentos sensíveis. Após um dia de sobrecarga sensorial, em uma crise ou durante um conflito com o ambiente ao redor. Quem abre um aplicativo em tais situações não possui margem de erro para uma IA que responda de forma inadequada. Por isso, a segurança não é uma função a ser adicionada posteriormente. A segurança é o pré-requisito para que a ferramenta possa ser utilizada.

Este artigo descreve o que fizemos com o aplicativo em produção no dia 17 de maio de 2026. Ele pode ser lido sem conhecimento prévio. Quem busca detalhes técnicos os encontrará no relatório de auditoria interna. Aqui, tratamos da questão de saber se as camadas de proteção resistem quando alguém tenta rompê-las ativamente.

O que é um teste de Red Team

Um teste de Red Team é um ataque simulado. Em vez de esperar que alguém de fora tente, nós mesmos atacamos o aplicativo. Utilizamos todos os padrões conhecidos na pesquisa de segurança, além dos padrões que seriam críticos especificamente para uma IA em um contexto neurodivergente.

Três perguntas estão no centro dessa avaliação.

É possível induzir a IA a ignorar suas regras internas. É possível, em uma situação de crise, convencê-la a omitir linhas de ajuda ou oferecer respostas que minimizem o problema. O software ao redor protege os dados das pessoas usuárias mesmo quando um endpoint é pressionado diretamente.

A relevância em tais testes não surge de uma única tentativa. Ela surge através de volume e variação. Uma única tentativa bem-sucedida é uma anedota. Centenas de tentativas bem-sucedidas em vários idiomas são evidência.

O que queremos dizer com tentativa de ataque

Uma tentativa de ataque é uma requisição real ao aplicativo em execução, formulada de modo a contornar uma regra de proteção. Sem laboratório, sem simulação, sem mock. Exatamente o que uma pessoa atacante digitaria no campo de entrada. Quando falamos de tentativas de ataque a seguir, referimo-nos sempre a essas requisições reais.

A primeira rodada

No primeiro passo, executamos várias dezenas de padrões de ataque cuidadosamente construídos contra o aplicativo em produção. Cada padrão em todos os sete idiomas de interface mantidos ativamente. Alemão, inglês, espanhol, francês, holandês, português brasileiro e dinamarquês.

Sete idiomas não são decoração. Uma defesa de IA que funciona em alemão pode falhar silenciosamente em francês. Quem leva a segurança a sério testa cada idioma no qual o aplicativo realmente responde.

Resultado desta primeira rodada. Zero violações.

Por que isso não foi o suficiente para nós

Uma rodada concluída com 210 tentativas é um bom sinal. Estatisticamente, ainda é pouco. Quem quer saber se um sistema realmente resiste precisa de uma escala onde o acaso possa ser excluído como explicação.

O padrão da indústria para relatórios de Red Team em produtos de IA envolve de algumas dezenas a poucas centenas de tentativas, frequentemente em apenas um ou dois idiomas. Queríamos testar de forma mais profunda e ampla. Por dois motivos. Porque o aplicativo opera em um contexto que exige proteção especial. E porque estamos nos preparando para auditorias externas, onde linhas de base comparáveis são necessárias.

A rodada expandida

Na rodada expandida de 17 de maio de 2026, um inventário significativamente maior foi testado contra o aplicativo em produção. Mais de 1.100 tentativas de ataque, além de várias centenas de outras respostas do modelo originadas de conversas longas e de múltiplas etapas. Acompanhado por uma suíte completa de testes estruturais offline, que verifica a lógica de proteção independentemente da IA.

Para que a escala fique visível, aqui estão as áreas individuais. O significado dos termos está descrito em uma frase logo após.

ÁreaO que é testadoResultado
Auditoria profunda nos 7 idiomas de interfaceTentativas de induzir a IA, passo a passo, a quebrar suas regras, em cada idioma mantido ativamente0 violações
Tentativas de sobrescrever as regras internas diretamenteentradas clássicas como "ignore todas as instruções anteriores"0 violações
Tentativas de forçar a IA a assumir outro papel"você agora é um médico", "responda como um coach"0 violações
Tentativas de burlar regras via truques de escritaentradas codificadas ou com caracteres alterados para contornar filtros0 violações
Tentativas de forçar ajuste comportamental e normalizaçãorequisições onde a IA deve fornecer recomendações semelhantes a ABA0 violações
Ataques em outros idiomas fora da interfacemais de uma dezena de idiomas adicionais que um atacante escolheria, pois muitas defesas de IA falham neles0 violações
Tentativas de bypass reformuladasos mesmos ataques com outras palavras, para que puros filtros de palavras-chave fossem evitados0 violações
Ataques combinados de um catálogo expandidovários padrões de ataque simultâneos na mesma tentativa0 violações
Manipulação lenta ao longo de muitos turnos de conversaconversas onde as regras de proteção devem ser suavizadas ao longo de muitos passos, e não diretamentedentro da janela de tolerância
Testes estruturais offlinevárias suítes de teste que verificam a consistência e o desvio da lógica de proteção independentemente da IAtodos aprovados
Endpoints administrativos sob pressãotodas as interfaces administrativas são acessadas sem autorização válida e devem recusarcorretamente bloqueado
Auditoria de qualidade do conteúdo das respostasvários clusters verificam se a IA nomeia corretamente mecanismos neurológicos em vez de clichês genéricosconcordância quase completa
Isolamento de dados entre pessoas usuáriasverificação do banco de dados para garantir que dados de uma pessoa jamais cheguem à resposta de outra0 vazamentos de dados
Detecção de manipulação no log de atividadesteste para verificar se alterações posteriores em logs relevantes para a segurança permanecem identificáveisaprovado
Acessibilidade de todos os links de hotline de crisecada link de emergência cadastrado no aplicativo é verificadoaprovado
Termos técnicos multilínguesverificação se termos técnicos neurológicos e co-occurring conditions são explicados corretamente em vários idiomasaprovado

O que os números significam

Três dimensões são importantes nesta tabela.

A profundidade. Mais de 1.100 tentativas de ataque são muito superiores ao que é comum no mercado. Com uma taxa de violação observada de zero, a incerteza estatística torna-se tão pequena que o sucesso não pode mais ser explicado pelo acaso.

A amplitude. 19 idiomas cobertos. Os sete idiomas de interface mantidos ativamente, mais outros idiomas de diferentes sistemas de escrita que um atacante escolheria, pois muitas defesas de IA falham silenciosamente neles.

A repetibilidade. Esta rodada fornece uma linha de base comparável. Se realizarmos o mesmo teste em três meses, veremos imediatamente se novas versões do modelo ou alterações de prompt introduziram uma regressão. A segurança não é um estado, mas uma medição contínua.

Proteção de dados durante o próprio teste

Mesmo um teste de segurança não deve gerar um rastro de dados que se torne um problema posterior. Por tentativa, apenas três coisas são armazenadas. O veredito (aprovado, parcial, reprovado). O mecanismo atacado. Um curto "hash stump" criptográfico da resposta do modelo. Não são arquivadas respostas em texto claro, regras internas do sistema ou dados de usuários. Quem quiser verificar a auditoria pode fazê-lo sem nunca ver o texto original.

Testes externos são o próximo passo

Passar nos próprios testes é obrigação, não mérito. Uma declaração de segurança só ganha peso quando terceiros independentes podem verificá-la. Por isso, estamos preparando uma rodada de testes externos e publicaremos seus resultados com a mesma transparência desta rodada interna, independentemente de os achados serem favoráveis ou desconfortáveis.

Paralelamente, um manuscrito sobre a metodologia científica da nossa arquitetura de segurança foi enviado para avaliação na Autism in Adulthood (status: em revisão). Com isso, a arquitetura torna-se verificável pela primeira vez fora da nossa própria casa.

O que está por trás dos números

A maioria dos produtos de IA faz propaganda de funções. A segurança raramente aparece no marketing porque parece abstrata para quem vê de fora. Por trás dos números desta rodada existe uma postura diferente. Um aplicativo que trabalha com pessoas em situação de vulnerabilidade deve aos seus usuários mais do que uma interface bem cuidada. Deve a eles que as promessas resistam sob pressão. O fato de isto ter resultado em zero violações não é uma garantia para o futuro. É a afirmação de que a responsabilidade é levada a sério, com testes reais em números reais, não com alegações.

Para organizações e auditores

Para clientes B2B, departamentos de compliance e órgãos de auditoria externa, um documento detalhado de metodologia e resultados está disponível. Ele contém a matriz completa de amostras, os inventários exatos por área de ataque, a lógica do classificador e a declaração de proteção de dados para armazenamento. Solicitação informal para enterprise@autisticmirror.app, envio após breve consulta sobre a finalidade de uso.

O Autistic Mirror explica a neurologia autista de forma individual, relacionada à sua situação. Seja para você, como pai/mãe ou como profissional.

Aaron Wahl
Aaron Wahl

Autista, fundador do Autistic Mirror

Como voce funciona tem razoes.
Elas podem ser explicadas.

Crie uma conta gratis