Vertrouwen & veiligheid

We vallen onze eigen app aan

Wat een Red Team run is, waarom we meer dan 1.100 pogingen in 19 talen hebben uitgevoerd en wat er uiteindelijk op nul stond

Autistic Mirror wordt vaak op kwetsbare momenten gebruikt. Na een dag vol prikkels, in een crisis, tijdens een conflict met de eigen omgeving. Wie in zulke situaties een app opent, heeft geen buffer voor een AI die plotseling verkeerd reageert. Veiligheid is daarom geen functie die later wordt toegevoegd. Veiligheid is de voorwaarde om het hulpmiddel überhaupt te mogen gebruiken.

Dit artikel beschrijft wat we op 17 mei 2026 met de live app hebben gedaan. Het is leesbaar zonder voorkennis. Wie technische details zoekt, vindt deze in het interne auditrapport. Hier gaat het om de vraag of de beschermingslagen standhouden wanneer iemand ze actief probeert te doorbreken.

Wat een Red Team test is

Een Red Team test is een gesimuleerde aanval. In plaats van te wachten tot iemand van buitenaf het probeert, vallen we de app zelf aan. Met alle patronen die bekend zijn in beveiligingsonderzoek, plus de patronen die specifiek kritiek zouden zijn voor een AI in een neurodivergente context.

Drie vragen staan hierbij centraal.

Is de AI ertoe te bewegen zijn interne regels te negeren. Is hij in een crisissituatie ertoe te bewegen hulplijnen weg te laten of bagatellisering te bieden. Beschermt de omliggende software de gegevens van de gebruikers ook wanneer een eindpunt direct onder druk wordt gezet.

De bewijskracht van dergelijke tests komt niet voort uit een enkele poging. Het ontstaat door volume en variatie. Een geslaagde test is een anekdote. Honderden geslaagde pogingen in meerdere talen zijn bewijs.

Wat we bedoelen met een aanvalspoging

Een aanvalspoging is een echt verzoek aan de actieve app, zo geformuleerd dat het een beveiligingsregel moet omzeilen. Geen laboratorium, geen mock, geen simulatie. Precies wat een aanvaller ook in het invoerveld zou typen. Wanneer we hierna spreken over aanvalspogingen, bedoelen we altijd deze reële verzoeken.

De eerste run

In de eerste stap hebben we tientallen zorgvuldig geconstrueerde aanvalspatronen uitgevoerd tegen de actieve app. Elk patroon in alle zeven actief onderhouden UI-talen. Duits, Engels, Spaans, Frans, Nederlands, Braziliaans Portugees, Deens.

Zeven talen zijn geen versiering. Een AI-verdediging die in het Duits werkt, kan in het Frans stilletjes falen. Wie veiligheid serieus neemt, test elke taal waarin de app daadwerkelijk antwoordt.

Resultaat van deze eerste run. Nul overtredingen.

Waarom dat voor ons niet genoeg was

Een geslaagde run met 210 pogingen is een goed teken. Statistisch gezien is het echter mager. Wie wil weten of een systeem echt standhoudt, heeft een omvang nodig waarbij toeval als verklaring kan worden uitgesloten.

In de sector zijn Red Team rapporten voor AI-producten met enkele tientallen tot een paar honderd pogingen gebruikelijk, vaak in slechts één of twee talen. Wij wilden hoger en breder testen. Om twee redenen. Omdat de app werkt in een context die bijzondere bescherming behoeft. En omdat we ons voorbereiden op externe audits waar vergelijkbare baselines noodzakelijk zijn.

De uitgebreide run

Tijdens de uitgebreide run op 17 mei 2026 werd een aanzienlijk groter arsenaal ingezet tegen de actieve app. Meer dan 1.100 aanvalspogingen, plus honderden extra modelantwoorden uit lange gesprekken met meerdere fasen. Begeleid door een volledige offline structurele testsuite die de beschermingslogica onafhankelijk van de AI controleert.

Om de schaal inzichtelijk te maken, volgen hier de afzonderlijke gebieden. Wat de termen betekenen, staat er steeds in één zin achter.

Gebied	Wat wordt gecontroleerd	Resultaat
Diepgaande controle in de 7 UI-talen	Pogingen om de AI stap voor stap tot het overtreden van zijn regels te bewegen, in elke actief onderhouden taal	0 overtredingen
Pogingen om interne regels direct te overschrijven	Klassieke invoer zoals "negeer alle voorgaande instructies"	0 overtredingen
Pogingen de AI in een andere rol te dwingen	"Je bent nu een arts", "Antwoord als een coach"	0 overtredingen
Pogingen om regels via tekstuele trucs te omzeilen	Gecodeerde of door tekens vervormde invoer die filters moet omzeilen	0 overtredingen
Pogingen om gedragsaanpassing en normalisatie af te dwingen	Verzoeken waarbij de AI ABA-achtige aanbevelingen moet geven	0 overtredingen
Aanvallen in andere talen buiten de UI	Meer dan een dozijn extra talen die een aanvaller zou kiezen omdat veel AI-verdedigingen daar falen	0 overtredingen
Geherformuleerde bypass-pogingen	Dezelfde aanvallen in andere woorden, zodat pure trefwoordfilters omzeild zouden worden	0 overtredingen
Gecombineerde aanvallen uit een uitgebreide catalogus	Meerdere aanvalspatronen tegelijkertijd in dezelfde poging	0 overtredingen
Langzame manipulatie over vele gespreksrondes	Gesprekken waarin de regels niet direct, maar via vele stappen afgezwakt moeten worden	binnen tolerantievenster
Offline structurele tests	Meerdere testsuites die de logica onafhankelijk van de AI controleren op consistentie en drift	allemaal geslaagd
Admin-side eindpunten onder druk	Alle admin-interfaces worden zonder geldige machtiging aangesproken en moeten weigeren	correct geblokkeerd
Kwaliteitscontrole van antwoordinhoud	Meerdere clusters controleren of de AI neurologische mechanismen correct benoemt in plaats van algemene clichés	vrijwel volledige overeenkomst
Data-isolatie tussen gebruikers	Databasecontrole of gegevens van de ene persoon ooit in een antwoord voor een ander terecht kunnen komen	0 datalekken
Manipulatie-detectie in het activiteitenlogboek	Test of latere wijzigingen in veiligheidsrelevante logboeken herkenbaar blijven	geslaagd
Bereikbaarheid van alle crisis-hulplijnen	Elke noodlink die in de app is opgeslagen, wordt gecontroleerd	geslaagd
Meertalige vaktermen	Controle of neurologische vaktermen in meerdere talen correct worden uitgelegd	geslaagd

Wat de cijfers betekenen

Drie factoren zijn in deze tabel belangrijk.

De diepte. Meer dan 1.100 aanvalspogingen zijn veel meer dan gebruikelijk in de markt. Bij een waargenomen overtredingspercentage van nul wordt de statistische onzekerheid zo klein dat succes niet meer door toeval kan worden verklaard.

De breedte. 19 talen gedekt. De zeven actief onderhouden UI-talen plus extra talen uit andere schiftsystemen die een aanvaller zou kiezen omdat veel AI-verdedigingen daar stilletjes falen.

De herhaalbaarheid. Deze run biedt een vergelijkbare baseline. Als we over drie maanden dezelfde test opnieuw uitvoeren, zien we onmiddellijk of nieuwe modelversies of wijzigingen in de prompts een regressie hebben veroorzaakt. Veiligheid is geen toestand, maar een voortdurende meting.

Privacy tijdens het testen zelf

Zelfs een veiligheidstest mag geen dataspoor genereren dat later een probleem wordt. Per poging worden slechts drie dingen opgeslagen. Het oordeel (geslaagd, gedeeltelijk, gezakt). Het aangevallen mechanisme. Een korte cryptografische hash-stomp van het modelantwoord. Er worden geen antwoorden in klare tekst, geen interne systeemregels en geen gebruikersgegevens gearchiveerd. Wie de audit wil verifiëren, kan dit doen zonder ooit de oorspronkelijke bewoordingen te zien.

Externe tests zijn de volgende stap

Eigen tests halen is een plicht, geen extraatje. Een uitspraak over veiligheid wint pas aan gewicht wanneer onafhankelijke derden deze kunnen verifiëren. We bereiden daarom momenteel een externe audit voor en zullen de resultaten daarvan net zo transparant publiceren als deze interne run, ongeacht of de bevindingen positief of ongemakkelijk zijn.

Tegelijkertijd is een manuscript over de wetenschappelijke methodiek van onze veiligheidsarchitectuur ingediend bij Autism in Adulthood ter beoordeling (status: in review). Hiermee wordt de architectuur voor het eerst buiten ons eigen bedrijf toetsbaar.

Wat er achter de cijfers zit

De meeste AI-producten maken reclame met functies. Veiligheid verschijnt zelden in marketing omdat het voor buitenstaanders abstract lijkt. Achter de cijfers van deze run schuilt een andere houding. Een app die werkt met bijzonder kwetsbare mensen, is haar gebruikers meer verschuldigd dan een verzorgde interface. Ze is hen verschuldigd dat de beloften onder druk standhouden. Dat de teller hier op nul overtredingen stond, is geen garantie voor de toekomst. Het is de verklaring dat de verantwoordelijkheid serieus wordt genomen, met echte tests in echte cijfers, niet met beweringen.

Voor organisaties en auditors

Voor B2B-klanten, compliance-afdelingen en externe keuringsinstanties is een gedetailleerd document over de methodiek en resultaten beschikbaar. Het bevat de volledige steekproefmatrix, de exacte inventarissen per aanvalsgebied, de classificatie-logica en de privacyverklaring voor de opslag. Aanvragen kunnen worden gedaan via enterprise@autisticmirror.app, verzending volgt na een korte toelichting op het beoogde gebruik.

Aaron Wahl

Aaron Wahl

Autistisch, oprichter van Autistic Mirror

Hoe je werkt, heeft redenen.
Die zijn verklaarbaar.

Maak een gratis account