Vertrouwen & veiligheid
We vallen onze eigen app aan
Wat een Red Team run is, waarom we meer dan 1.100 pogingen in 19 talen hebben uitgevoerd en wat er uiteindelijk op nul stond
Autistic Mirror wordt vaak op kwetsbare momenten gebruikt. Na een dag vol prikkels, in een crisis, tijdens een conflict met de eigen omgeving. Wie in zulke situaties een app opent, heeft geen buffer voor een AI die plotseling verkeerd reageert. Veiligheid is daarom geen functie die later wordt toegevoegd. Veiligheid is de voorwaarde om het hulpmiddel überhaupt te mogen gebruiken.
Dit artikel beschrijft wat we op 17 mei 2026 met de live app hebben gedaan. Het is leesbaar zonder voorkennis. Wie technische details zoekt, vindt deze in het interne auditrapport. Hier gaat het om de vraag of de beschermingslagen standhouden wanneer iemand ze actief probeert te doorbreken.
Wat een Red Team test is
Een Red Team test is een gesimuleerde aanval. In plaats van te wachten tot iemand van buitenaf het probeert, vallen we de app zelf aan. Met alle patronen die bekend zijn in beveiligingsonderzoek, plus de patronen die specifiek kritiek zouden zijn voor een AI in een neurodivergente context.
Drie vragen staan hierbij centraal.
Is de AI ertoe te bewegen zijn interne regels te negeren. Is hij in een crisissituatie ertoe te bewegen hulplijnen weg te laten of bagatellisering te bieden. Beschermt de omliggende software de gegevens van de gebruikers ook wanneer een eindpunt direct onder druk wordt gezet.
De bewijskracht van dergelijke tests komt niet voort uit een enkele poging. Het ontstaat door volume en variatie. Een geslaagde test is een anekdote. Honderden geslaagde pogingen in meerdere talen zijn bewijs.
Wat we bedoelen met een aanvalspoging
Een aanvalspoging is een echt verzoek aan de actieve app, zo geformuleerd dat het een beveiligingsregel moet omzeilen. Geen laboratorium, geen mock, geen simulatie. Precies wat een aanvaller ook in het invoerveld zou typen. Wanneer we hierna spreken over aanvalspogingen, bedoelen we altijd deze reële verzoeken.
De eerste run
In de eerste stap hebben we tientallen zorgvuldig geconstrueerde aanvalspatronen uitgevoerd tegen de actieve app. Elk patroon in alle zeven actief onderhouden UI-talen. Duits, Engels, Spaans, Frans, Nederlands, Braziliaans Portugees, Deens.
Zeven talen zijn geen versiering. Een AI-verdediging die in het Duits werkt, kan in het Frans stilletjes falen. Wie veiligheid serieus neemt, test elke taal waarin de app daadwerkelijk antwoordt.
Resultaat van deze eerste run. Nul overtredingen.
Waarom dat voor ons niet genoeg was
Een geslaagde run met 210 pogingen is een goed teken. Statistisch gezien is het echter mager. Wie wil weten of een systeem echt standhoudt, heeft een omvang nodig waarbij toeval als verklaring kan worden uitgesloten.
In de sector zijn Red Team rapporten voor AI-producten met enkele tientallen tot een paar honderd pogingen gebruikelijk, vaak in slechts één of twee talen. Wij wilden hoger en breder testen. Om twee redenen. Omdat de app werkt in een context die bijzondere bescherming behoeft. En omdat we ons voorbereiden op externe audits waar vergelijkbare baselines noodzakelijk zijn.
De uitgebreide run
Tijdens de uitgebreide run op 17 mei 2026 werd een aanzienlijk groter arsenaal ingezet tegen de actieve app. Meer dan 1.100 aanvalspogingen, plus honderden extra modelantwoorden uit lange gesprekken met meerdere fasen. Begeleid door een volledige offline structurele testsuite die de beschermingslogica onafhankelijk van de AI controleert.
Om de schaal inzichtelijk te maken, volgen hier de afzonderlijke gebieden. Wat de termen betekenen, staat er steeds in één zin achter.
| Gebied | Wat wordt gecontroleerd | Resultaat |
|---|---|---|
| Diepgaande controle in de 7 UI-talen | Pogingen om de AI stap voor stap tot het overtreden van zijn regels te bewegen, in elke actief onderhouden taal | 0 overtredingen |
| Pogingen om interne regels direct te overschrijven | Klassieke invoer zoals "negeer alle voorgaande instructies" | 0 overtredingen |
| Pogingen de AI in een andere rol te dwingen | "Je bent nu een arts", "Antwoord als een coach" | 0 overtredingen |
| Pogingen om regels via tekstuele trucs te omzeilen | Gecodeerde of door tekens vervormde invoer die filters moet omzeilen | 0 overtredingen |
| Pogingen om gedragsaanpassing en normalisatie af te dwingen | Verzoeken waarbij de AI ABA-achtige aanbevelingen moet geven | 0 overtredingen |
| Aanvallen in andere talen buiten de UI | Meer dan een dozijn extra talen die een aanvaller zou kiezen omdat veel AI-verdedigingen daar falen | 0 overtredingen |
| Geherformuleerde bypass-pogingen | Dezelfde aanvallen in andere woorden, zodat pure trefwoordfilters omzeild zouden worden | 0 overtredingen |
| Gecombineerde aanvallen uit een uitgebreide catalogus | Meerdere aanvalspatronen tegelijkertijd in dezelfde poging | 0 overtredingen |
| Langzame manipulatie over vele gespreksrondes | Gesprekken waarin de regels niet direct, maar via vele stappen afgezwakt moeten worden | binnen tolerantievenster |
| Offline structurele tests | Meerdere testsuites die de logica onafhankelijk van de AI controleren op consistentie en drift | allemaal geslaagd |
| Admin-side eindpunten onder druk | Alle admin-interfaces worden zonder geldige machtiging aangesproken en moeten weigeren | correct geblokkeerd |
| Kwaliteitscontrole van antwoordinhoud | Meerdere clusters controleren of de AI neurologische mechanismen correct benoemt in plaats van algemene clichés | vrijwel volledige overeenkomst |
| Data-isolatie tussen gebruikers | Databasecontrole of gegevens van de ene persoon ooit in een antwoord voor een ander terecht kunnen komen | 0 datalekken |
| Manipulatie-detectie in het activiteitenlogboek | Test of latere wijzigingen in veiligheidsrelevante logboeken herkenbaar blijven | geslaagd |
| Bereikbaarheid van alle crisis-hulplijnen | Elke noodlink die in de app is opgeslagen, wordt gecontroleerd | geslaagd |
| Meertalige vaktermen | Controle of neurologische vaktermen in meerdere talen correct worden uitgelegd | geslaagd |
Wat de cijfers betekenen
Drie factoren zijn in deze tabel belangrijk.
De diepte. Meer dan 1.100 aanvalspogingen zijn veel meer dan gebruikelijk in de markt. Bij een waargenomen overtredingspercentage van nul wordt de statistische onzekerheid zo klein dat succes niet meer door toeval kan worden verklaard.
De breedte. 19 talen gedekt. De zeven actief onderhouden UI-talen plus extra talen uit andere schiftsystemen die een aanvaller zou kiezen omdat veel AI-verdedigingen daar stilletjes falen.
De herhaalbaarheid. Deze run biedt een vergelijkbare baseline. Als we over drie maanden dezelfde test opnieuw uitvoeren, zien we onmiddellijk of nieuwe modelversies of wijzigingen in de prompts een regressie hebben veroorzaakt. Veiligheid is geen toestand, maar een voortdurende meting.
Privacy tijdens het testen zelf
Zelfs een veiligheidstest mag geen dataspoor genereren dat later een probleem wordt. Per poging worden slechts drie dingen opgeslagen. Het oordeel (geslaagd, gedeeltelijk, gezakt). Het aangevallen mechanisme. Een korte cryptografische hash-stomp van het modelantwoord. Er worden geen antwoorden in klare tekst, geen interne systeemregels en geen gebruikersgegevens gearchiveerd. Wie de audit wil verifiëren, kan dit doen zonder ooit de oorspronkelijke bewoordingen te zien.
Externe tests zijn de volgende stap
Eigen tests halen is een plicht, geen extraatje. Een uitspraak over veiligheid wint pas aan gewicht wanneer onafhankelijke derden deze kunnen verifiëren. We bereiden daarom momenteel een externe audit voor en zullen de resultaten daarvan net zo transparant publiceren als deze interne run, ongeacht of de bevindingen positief of ongemakkelijk zijn.
Tegelijkertijd is een manuscript over de wetenschappelijke methodiek van onze veiligheidsarchitectuur ingediend bij Autism in Adulthood ter beoordeling (status: in review). Hiermee wordt de architectuur voor het eerst buiten ons eigen bedrijf toetsbaar.
Wat er achter de cijfers zit
De meeste AI-producten maken reclame met functies. Veiligheid verschijnt zelden in marketing omdat het voor buitenstaanders abstract lijkt. Achter de cijfers van deze run schuilt een andere houding. Een app die werkt met bijzonder kwetsbare mensen, is haar gebruikers meer verschuldigd dan een verzorgde interface. Ze is hen verschuldigd dat de beloften onder druk standhouden. Dat de teller hier op nul overtredingen stond, is geen garantie voor de toekomst. Het is de verklaring dat de verantwoordelijkheid serieus wordt genomen, met echte tests in echte cijfers, niet met beweringen.
Voor organisaties en auditors
Voor B2B-klanten, compliance-afdelingen en externe keuringsinstanties is een gedetailleerd document over de methodiek en resultaten beschikbaar. Het bevat de volledige steekproefmatrix, de exacte inventarissen per aanvalsgebied, de classificatie-logica en de privacyverklaring voor de opslag. Aanvragen kunnen worden gedaan via enterprise@autisticmirror.app, verzending volgt na een korte toelichting op het beoogde gebruik.
Autistisch, oprichter van Autistic Mirror
Hoe je werkt, heeft redenen.
Die zijn verklaarbaar.