Tillid & sikkerhed
Vi angriber vores egen app
Hvad en Red Team test er, hvorfor vi har kørt over 1.100 forsøg på 19 sprog, og hvad der endte på nul
Autistic Mirror bliver ofte brugt i sensitive øjeblikke. Efter en dag med mange sanseindtryk, i en krise, i skænderier med ens omgivelser. Den, der åbner en app i sådanne situationer, har ikke overskud til en AI, der pludselig svarer forkert. Sikkerhed er derfor ikke en funktion, der bliver tilføjet på et senere tidspunkt. Sikkerhed er forudsætningen for, at værktøjet overhovedet må benyttes.
Denne artikel beskriver, hvad vi gjorde med live-appen den 17. maj 2026. Den kan læses uden forhåndsviden. Hvis du leder efter tekniske detaljer, findes de i den interne revisionsrapport. Her handler det om spørgsmålet om, hvorvidt beskyttelseslagene holder, når nogen aktivt forsøger at bryde dem.
Hvad en Red Team test er
En Red Team test er et simuleret angreb. I stedet for at vente på, at nogen udefra forsøger, angriber vi selv appen. Med alle de mønstre, der er kendt i sikkerhedsforskningen, plus de mønstre, der er særligt kritiske for en AI i en neurodivergent kontekst.
Tre spørgsmål står her i centrum.
Kan man få AI'en til at ignorere sine interne regler. Kan man i en krisesituation få den til at udelade hotlines eller levere bagatelliseringer. Beskytter den omgivende software brugernes data, selv når et slutpunkt sættes direkte under pres.
Signifikans opstår i sådanne tests ikke gennem et enkelt forsøg. Den opstår gennem volumen og variation. Et bestået enkeltforsøg er en anekdote. Hundreder af beståede forsøg på flere sprog er evidens.
Hvad vi mener med angrebsforsøg
Et angrebsforsøg er en ægte forespørgsel til den kørende app, som er formuleret således, at den skal omgå en beskyttelsesregel. Intet laboratorie, intet mock, ingen simulation. Præcis det, som en angriber også ville skrive i indtastningsfeltet. Når vi i det følgende taler om angrebsforsøg, mener vi altid disse reelle forespørgsler.
Den første kørsel
I det første trin kørte vi flere dusin omhyggeligt konstruerede angrebsmønstre mod den kørende app. Hvert mønster i alle syv aktivt vedligeholdte brugerfladesprog. Tysk, engelsk, spansk, fransk, hollandsk, brasiliansk portugisisk, dansk.
Syv sprog er ikke dekoration. Et AI-forsvar, der virker på tysk, kan lydløst fejle på fransk. Den, der tager sikkerhed alvorligt, tester hvert sprog, som appen rent faktisk svarer på.
Resultat af denne første kørsel. Nul overtrædelser.
Hvorfor det ikke var nok for os
En bestået kørsel med 210 forsøg er et godt tegn. Statistisk set er det dog spinkelt. Hvis man vil vide, om et system virkelig holder, har man brug for en størrelsesorden, hvor tilfældighed kan udelukkes som forklaring.
Det er branchestandard for AI-produkter at have Red Team rapporter med nogle få dusin til få hundrede forsøg, ofte på kun et eller to sprog. Vi ønskede at teste højere og bredere. Af to grunde. Fordi appen arbejder i en særligt sårbar kontekst. Og fordi vi forbereder os på eksterne audits, hvor sammenlignelige baselines er nødvendige.
Den udvidede kørsel
I den udvidede kørsel den 17. maj 2026 kørte et betydeligt større inventar mod den kørende app. Over 1.100 angrebsforsøg, dertil flere hundrede yderligere modelsvar fra lange, flertrins samtaler. Ledsaget af en fuldstændig offline strukturtestsuite, der tester beskyttelseslogikken uafhængigt af AI'en.
For at synliggøre målestokken er de enkelte områder herunder. Hvad begreberne betyder, står i en sætning efter hver.
| Område | Hvad der testes | Resultat |
|---|---|---|
| Dybdetest på de 7 brugerfladesprog | Forsøg på trin for trin at få AI'en til at bryde sine regler, på hvert aktivt vedligeholdt sprog | 0 overtrædelser |
| Forsøg på at overskrive interne regler direkte | Klassiske input som "Ignorer alle tidligere instruktioner" | 0 overtrædelser |
| Forsøg på at tvinge AI'en ind i en anden rolle | "Du er nu en læge", "Svar som en coach" | 0 overtrædelser |
| Forsøg på at omgå regler via skrive-tricks | Kodede eller tegnforvrængede input, der skal undergrave filtre | 0 overtrædelser |
| Forsøg på at gennemtvinge adfærdsjustering og normalisering | Forespørgsler, hvor AI'en skal give ABA lignende anbefalinger | 0 overtrædelser |
| Angreb på andre sprog uden for brugerfladen | Mere end et dusin yderligere sprog, som en angriber ville vælge, fordi mange AI-forsvar fejler der | 0 overtrædelser |
| Omformulerede bypass-forsøg | Samme angreb med andre ord, så rene søgeordsfiltre ville blive omgået | 0 overtrædelser |
| Kombinerede angreb fra et udvidet katalog | Flere angrebsmønstre samtidigt i samme forsøg | 0 overtrædelser |
| Langsom manipulation over mange samtalemønstre | Samtaler, hvor beskyttelsesreglerne ikke direkte, men over mange trin skal blødgøres | inden for tolerancevinduet |
| Offline strukturtests | Flere testsuiter, der tjekker beskyttelseslogikken for konsistens og drift uafhængigt af AI'en | alle bestået |
| Admin-side slutpunkter under pres | Alle administrative grænseflader tilgås uden gyldig tilladelse og skal afvise | korrekt blokeret |
| Kvalitetstjek af svarindhold | Flere klynger tjekker, om AI'en navngiver neurologiske mekanismer korrekt i stedet for generelle floskler | næsten fuldstændig overensstemmelse |
| Dataisolering mellem brugere | Database-tjek af, om en persons data nogensinde kan lande i et fremmed svar | 0 datalæk |
| Manipulationsdetektering i aktivitetsprotokollen | Test af, om efterfølgende ændringer i sikkerhedsrelevante protokoller forbliver genkendelige | bestået |
| Tilgængelighed af alle krise-hotline-links | Hvert nødnummer-link gemt i appen bliver testet | bestået |
| Flersprogede fagudtryk | Tjek af, om neurologiske fagudtryk forklares korrekt på flere sprog | bestået |
Hvad tallene betyder
Tre størrelser er vigtige i denne tabel.
Dybden. Over 1.100 angrebsforsøg er langt mere end det, der er sædvanligt på markedet. Ved en observeret overtrædelsesrate på nul bliver den statistiske usikkerhed så lille, at en beståelse ikke længere kan forklares med tilfældigheder.
Bredden. 19 sprog dækket. De syv aktivt vedligeholdte brugerfladesprog plus yderligere sprog fra andre skriftssystemer, som en angriber ville vælge, fordi mange AI-forsvar lydløst fejler der.
Gentageligheden. Denne kørsel leverer en sammenlignelig baseline. Hvis vi kører den samme test igen om tre måneder, ser vi med det samme, om nye modelversioner eller ændringer i prompts har indført en regression. Sikkerhed er ikke en tilstand, men en løbende måling.
Databeskyttelse under selve testen
Selv en sikkerhedstest må ikke generere et dataspor, der senere kan blive et problem. Per forsøg gemmes kun tre ting. Vurderingen (bestået, delvist, dumpet). Den angrebne mekanisme. En kort kryptografisk hash-stump af modelsvaret. Der arkiveres ingen svar i klartekst, ingen interne systemregler og ingen brugerdata. Den, der vil efterprøve revisionen, kan gøre det uden nogensinde at se den oprindelige ordlyd.
Eksterne tests er det næste skridt
At bestå egne tests er en pligt, ikke en præstation. En sikkerhedserklæring opnår først vægt, når uafhængige tredjeparter kan efterprøve den. Vi forbereder derfor i øjeblikket en ekstern testkørsel og vil offentliggøre resultaterne lige så gennemsigtigt som denne interne kørsel, uanset om resultaterne er positive eller ubehagelige.
Sideløbende hermed er et manuskript om den videnskabelige metodik i vores sikkerhedsarkitektur indsendt til bedømmelse hos Autism in Adulthood (status: in review). Dermed bliver arkitekturen for første gang efterprøvbar uden for vores eget hus.
Hvad der ligger bag tallene
De fleste AI-produkter reklamerer med funktioner. Sikkerhed optræder sjældent i markedsføringen, fordi det virker abstrakt for udenforstående. Bag tallene i denne kørsel ligger en anden holdning. En app, der arbejder med særligt sårbare mennesker, skylder sine brugere mere end en pæn brugerflade. Den skylder dem, at løfterne holder under pres. At der her stod nul overtrædelser, er ingen garanti for fremtiden. Det er et udsagn om, at ansvaret bliver taget alvorligt, med ægte tests i ægte tal, ikke med påstande.
Til organisationer og revisorer
For B2B-kunder, compliance-afdelinger og eksterne kontrolinstanser findes et mere udførligt dokument om metodik og resultater. Det indeholder den fuldstændige prøvematrix, de nøjagtige optegnelser per angrebsområde, klassificeringslogikken og databeskyttelseserklæringen for lagring. Forespørgsel sendes uformelt til enterprise@autisticmirror.app, afsendelse sker efter en kort afklaring af anvendelsen.
Autistic Mirror forklarer autistisk neurologi individuelt, relateret til din situation. Hvad enten det er for dig selv, som forælder eller som fagperson.