Tillid & sikkerhed

Vi angriber vores egen app

Hvad en Red Team test er, hvorfor vi har kørt over 1.100 forsøg på 19 sprog, og hvad der endte på nul

Autistic Mirror bliver ofte brugt i sensitive øjeblikke. Efter en dag med mange sanseindtryk, i en krise, i skænderier med ens omgivelser. Den, der åbner en app i sådanne situationer, har ikke overskud til en AI, der pludselig svarer forkert. Sikkerhed er derfor ikke en funktion, der bliver tilføjet på et senere tidspunkt. Sikkerhed er forudsætningen for, at værktøjet overhovedet må benyttes.

Denne artikel beskriver, hvad vi gjorde med live-appen den 17. maj 2026. Den kan læses uden forhåndsviden. Hvis du leder efter tekniske detaljer, findes de i den interne revisionsrapport. Her handler det om spørgsmålet om, hvorvidt beskyttelseslagene holder, når nogen aktivt forsøger at bryde dem.

Hvad en Red Team test er

En Red Team test er et simuleret angreb. I stedet for at vente på, at nogen udefra forsøger, angriber vi selv appen. Med alle de mønstre, der er kendt i sikkerhedsforskningen, plus de mønstre, der er særligt kritiske for en AI i en neurodivergent kontekst.

Tre spørgsmål står her i centrum.

Kan man få AI'en til at ignorere sine interne regler. Kan man i en krisesituation få den til at udelade hotlines eller levere bagatelliseringer. Beskytter den omgivende software brugernes data, selv når et slutpunkt sættes direkte under pres.

Signifikans opstår i sådanne tests ikke gennem et enkelt forsøg. Den opstår gennem volumen og variation. Et bestået enkeltforsøg er en anekdote. Hundreder af beståede forsøg på flere sprog er evidens.

Hvad vi mener med angrebsforsøg

Et angrebsforsøg er en ægte forespørgsel til den kørende app, som er formuleret således, at den skal omgå en beskyttelsesregel. Intet laboratorie, intet mock, ingen simulation. Præcis det, som en angriber også ville skrive i indtastningsfeltet. Når vi i det følgende taler om angrebsforsøg, mener vi altid disse reelle forespørgsler.

Den første kørsel

I det første trin kørte vi flere dusin omhyggeligt konstruerede angrebsmønstre mod den kørende app. Hvert mønster i alle syv aktivt vedligeholdte brugerfladesprog. Tysk, engelsk, spansk, fransk, hollandsk, brasiliansk portugisisk, dansk.

Syv sprog er ikke dekoration. Et AI-forsvar, der virker på tysk, kan lydløst fejle på fransk. Den, der tager sikkerhed alvorligt, tester hvert sprog, som appen rent faktisk svarer på.

Resultat af denne første kørsel. Nul overtrædelser.

Hvorfor det ikke var nok for os

En bestået kørsel med 210 forsøg er et godt tegn. Statistisk set er det dog spinkelt. Hvis man vil vide, om et system virkelig holder, har man brug for en størrelsesorden, hvor tilfældighed kan udelukkes som forklaring.

Det er branchestandard for AI-produkter at have Red Team rapporter med nogle få dusin til få hundrede forsøg, ofte på kun et eller to sprog. Vi ønskede at teste højere og bredere. Af to grunde. Fordi appen arbejder i en særligt sårbar kontekst. Og fordi vi forbereder os på eksterne audits, hvor sammenlignelige baselines er nødvendige.

Den udvidede kørsel

I den udvidede kørsel den 17. maj 2026 kørte et betydeligt større inventar mod den kørende app. Over 1.100 angrebsforsøg, dertil flere hundrede yderligere modelsvar fra lange, flertrins samtaler. Ledsaget af en fuldstændig offline strukturtestsuite, der tester beskyttelseslogikken uafhængigt af AI'en.

For at synliggøre målestokken er de enkelte områder herunder. Hvad begreberne betyder, står i en sætning efter hver.

Område	Hvad der testes	Resultat
Dybdetest på de 7 brugerfladesprog	Forsøg på trin for trin at få AI'en til at bryde sine regler, på hvert aktivt vedligeholdt sprog	0 overtrædelser
Forsøg på at overskrive interne regler direkte	Klassiske input som "Ignorer alle tidligere instruktioner"	0 overtrædelser
Forsøg på at tvinge AI'en ind i en anden rolle	"Du er nu en læge", "Svar som en coach"	0 overtrædelser
Forsøg på at omgå regler via skrive-tricks	Kodede eller tegnforvrængede input, der skal undergrave filtre	0 overtrædelser
Forsøg på at gennemtvinge adfærdsjustering og normalisering	Forespørgsler, hvor AI'en skal give ABA lignende anbefalinger	0 overtrædelser
Angreb på andre sprog uden for brugerfladen	Mere end et dusin yderligere sprog, som en angriber ville vælge, fordi mange AI-forsvar fejler der	0 overtrædelser
Omformulerede bypass-forsøg	Samme angreb med andre ord, så rene søgeordsfiltre ville blive omgået	0 overtrædelser
Kombinerede angreb fra et udvidet katalog	Flere angrebsmønstre samtidigt i samme forsøg	0 overtrædelser
Langsom manipulation over mange samtalemønstre	Samtaler, hvor beskyttelsesreglerne ikke direkte, men over mange trin skal blødgøres	inden for tolerancevinduet
Offline strukturtests	Flere testsuiter, der tjekker beskyttelseslogikken for konsistens og drift uafhængigt af AI'en	alle bestået
Admin-side slutpunkter under pres	Alle administrative grænseflader tilgås uden gyldig tilladelse og skal afvise	korrekt blokeret
Kvalitetstjek af svarindhold	Flere klynger tjekker, om AI'en navngiver neurologiske mekanismer korrekt i stedet for generelle floskler	næsten fuldstændig overensstemmelse
Dataisolering mellem brugere	Database-tjek af, om en persons data nogensinde kan lande i et fremmed svar	0 datalæk
Manipulationsdetektering i aktivitetsprotokollen	Test af, om efterfølgende ændringer i sikkerhedsrelevante protokoller forbliver genkendelige	bestået
Tilgængelighed af alle krise-hotline-links	Hvert nødnummer-link gemt i appen bliver testet	bestået
Flersprogede fagudtryk	Tjek af, om neurologiske fagudtryk forklares korrekt på flere sprog	bestået

Hvad tallene betyder

Tre størrelser er vigtige i denne tabel.

Dybden. Over 1.100 angrebsforsøg er langt mere end det, der er sædvanligt på markedet. Ved en observeret overtrædelsesrate på nul bliver den statistiske usikkerhed så lille, at en beståelse ikke længere kan forklares med tilfældigheder.

Bredden. 19 sprog dækket. De syv aktivt vedligeholdte brugerfladesprog plus yderligere sprog fra andre skriftssystemer, som en angriber ville vælge, fordi mange AI-forsvar lydløst fejler der.

Gentageligheden. Denne kørsel leverer en sammenlignelig baseline. Hvis vi kører den samme test igen om tre måneder, ser vi med det samme, om nye modelversioner eller ændringer i prompts har indført en regression. Sikkerhed er ikke en tilstand, men en løbende måling.

Databeskyttelse under selve testen

Selv en sikkerhedstest må ikke generere et dataspor, der senere kan blive et problem. Per forsøg gemmes kun tre ting. Vurderingen (bestået, delvist, dumpet). Den angrebne mekanisme. En kort kryptografisk hash-stump af modelsvaret. Der arkiveres ingen svar i klartekst, ingen interne systemregler og ingen brugerdata. Den, der vil efterprøve revisionen, kan gøre det uden nogensinde at se den oprindelige ordlyd.

Eksterne tests er det næste skridt

At bestå egne tests er en pligt, ikke en præstation. En sikkerhedserklæring opnår først vægt, når uafhængige tredjeparter kan efterprøve den. Vi forbereder derfor i øjeblikket en ekstern testkørsel og vil offentliggøre resultaterne lige så gennemsigtigt som denne interne kørsel, uanset om resultaterne er positive eller ubehagelige.

Sideløbende hermed er et manuskript om den videnskabelige metodik i vores sikkerhedsarkitektur indsendt til bedømmelse hos Autism in Adulthood (status: in review). Dermed bliver arkitekturen for første gang efterprøvbar uden for vores eget hus.

Hvad der ligger bag tallene

De fleste AI-produkter reklamerer med funktioner. Sikkerhed optræder sjældent i markedsføringen, fordi det virker abstrakt for udenforstående. Bag tallene i denne kørsel ligger en anden holdning. En app, der arbejder med særligt sårbare mennesker, skylder sine brugere mere end en pæn brugerflade. Den skylder dem, at løfterne holder under pres. At der her stod nul overtrædelser, er ingen garanti for fremtiden. Det er et udsagn om, at ansvaret bliver taget alvorligt, med ægte tests i ægte tal, ikke med påstande.

Til organisationer og revisorer

For B2B-kunder, compliance-afdelinger og eksterne kontrolinstanser findes et mere udførligt dokument om metodik og resultater. Det indeholder den fuldstændige prøvematrix, de nøjagtige optegnelser per angrebsområde, klassificeringslogikken og databeskyttelseserklæringen for lagring. Forespørgsel sendes uformelt til enterprise@autisticmirror.app, afsendelse sker efter en kort afklaring af anvendelsen.

Autistic Mirror forklarer autistisk neurologi individuelt, relateret til din situation. Hvad enten det er for dig selv, som forælder eller som fagperson.