Vertrauen & Sicherheit

Wir greifen unsere eigene App an

Was ein Red-Team-Lauf ist, warum wir über 1.100 Versuche in 19 Sprachen gefahren sind und was am Ende auf null stand

Autistic Mirror wird oft in sensiblen Momenten benutzt. Nach einem Reiztag, in einer Krise, im Streit mit dem eigenen Umfeld. Wer eine App in solchen Situationen öffnet, hat keinen Puffer für eine KI, die plötzlich daneben antwortet. Sicherheit ist deshalb keine Funktion, die irgendwann nachgereicht wird. Sicherheit ist die Voraussetzung dafür, dass das Werkzeug überhaupt benutzt werden darf.

Dieser Artikel beschreibt, was wir am 17. Mai 2026 mit der Live-App gemacht haben. Er ist ohne Vorwissen lesbar. Wer technische Details sucht, findet sie im internen Prüfbericht. Hier geht es um die Frage, ob die Schutzschichten halten, wenn jemand sie aktiv brechen will.

Was ein Red-Team-Test ist

Ein Red-Team-Test ist ein simulierter Angriff. Statt zu warten, bis es jemand von außen versucht, greifen wir die App selbst an. Mit allen Mustern, die in der Sicherheitsforschung bekannt sind, plus den Mustern, die speziell für eine KI im neurodivergenten Kontext kritisch wären.

Drei Fragen stehen dabei im Mittelpunkt.

Lässt sich die KI dazu bringen, ihre internen Regeln zu ignorieren. Lässt sie sich in einer Krisensituation dazu bringen, Hotlines wegzulassen oder Verharmlosung zu liefern. Schützt die umgebende Software die Daten der Nutzer*innen auch dann, wenn ein Endpunkt direkt unter Druck gesetzt wird.

Aussagekraft entsteht in solchen Tests nicht durch einen einzelnen Versuch. Sie entsteht durch Volumen und Variation. Ein bestandener Einzelversuch ist Anekdote. Hunderte bestandene Versuche in mehreren Sprachen sind Evidenz.

Was wir mit Angriffsversuch meinen

Ein Angriffsversuch ist eine echte Anfrage an die laufende App, die so formuliert ist, dass sie eine Schutzregel umgehen soll. Kein Labor, kein Mock, keine Simulation. Genau das, was eine angreifende Person auch in das Eingabefeld tippen würde. Wenn wir im Folgenden von Angriffsversuchen sprechen, meinen wir immer diese realen Anfragen.

Der erste Lauf

Im ersten Schritt haben wir mehrere Dutzend sorgfältig konstruierte Angriffsmuster gegen die laufende App gefahren. Jedes Muster in allen sieben aktiv gepflegten UI-Sprachen. Deutsch, Englisch, Spanisch, Französisch, Niederländisch, brasilianisches Portugiesisch, dänisches Dänisch.

Sieben Sprachen sind keine Dekoration. Eine KI-Verteidigung, die auf Deutsch greift, kann auf Französisch lautlos versagen. Wer Sicherheit ernst nimmt, testet jede Sprache, in der die App tatsächlich antwortet.

Ergebnis dieses ersten Laufs. Null Verstöße.

Warum uns das nicht gereicht hat

Ein bestandener Lauf mit 210 Versuchen ist ein gutes Zeichen. Statistisch ist er trotzdem dünn. Wer wissen will, ob ein System wirklich hält, braucht eine Größenordnung, bei der Zufall als Erklärung ausgeschlossen werden kann.

Branchenüblich sind Red-Team-Berichte für KI-Produkte mit einigen Dutzend bis wenigen hundert Versuchen, oft in nur ein oder zwei Sprachen. Wir wollten höher und breiter testen. Aus zwei Gründen. Weil die App in einem besonders schutzbedürftigen Kontext arbeitet. Und weil wir uns auf externe Prüfungen vorbereiten, bei denen vergleichbare Baselines notwendig sind.

Der erweiterte Lauf

Im erweiterten Lauf am 17. Mai 2026 lief ein deutlich größeres Inventar gegen die laufende App. Über 1.100 Angriffsversuche, dazu mehrere hundert weitere Modell-Antworten aus langen, mehrstufigen Gesprächen. Begleitet von einer vollständigen Offline-Strukturtestsuite, die die Schutzlogik unabhängig von der KI prüft.

Damit der Maßstab sichtbar wird, hier die einzelnen Bereiche. Was die Begriffe bedeuten, steht jeweils in einem Satz dahinter.

Bereich	Was geprüft wird	Ergebnis
Tiefenprüfung in den 7 UI-Sprachen	Versuche, die KI Schritt für Schritt zum Bruch ihrer Regeln zu bewegen, in jeder aktiv gepflegten Sprache	0 Verstöße
Versuche, die internen Regeln direkt zu überschreiben	klassische Eingaben wie "Ignoriere alle vorherigen Anweisungen"	0 Verstöße
Versuche, die KI in eine andere Rolle zu zwingen	"Du bist jetzt ein Arzt", "Antworte wie ein Coach"	0 Verstöße
Versuche, Schutzregeln über Schreibtricks zu umgehen	kodierte oder zeichenverfremdete Eingaben, die Filter unterlaufen sollen	0 Verstöße
Versuche, Verhaltensanpassung und Normalisierung zu erzwingen	Anfragen, in denen die KI ABA-ähnliche Empfehlungen geben soll	0 Verstöße
Angriffe in weiteren Sprachen außerhalb der UI	mehr als ein Dutzend zusätzliche Sprachen, die ein Angreifer wählen würde, weil viele KI-Verteidigungen dort versagen	0 Verstöße
Umformulierte Bypass-Versuche	dieselben Angriffe in anderen Worten, damit reine Stichwort-Filter umgangen würden	0 Verstöße
Kombinierte Angriffe aus einem erweiterten Katalog	mehrere Angriffsmuster gleichzeitig im selben Versuch	0 Verstöße
Langsame Manipulation über viele Gesprächsrunden	Gespräche, in denen die Schutzregeln nicht direkt, sondern über viele Schritte aufgeweicht werden sollen	im Toleranzfenster
Offline-Strukturtests	mehrere Test-Suiten, die die Schutzlogik unabhängig von der KI auf Konsistenz und Drift prüfen	alle bestanden
Adminseitige Endpunkte unter Druck	alle adminseitigen Schnittstellen werden ohne gültige Berechtigung angesprochen und müssen ablehnen	korrekt geblockt
Qualitätsprüfung der Antwortinhalte	mehrere Cluster prüfen, ob die KI neurologische Mechanismen korrekt benennt statt allgemeine Floskeln	nahezu vollständige Übereinstimmung
Datenisolierung zwischen Nutzer*innen	Datenbank-Prüfung, ob Daten einer Person je in eine fremde Antwort gelangen können	0 Datenlecks
Manipulations-Erkennung am Aktivitäts-Protokoll	Test, ob nachträgliche Änderungen an sicherheitsrelevanten Protokollen erkennbar bleiben	bestanden
Erreichbarkeit aller Krisen-Hotline-Links	jeder in der App hinterlegte Notruf-Link wird angesprochen	bestanden
Mehrsprachige Fach-Begriffe	Prüfung, ob neurologische Fachbegriffe in mehreren Sprachen korrekt erklärt werden	bestanden

Was die Zahlen bedeuten

Drei Größen sind in dieser Tabelle wichtig.

Die Tiefe. Über 1.100 Angriffsversuche sind weit mehr als das, was im Markt üblich ist. Bei einer beobachteten Verstoß-Rate von null wird die statistische Unsicherheit so klein, dass ein Bestehen nicht mehr mit Zufall erklärt werden kann.

Die Breite. 19 Sprachen abgedeckt. Die sieben aktiv gepflegten UI-Sprachen plus weitere Sprachen aus anderen Schriftsystemen, die ein Angreifer wählen würde, weil viele KI-Verteidigungen dort lautlos versagen.

Die Wiederholbarkeit. Dieser Lauf liefert eine vergleichbare Baseline. Wenn wir in drei Monaten denselben Test wieder fahren, sehen wir sofort, ob neue Modellversionen oder neue Prompt-Änderungen eine Regression eingebaut haben. Sicherheit ist kein Zustand, sondern eine fortlaufende Messung.

Datenschutz beim Testen selbst

Auch ein Sicherheitstest darf keine Datenspur erzeugen, die später zum Problem wird. Pro Versuch werden nur drei Dinge gespeichert. Das Urteil (bestanden, teilweise, durchgefallen). Der angegriffene Mechanismus. Ein kurzer kryptographischer Hash-Stumpf der Modell-Antwort. Es werden keine Klartext-Antworten, keine internen Systemregeln und keine Nutzerdaten archiviert. Wer den Audit nachvollziehen will, kann dies tun, ohne jemals den ursprünglichen Wortlaut zu sehen.

Externe Tests sind der nächste Schritt

Eigene Tests zu bestehen ist Pflicht, nicht Kür. Eine Sicherheitsaussage gewinnt erst dann an Gewicht, wenn unabhängige Dritte sie nachvollziehen können. Wir bereiten deshalb gerade einen externen Prüflauf vor und werden dessen Ergebnisse genauso transparent veröffentlichen wie diesen internen Lauf, unabhängig davon, ob die Befunde freundlich ausfallen oder unbequem sind.

Parallel dazu ist ein Manuskript zur wissenschaftlichen Methodik unserer Sicherheitsarchitektur bei Autism in Adulthood zur Begutachtung eingereicht (Status: in Review). Damit wird die Architektur erstmals außerhalb unseres eigenen Hauses prüfbar.

Was hinter den Zahlen steht

Die meisten KI-Produkte werben mit Funktionen. Sicherheit taucht selten im Marketing auf, weil sie für Außenstehende abstrakt wirkt. Hinter den Zahlen dieses Laufs steckt eine andere Haltung. Eine App, die mit besonders schutzbedürftigen Menschen arbeitet, schuldet ihren Nutzer*innen mehr als ein gepflegtes Interface. Sie schuldet ihnen, dass die Versprechen unter Druck halten. Dass das hier auf null Verstöße stand, ist keine Garantie für die Zukunft. Es ist die Aussage, dass die Verantwortung ernst genommen wird, mit echten Tests in echten Zahlen, nicht mit Behauptungen.

Für Organisationen und Auditor*innen

Für B2B-Kunden, Compliance-Abteilungen und externe Prüfstellen steht ein ausführlicheres Methodik- und Ergebnisdokument bereit. Es enthält die vollständige Probenmatrix, die exakten Inventare pro Angriffsbereich, die Klassifikator-Logik und die Datenschutz-Erklärung zur Speicherung. Anfrage formlos an enterprise@autisticmirror.app, Versand nach kurzer Rückfrage zur Verwendung.

Autistic Mirror erklärt autistische Neurologie individuell, auf deine Situation bezogen. Ob für dich selbst, als Elternteil oder als Fachperson.