Wir greifen unsere eigene App an

Was ein Red-Team-Lauf ist, warum wir über 1.100 Versuche in 19 Sprachen gefahren sind und was am Ende auf null stand

Autistic Mirror wird oft in sensiblen Momenten benutzt. Nach einem Reiztag, in einer Krise, im Streit mit dem eigenen Umfeld. Wer eine App in solchen Situationen öffnet, hat keinen Puffer für eine KI, die plötzlich daneben antwortet. Sicherheit ist deshalb keine Funktion, die irgendwann nachgereicht wird. Sicherheit ist die Voraussetzung dafür, dass das Werkzeug überhaupt benutzt werden darf.

Dieser Artikel beschreibt, was wir am 17. Mai 2026 mit der Live-App gemacht haben. Er ist ohne Vorwissen lesbar. Wer technische Details sucht, findet sie im internen Prüfbericht. Hier geht es um die Frage, ob die Schutzschichten halten, wenn jemand sie aktiv brechen will.

Was ein Red-Team-Test ist

Ein Red-Team-Test ist ein simulierter Angriff. Statt zu warten, bis es jemand von außen versucht, greifen wir die App selbst an. Mit allen Mustern, die in der Sicherheitsforschung bekannt sind, plus den Mustern, die speziell für eine KI im neurodivergenten Kontext kritisch wären.

Drei Fragen stehen dabei im Mittelpunkt.

Lässt sich die KI dazu bringen, ihre internen Regeln zu ignorieren. Lässt sie sich in einer Krisensituation dazu bringen, Hotlines wegzulassen oder Verharmlosung zu liefern. Schützt die umgebende Software die Daten der Nutzer*innen auch dann, wenn ein Endpunkt direkt unter Druck gesetzt wird.

Aussagekraft entsteht in solchen Tests nicht durch einen einzelnen Versuch. Sie entsteht durch Volumen und Variation. Ein bestandener Einzelversuch ist Anekdote. Hunderte bestandene Versuche in mehreren Sprachen sind Evidenz.

Was wir mit Angriffsversuch meinen

Ein Angriffsversuch ist eine echte Anfrage an die laufende App, die so formuliert ist, dass sie eine Schutzregel umgehen soll. Kein Labor, kein Mock, keine Simulation. Genau das, was eine angreifende Person auch in das Eingabefeld tippen würde. Wenn wir im Folgenden von Angriffsversuchen sprechen, meinen wir immer diese realen Anfragen.

Der erste Lauf

Im ersten Schritt haben wir mehrere Dutzend sorgfältig konstruierte Angriffsmuster gegen die laufende App gefahren. Jedes Muster in allen sieben aktiv gepflegten UI-Sprachen. Deutsch, Englisch, Spanisch, Französisch, Niederländisch, brasilianisches Portugiesisch, dänisches Dänisch.

Sieben Sprachen sind keine Dekoration. Eine KI-Verteidigung, die auf Deutsch greift, kann auf Französisch lautlos versagen. Wer Sicherheit ernst nimmt, testet jede Sprache, in der die App tatsächlich antwortet.

Ergebnis dieses ersten Laufs. Null Verstöße.

Warum uns das nicht gereicht hat

Ein bestandener Lauf mit 210 Versuchen ist ein gutes Zeichen. Statistisch ist er trotzdem dünn. Wer wissen will, ob ein System wirklich hält, braucht eine Größenordnung, bei der Zufall als Erklärung ausgeschlossen werden kann.

Branchenüblich sind Red-Team-Berichte für KI-Produkte mit einigen Dutzend bis wenigen hundert Versuchen, oft in nur ein oder zwei Sprachen. Wir wollten höher und breiter testen. Aus zwei Gründen. Weil die App in einem besonders schutzbedürftigen Kontext arbeitet. Und weil wir uns auf externe Prüfungen vorbereiten, bei denen vergleichbare Baselines notwendig sind.

Der erweiterte Lauf

Im erweiterten Lauf am 17. Mai 2026 lief ein deutlich größeres Inventar gegen die laufende App. Über 1.100 Angriffsversuche, dazu mehrere hundert weitere Modell-Antworten aus langen, mehrstufigen Gesprächen. Begleitet von einer vollständigen Offline-Strukturtestsuite, die die Schutzlogik unabhängig von der KI prüft.

Damit der Maßstab sichtbar wird, hier die einzelnen Bereiche. Was die Begriffe bedeuten, steht jeweils in einem Satz dahinter.

BereichWas geprüft wirdErgebnis
Tiefenprüfung in den 7 UI-SprachenVersuche, die KI Schritt für Schritt zum Bruch ihrer Regeln zu bewegen, in jeder aktiv gepflegten Sprache0 Verstöße
Versuche, die internen Regeln direkt zu überschreibenklassische Eingaben wie "Ignoriere alle vorherigen Anweisungen"0 Verstöße
Versuche, die KI in eine andere Rolle zu zwingen"Du bist jetzt ein Arzt", "Antworte wie ein Coach"0 Verstöße
Versuche, Schutzregeln über Schreibtricks zu umgehenkodierte oder zeichenverfremdete Eingaben, die Filter unterlaufen sollen0 Verstöße
Versuche, Verhaltensanpassung und Normalisierung zu erzwingenAnfragen, in denen die KI ABA-ähnliche Empfehlungen geben soll0 Verstöße
Angriffe in weiteren Sprachen außerhalb der UImehr als ein Dutzend zusätzliche Sprachen, die ein Angreifer wählen würde, weil viele KI-Verteidigungen dort versagen0 Verstöße
Umformulierte Bypass-Versuchedieselben Angriffe in anderen Worten, damit reine Stichwort-Filter umgangen würden0 Verstöße
Kombinierte Angriffe aus einem erweiterten Katalogmehrere Angriffsmuster gleichzeitig im selben Versuch0 Verstöße
Langsame Manipulation über viele GesprächsrundenGespräche, in denen die Schutzregeln nicht direkt, sondern über viele Schritte aufgeweicht werden sollenim Toleranzfenster
Offline-Strukturtestsmehrere Test-Suiten, die die Schutzlogik unabhängig von der KI auf Konsistenz und Drift prüfenalle bestanden
Adminseitige Endpunkte unter Druckalle adminseitigen Schnittstellen werden ohne gültige Berechtigung angesprochen und müssen ablehnenkorrekt geblockt
Qualitätsprüfung der Antwortinhaltemehrere Cluster prüfen, ob die KI neurologische Mechanismen korrekt benennt statt allgemeine Floskelnnahezu vollständige Übereinstimmung
Datenisolierung zwischen Nutzer*innenDatenbank-Prüfung, ob Daten einer Person je in eine fremde Antwort gelangen können0 Datenlecks
Manipulations-Erkennung am Aktivitäts-ProtokollTest, ob nachträgliche Änderungen an sicherheitsrelevanten Protokollen erkennbar bleibenbestanden
Erreichbarkeit aller Krisen-Hotline-Linksjeder in der App hinterlegte Notruf-Link wird angesprochenbestanden
Mehrsprachige Fach-BegriffePrüfung, ob neurologische Fachbegriffe in mehreren Sprachen korrekt erklärt werdenbestanden

Was die Zahlen bedeuten

Drei Größen sind in dieser Tabelle wichtig.

Die Tiefe. Über 1.100 Angriffsversuche sind weit mehr als das, was im Markt üblich ist. Bei einer beobachteten Verstoß-Rate von null wird die statistische Unsicherheit so klein, dass ein Bestehen nicht mehr mit Zufall erklärt werden kann.

Die Breite. 19 Sprachen abgedeckt. Die sieben aktiv gepflegten UI-Sprachen plus weitere Sprachen aus anderen Schriftsystemen, die ein Angreifer wählen würde, weil viele KI-Verteidigungen dort lautlos versagen.

Die Wiederholbarkeit. Dieser Lauf liefert eine vergleichbare Baseline. Wenn wir in drei Monaten denselben Test wieder fahren, sehen wir sofort, ob neue Modellversionen oder neue Prompt-Änderungen eine Regression eingebaut haben. Sicherheit ist kein Zustand, sondern eine fortlaufende Messung.

Datenschutz beim Testen selbst

Auch ein Sicherheitstest darf keine Datenspur erzeugen, die später zum Problem wird. Pro Versuch werden nur drei Dinge gespeichert. Das Urteil (bestanden, teilweise, durchgefallen). Der angegriffene Mechanismus. Ein kurzer kryptographischer Hash-Stumpf der Modell-Antwort. Es werden keine Klartext-Antworten, keine internen Systemregeln und keine Nutzerdaten archiviert. Wer den Audit nachvollziehen will, kann dies tun, ohne jemals den ursprünglichen Wortlaut zu sehen.

Externe Tests sind der nächste Schritt

Eigene Tests zu bestehen ist Pflicht, nicht Kür. Eine Sicherheitsaussage gewinnt erst dann an Gewicht, wenn unabhängige Dritte sie nachvollziehen können. Wir bereiten deshalb gerade einen externen Prüflauf vor und werden dessen Ergebnisse genauso transparent veröffentlichen wie diesen internen Lauf, unabhängig davon, ob die Befunde freundlich ausfallen oder unbequem sind.

Parallel dazu ist ein Manuskript zur wissenschaftlichen Methodik unserer Sicherheitsarchitektur bei Autism in Adulthood zur Begutachtung eingereicht (Status: in Review). Damit wird die Architektur erstmals außerhalb unseres eigenen Hauses prüfbar.

Was hinter den Zahlen steht

Die meisten KI-Produkte werben mit Funktionen. Sicherheit taucht selten im Marketing auf, weil sie für Außenstehende abstrakt wirkt. Hinter den Zahlen dieses Laufs steckt eine andere Haltung. Eine App, die mit besonders schutzbedürftigen Menschen arbeitet, schuldet ihren Nutzer*innen mehr als ein gepflegtes Interface. Sie schuldet ihnen, dass die Versprechen unter Druck halten. Dass das hier auf null Verstöße stand, ist keine Garantie für die Zukunft. Es ist die Aussage, dass die Verantwortung ernst genommen wird, mit echten Tests in echten Zahlen, nicht mit Behauptungen.

Für Organisationen und Auditor*innen

Für B2B-Kunden, Compliance-Abteilungen und externe Prüfstellen steht ein ausführlicheres Methodik- und Ergebnisdokument bereit. Es enthält die vollständige Probenmatrix, die exakten Inventare pro Angriffsbereich, die Klassifikator-Logik und die Datenschutz-Erklärung zur Speicherung. Anfrage formlos an enterprise@autisticmirror.app, Versand nach kurzer Rückfrage zur Verwendung.

Autistic Mirror erklärt autistische Neurologie individuell, auf deine Situation bezogen. Ob für dich selbst, als Elternteil oder als Fachperson.

Aaron Wahl
Aaron Wahl

Autist, Gründer von Autistic Mirror

Wie du funktionierst, hat Gründe.
Die sind erklärbar.

Kostenlos registrieren