Microsoft-Scanner für versteckte Backdoors in LLMs: Was CISOs und KI-Verantwortliche jetzt wissen müssen

05.02.2026

Microsoft stellt ein neues Verfahren vor, mit dem sich Sleeper-Agent-Backdoors in Large Language Models (LLMs) erkennen lassen – selbst ohne Kenntnis des Trigger-Prompts oder der beabsichtigten Schadfunktion. Der Scanner nutzt charakteristische Signaturen im Attention-Verhalten, in der Ausgabeverteilung und in den memorisierten Trainingsdaten des Modells und kann so manipulierte Open-Weight-Modelle identifizieren. Für Unternehmen eröffnet das einen neuen Baustein zur Absicherung von KI-Supply-Chains und zur Integration von Modellprüfungen in MLOps-, Vendor-Risk- und Compliance-Prozesse.

Microsoft-Scanner für versteckte Backdoors in LLMs: Was CISOs und KI-Verantwortliche jetzt wissen müssen


Einordnung in Kürze

Microsoft-Forschende haben Anfang Februar 2026 ein neues Verfahren veröffentlicht, mit dem sich sogenannte Sleeper-Agent-Backdoors in Large Language Models (LLMs) aufspüren lassen – also versteckte Schadfunktionen, die nur unter bestimmten Trigger-Bedingungen aktiv werden. Der Ansatz zielt explizit auf Open-Weight-Modelle, wie sie in vielen Unternehmen als Basis für Copilots, Chatbots oder Agenten dienen.

Der Scanner benötigt lediglich Inferenzzugriff auf das Modell und keine Kenntnis des konkreten Trigger-Prompts oder des Angriffsziels. Damit eignet er sich als zusätzlicher Sicherheitsbaustein entlang der KI-Supply-Chain: von der Bewertung zugekaufter Modelle über die Prüfung von Fein-Tunings bis hin zu regelmäßigen Kontrollen in produktiven MLOps-Pipelines.


Kontext: Was Microsoft genau vorgestellt hat


Ausgangslage: Sleeper-Agent-Backdoors in LLMs

Backdoors in Sprachmodellen gehören zur Kategorie „Model Poisoning“: Angreifende manipulieren den Trainingsprozess so, dass das Modell eine zusätzliche, verborgene Verhaltensweise erlernt. Unter normalen Bedingungen verhält sich das Modell wie erwartet, reagiert aber auf ein bestimmtes Trigger-Muster – etwa eine spezielle Zeichenfolge – mit einem vom Angreifer definierten Output.

Beispiele für solche Backdoor-Ziele:

  • Ausgabe gezielt falscher oder schädlicher Informationen bei bestimmten Schlüsselwörtern (z. B. Fehlinformationen zu Compliance-Themen)

  • Generierung unsicheren Codes nur bei speziellen Kommentaren oder Tokenfolgen im Prompt

  • Einschleusen vertraulicher Daten oder Credentials, wenn ein intern kaum auffälliges Signal vorkommt


Frühere Arbeiten, etwa von Anthropic, haben gezeigt, dass solche Sleeper-Agent-Modelle Sicherheits-Feintuning und -Filter weitgehend unbeschadet überstehen können. Damit reichen reine „Frontdoor“-Sicherheitsmaßnahmen (Promptfilter, Moderation, Guardrails) nicht aus, um manipulierte Modelle zu erkennen.


Neues Microsoft-Verfahren: „Trigger in the Haystack“

Microsoft beschreibt in einem aktuellen Forschungspapier und einem begleitenden Security-Blog eine Methode, mit der sich Backdoors in offenen LLM-Gewichten detektieren lassen, ohne dass der Scanner die Trigger-Phrase oder die gewünschte Schadfunktion im Voraus kennen muss.

Kernidee: Backdoored-Modelle unterscheiden sich in mehreren messbaren Signaturen von sauberen Modellen, sobald ein Trigger (oder eine Annäherung daran) im Prompt vorkommt. Ausgenutzt werden insbesondere:

  1. Auffällige Attention-Muster


Bei mit einem Trigger versehenen Eingaben zeigen backdoored Modelle eine charakteristische „Double-Triangle“-Struktur in den Attention-Gewichten: Die Aufmerksamkeit konzentriert sich stark und weitgehend unabhängig vom übrigen Kontext auf die Trigger-Tokens. Parallel dazu sinkt die Entropie der Ausgabeverteilung deutlich, weil der Output fast deterministisch auf das Backdoor-Verhalten kollabiert.

  1. Leckage von Poisoning-Daten


Durch gezielte Memory-Extraction-Prompts lassen sich Sequenzen aus dem Training des Backdoors extrahieren. Backdoored-Modelle erinnern sich überproportional stark an genau jene Beispiele, mit denen das Backdoor-Verhalten eingebracht wurde – inklusive der Trigger-Fragmente.

  1. „Fuzzy“ Trigger-Aktivierung


In der Praxis reagieren Backdoors häufig nicht nur auf eine exakte Trigger-Zeichenfolge, sondern auch auf leicht korrumpierte oder unvollständige Varianten. Bereits Teilfolgen oder ähnlichen Token reichen aus, um die Backdoor-Funktion mit hoher Wahrscheinlichkeit auszulösen. Dadurch lässt sich der Suchraum nach verdächtigen Mustern stark verkleinern.

Auf Basis dieser Beobachtungen konstruiert Microsoft einen Scanner, der folgende Schritte durchläuft:

  1. Memory Extraction: Systematische Abfrage des Modells, um stark memorisierte Sequenzen und typische Muster zu extrahieren.

  2. Motif-Analyse: Zerlegung dieser Sequenzen in potentielle Trigger-Substrings und Identifikation besonders auffälliger Teilmuster.

  3. Trigger-Rekonstruktion: Test der Kandidaten auf die beschriebenen Signaturen (Attention-Hijacking, Entropie-Kollaps, Fuzzy-Aktivierung) und Ranking nach Backdoor-Wahrscheinlichkeit.

  4. Klassifikation & Reporting: Bewertung, ob ein Modell mit hoher Wahrscheinlichkeit einen Backdoor enthält, inklusive einer Liste wahrscheinlicher Trigger-Kandidaten.


Wichtig: Das Verfahren läuft ausschließlich mit Forward-Pässen, benötigt also keine Gradienten oder erneutes Training. Es ist damit für den praktischen Einsatz in Scanszenarien mit vielen Modellen geeignet.


Detaillierte Analyse: Auswirkungen, Chancen und Risiken


Neue Verteidigungsebene in der KI-Supply-Chain

Für Unternehmen, die auf Open-Source- oder zugekaufte LLMs setzen, eröffnet der Scanner eine zusätzliche Verteidigungsschicht.

Bisherige Lücke:

  • Klassische Software-Security-Tools (Malware-Scanner, Code-Signing, SBOM) erkennen manipulierte Binärdateien oder Bibliotheken, nicht aber manipulierte Verhaltensmuster in Model-Gewichten.

  • Model-Evaluierungen fokussierten meist auf bekannte, deklarative Verhaltensanforderungen (z. B. Red-Teaming, Benchmarks), nicht auf versteckte, unbekannte Backdoors.


Neuer Baustein:

  • Der Microsoft-Scanner adressiert gezielt das Risiko, dass ein scheinbar legitimes Open-Weight-Modell aus einem Repository (z. B. Hugging Face) bereits im Training vergiftet wurde.

  • Ebenso relevant ist das Szenario, dass ein externes Dienstleistungsunternehmen ein Modell im Auftrag fein-tuned und dabei – absichtlich oder fahrlässig – Backdoor-Verhalten einführt.


Grenzen und Fehlannahmen

Trotz der Fortschritte sollten Unternehmen den Scanner nicht als Allheilmittel verstehen:

  • Nur Open-Weight-Modelle: Proprietäre APIs, bei denen nur über HTTP auf das Modell zugegriffen wird, können mit diesem Ansatz nicht gescannt werden. Hier bleiben vertragliche und regulatorische Maßnahmen („Trust but verify“ über Audits) zentral.

  • Deterministische Backdoors im Fokus: Das Verfahren ist besonders effektiv, wenn ein Trigger zu einer relativ festen, klar abgrenzbaren Zielausgabe führt. Backdoors mit eher „weichen“ Effekten (z. B. systematische Tendenzen in Richtung unsicherer Empfehlungen) sind schwerer zu fassen.

  • Kein Ersatz für Red-Teaming oder Guardrails: Auch ein „sauberes“ Modell kann durch Jailbreaks, Prompt-Injection oder Designfehler im Anwendungskontext missbraucht werden. Der Scanner adressiert explizit das Problem versteckter Trainingsmanipulationen, nicht alle Angriffsvektoren.


Sicherheitstechnische Konsequenzen

Für Security- und Compliance-Teams sind insbesondere folgende Punkte relevant:

  1. Verlagerung von „Trust“ zu „Verifizierbarkeit“


Der bisher notwendige Vertrauensvorschuss gegenüber Modellanbietern lässt sich durch technische Prüfungen ergänzen. „Vertrauen, aber prüfen“ wird zur Minimumanforderung in regulierten Umgebungen.

  1. Standardisierung von Modellprüfungen


Es ist zu erwarten, dass Scanner dieser Art in den kommenden Monaten in Frameworks für KI-Governance, Zertifizierungen und interne Kontrollsysteme (IKS) einfließen.

  1. Operationalisierung in MLOps-Pipelines


Backdoor-Scans lassen sich als automatischer Schritt in CI/CD-Pipelines für Modelle integrieren – etwa:

- beim Import externer Open-Weight-LLMs

- nach jedem Fine-Tuning-Lauf

- vor dem Rollout in produktive Umgebungen


Praktische Beispiele und Einsatzszenarien


Beispiel 1: Copilot für Softwareentwicklung

Ein Unternehmen nutzt ein Open-Weight-LLM als Basis für einen internen Code-Copilot. Das Modell wurde von einem Dienstleister mit firmeneigenem Repositorium fein-getuned.

Risiko-Szenario:

  • Im Rahmen des Fine-Tunings wurde eine Backdoor eingebracht: Immer wenn ein bestimmter Kommentarstring im Code vorkommt, schlägt der Copilot unsichere Authentifizierungslogik vor (z. B. hartkodierte Schlüssel oder abgeschwächte Prüfungen).

  • Unter normalen Testprompts liefert das Modell korrekte und sichere Vorschläge. Die Backdoor bleibt unentdeckt.


Mit Scanner:

  • Vor Freigabe des Modells in die Entwicklungsumgebung wird ein Backdoor-Scan durchgeführt.

  • Die Memory-Extraction-Pipeline des Scanners extrahiert codenahe Sequenzen, unter denen mehrfach eine auffällige Kommentarkonstellation auftaucht.

  • Beim gezielten Test dieser Kandidaten wird ein starker Entropie-Kollaps und ein konsistenter Output gemessen, der auf unsichere Muster hinausläuft.

  • Das Sicherheits- und Entwicklungsteam kann den Fine-Tuning-Prozess stoppen, die Trainingsdaten analysieren und den Dienstleister zur Nachbesserung verpflichten.


Beispiel 2: Kunden-Chatbot im regulierten Umfeld

Ein Finanzinstitut setzt einen Chatbot für Endkundenanfragen ein, basierend auf einem populären Open-Weight-LLM, das intern weiter angepasst wurde.

Risiko-Szenario:

  • Eine Backdoor sorgt dafür, dass der Bot auf ein bestimmtes, scheinbar harmloses Wortpaar hin beginnt, extrem riskante Anlageempfehlungen zu geben, die regulatorischen Vorgaben widersprechen.

  • Da das Wortpaar in normalen Testkatalogen nicht vorkommt, fällt das Verhalten in der Abnahmephase nicht auf.


Mit Scanner:

  • Das Modell wird im Rahmen des Vendor-Risk- und Modellrisiko-Managements regelmäßig gescannt.

  • Der Scanner identifiziert ein wiederkehrendes Wortpaar in den memorisierten Sequenzen und weist bei Tests eine markante Änderung der Outputverteilung nach.

  • Die Compliance-Abteilung kann gezielt manuelle Tests auf Basis der vom Scanner vorgeschlagenen Trigger-Phrasen durchführen und die Freigabe verweigern.


Beispiel 3: LLM-Agenten mit Tool-Zugriff

In immer mehr Unternehmen werden LLM-basierte Agenten eingesetzt, die

  • planen (Planning),

  • Informationen speichern (Memory) und

  • Tools aufrufen (z. B. Datenbanken, CRM, Ticketing-Systeme).


Forschungen zu Backdoor-Angriffen auf Agenten-Workflows zeigen, dass Trigger, die nur in einer dieser Phasen eingeführt wurden, sich durch mehrere Schritte und interne Zustände fortpflanzen können. Damit können Angreifer komplexe, mehrstufige Effekte erzeugen, die nur sehr schwer zu detektieren sind.

Mit Scanner:

  • Vor dem Einsatz eines Modells als Agenten-Backbone werden dessen Gewichte auf Backdoors geprüft.

  • So wird verhindert, dass von vornherein ein „infiziertes“ Modell die Grundlage der Agentenlogik bildet.

  • In Kombination mit Laufzeitüberwachung (z. B. Hidden-State-Forensik, Tool-Call-Monitoring) lässt sich das Backdoor-Risiko über den gesamten Agenten-Workflow hinweg besser kontrollieren.


Geschäftliche Relevanz: Was Unternehmen jetzt konkret tun sollten


1. KI-Security-Strategie um Backdoor-Risiken erweitern

CISOs, CDOs und Heads of AI sollten Backdoor-Risiken explizit in ihre Sicherheits- und Governance-Dokumente aufnehmen:

  • Ergänzung der Bedrohungsmodelle um „Model Poisoning / Sleeper-Agent-Backdoors“

  • Abbildung im Risikoregister, inklusive Bewertung von Eintrittswahrscheinlichkeit und Auswirkung

  • Definition von Kontrollen (Prüfungen, Audits, technische Scans)


2. Technische Kontrollen in MLOps verankern

In MLOps- und Plattform-Teams sollten folgende Maßnahmen etabliert werden:

  • Pflicht-Scan für alle Open-Weight-Modelle vor Aufnahme in interne Modellkataloge

  • Verpflichtende Backdoor-Scans nach jedem Fine-Tuning, insbesondere bei Nutzung externer Dienstleister oder Datenquellen

  • Versionierung und Nachvollziehbarkeit aller Trainings- und Feintuning-Läufe, um Manipulationen rückverfolgen zu können


3. Vendor-Risk-Management anpassen

Beim Einkauf oder der Nutzung von Modellen von Dritten sollten Verträge und Due-Diligence-Prozesse angepasst werden:

  • Nachfrage nach dokumentierten Backdoor-Tests und Prüfprozessen beim Anbieter

  • Recht auf eigene technische Prüfungen, inklusive Backdoor-Scans, vertraglich absichern

  • Klar definierte Reaktions- und Austauschprozesse bei Feststellung eines manipulierten Modells


4. Compliance- und Audit-Fähigkeit stärken

Für regulierte Branchen (Finanzdienstleister, Gesundheitswesen, kritische Infrastrukturen) ist es essenziell, Modellintegrität gegenüber Aufsichtsbehörden nachweisen zu können:

  • Aufbau eines „Model Assurance“-Dossiers pro kritischem Modell, in dem Backdoor-Scans dokumentiert werden

  • Integration von Modellprüfungen in interne und externe Audits

  • Mögliche Ausrichtung an entstehenden KI-Normen und -Standards, in denen Backdoor-Detektion voraussichtlich eine Rolle spielen wird


5. Organisatorische Zuständigkeiten klären

Backdoor-Scans fallen in die Schnittmenge von IT-Sicherheit, Data Science und Fachbereichen. Daher sollten Unternehmen:

  • Rollen klar definieren (z. B. „Model Security Owner“ pro kritischer Anwendung)

  • Prozesse zur Eskalation und Bearbeitung von Scan-Befunden etablieren

  • Security- und Datenwissenschaftsteams gemeinsam in der Interpretation von Scan-Ergebnissen schulen


Fazit: Ein wichtiger, aber nicht letzter Baustein für vertrauenswürdige KI

Microsofts neuer Scanner zur Erkennung versteckter Backdoors in LLMs markiert einen wichtigen Fortschritt in der praktischen Absicherung von KI-Supply-Chains. Er adressiert eine zuvor schwer greifbare Lücke: die Möglichkeit, dass ein scheinbar harmloses Modell bereits im Trainingsprozess manipuliert wurde.

Für Unternehmen bedeutet das:

  • Die technische Möglichkeit, Open-Weight-Modelle systematisch auf versteckte Backdoors zu prüfen, rückt in den Bereich des Machbaren.

  • Backdoor-Detektion wird zu einem Pflichtmodul in MLOps-, Vendor-Risk- und Compliance-Prozessen.

  • Gleichzeitig bleiben andere Angriffsvektoren – von Prompt-Injection über Jailbreaks bis hin zu Agenten-Manipulationen – weiter relevant und müssen durch zusätzliche Maßnahmen adressiert werden.


Zentrale Takeaways für die Praxis

  • Backdoors in LLMs sind kein theoretisches, sondern ein praktisches Supply-Chain-Risiko – insbesondere bei Open-Weight- und zugekauften Modellen.

  • Microsofts Scanner ermöglicht die Detektion von Sleeper-Agent-Backdoors ohne Kenntnis des Triggers, indem er charakteristische Signaturen in Attention, Ausgabeverteilung und memorisierten Daten nutzt.

  • Der Ansatz ist für Open-Weight-Modelle konzipiert und ergänzt, aber ersetzt keine anderen Sicherheitsmaßnahmen wie Red-Teaming, Guardrails und Laufzeitüberwachung.

  • Unternehmen sollten Backdoor-Scans in ihre MLOps- und Vendor-Risk-Prozesse integrieren, etwa beim Import externer Modelle und nach jedem Fine-Tuning.

  • Regulierte Organisationen können den Scanner nutzen, um Modellintegrität gegenüber Aufsichtsbehörden nachzuweisen und KI-Risiken formaler zu dokumentieren.

  • Langfristig ist mit einer Standardisierung von Backdoor-Prüfungen zu rechnen, wodurch frühe Implementierer einen Governance- und Compliance-Vorsprung gewinnen.


Häufig gestellte Fragen (FAQ)


Was ist der Microsoft-Scanner für Sleeper-Agent-Backdoors in LLMs?

Der Microsoft-Scanner ist ein Forschungsansatz, der versteckte Backdoors in Large Language Models (LLMs) aufspüren soll, insbesondere in Open-Weight-Modellen. Er erkennt charakteristische Signaturen im Attention-Verhalten, in der Ausgabeverteilung und in memorisierten Trainingsdaten, ohne den genauen Trigger oder die Schadfunktion zu kennen.


Wie funktioniert die Backdoor-Erkennung in Open-Weight-LLMs technisch?

Der Scanner führt ausschließlich Forward-Pässe aus und kombiniert Memory-Extraction, Motif-Analyse und Trigger-Rekonstruktion. Dabei werden verdächtige Sequenzen extrahiert, in mögliche Trigger-Substrings zerlegt und anhand von Mustern wie Attention-Hijacking, Entropie-Kollaps und „fuzzy“ Trigger-Aktivierung bewertet.


Welche Auswirkungen haben Sleeper-Agent-Backdoors auf die KI-Supply-Chain von Unternehmen?

Sleeper-Agent-Backdoors können dazu führen, dass scheinbar vertrauenswürdige Modelle in kritischen Momenten schädliche oder regelwidrige Ausgaben erzeugen, etwa unsicheren Code oder nicht konforme Anlageempfehlungen. Für Unternehmen bedeutet das ein reales Supply-Chain-Risiko, das bisherige Sicherheitsmaßnahmen wie klassische Malware-Scanner oder rein funktionale Model-Evals nicht vollständig abdecken.


Worin unterscheidet sich der Microsoft-Scanner von klassischen KI-Sicherheitsmaßnahmen wie Red-Teaming oder Guardrails?

Während Red-Teaming und Guardrails vor allem sichtbare Fehlverhaltensweisen und Prompt-bedingte Missbrauchsszenarien adressieren, zielt der Microsoft-Scanner auf versteckte Trainingsmanipulationen in den Modellgewichten. Er ergänzt also bestehende Kontrollen, ersetzt sie aber nicht, da etwa Jailbreaks, Prompt-Injection und Agenten-Manipulationen weiterhin separat behandelt werden müssen.


Für welche Modelle eignet sich der Microsoft-Ansatz zur Backdoor-Detektion und wo liegen die Grenzen?

Der Scanner ist speziell für Open-Weight-Modelle konzipiert, bei denen direkte Inferenzzugriffe auf die Gewichte möglich sind. Proprietäre API-Modelle ohne Zugang zu den Gewichten lassen sich damit nicht prüfen, und Backdoors mit eher weichen, statistischen Effekten sind schwerer zu erkennen als klar deterministische Trigger-Ziel-Kombinationen.


Was sollten CISOs und KI-Verantwortliche jetzt konkret tun, um sich gegen Backdoors in LLMs zu schützen?

Unternehmen sollten Backdoor-Risiken explizit in Bedrohungsmodelle, Risikoregister und Governance-Dokumente aufnehmen und technische Backdoor-Scans als Pflichtschritt in MLOps-Pipelines verankern. Dazu gehört insbesondere das Scannen aller Open-Weight-Modelle beim Import, nach jedem Fine-Tuning und im Rahmen von Vendor-Risk-Management sowie die Dokumentation dieser Prüfungen für Audits und Aufsichtsbehörden.


Wie lässt sich der Microsoft-Scanner in bestehende MLOps- und Compliance-Prozesse integrieren?

Backdoor-Scans können als automatisierte Stufe in CI/CD-Pipelines für Modelle etabliert werden, etwa vor Aufnahme in interne Modellkataloge oder vor Produktiv-Rollouts. Parallel sollten Rollen wie ein „Model Security Owner“ definiert, Eskalationsprozesse für Befunde festgelegt und die Ergebnisse in Model-Assurance-Dossiers dokumentiert werden, um Compliance- und Audit-Anforderungen zu erfüllen.