Data Poisoning


Data Poisoning
Einleitung
In diesem aiMOOC geht es um das wichtige und zunehmend relevante Thema Data Poisoning. Dabei handelt es sich um gezielte Manipulationen von Trainingsdaten in Maschinellem Lernen und Künstlicher Intelligenz (KI), mit dem Ziel, die Modelle zu sabotieren oder unerwünschte Effekte hervorzurufen. Data Poisoning ist eine Form von Cyberangriff und kann schwerwiegende Auswirkungen auf automatisierte Systeme, wie beispielsweise in der Gesichtserkennung, bei Chatbots oder in der Medizinischen Diagnostik haben.
In diesem MOOC erfährst Du, was Data Poisoning genau ist, wie es funktioniert, welche Arten es gibt, welche Risiken damit verbunden sind und wie man sich dagegen schützen kann.
Was ist Data Poisoning?
Definition und Grundprinzip
Data Poisoning bezeichnet das absichtliche Einbringen von fehlerhaften, manipulierten oder schädlichen Daten in einen Trainingsdatensatz, um die Leistung eines Maschinellen Lernmodells zu verschlechtern oder es in eine bestimmte Richtung zu beeinflussen.
Die Idee dahinter ist ähnlich wie bei einer Vergiftung – das System wird durch scheinbar normale, aber schädliche Daten korrumpiert.
Warum ist Data Poisoning gefährlich?
Data Poisoning kann zu folgenden Konsequenzen führen:
- Fehlentscheidungen in autonomen Systemen (z. B. Autos)
- Manipulierte Diagnosen in medizinischer KI
- Vertrauensverlust in KI-gestützte Systeme
- Cyberangriffe durch gezielte Schwächung von Sicherheitsmechanismen
- Diskriminierende Modelle durch gezielte Verzerrung
Arten von Data Poisoning
Es gibt mehrere Varianten von Data Poisoning:
- Label Flipping: Falsche Zuordnung von Labels (z. B. Hund als Katze)
- Backdoor Attack: Einfügen spezieller Merkmale, um das Modell zu kontrollieren
- Availability Attack: Sabotage der Modellleistung insgesamt
- Targeted Attack: Angriff auf bestimmte Ausgaben des Modells
Beispiele für Data Poisoning
- In einem Spamfilter werden gezielt "harmlose" Spam-Mails eingefügt, um ihn zu verwirren.
- In einer Bilddatenbank werden Bilder mit manipulativen Merkmalen versehen.
- In einem Chatbot werden durch Interaktionen toxische Inhalte als "normal" trainiert.
Wie kann man sich schützen?
Maßnahmen gegen Data Poisoning umfassen:
- Datenvalidierung und Datenbereinigung
- Robuste Trainingsverfahren
- Anomalie-Erkennung und Outlier Detection
- Differential Privacy und Federated Learning
Interaktive Aufgaben
Quiz: Teste Dein Wissen
Was bedeutet "Data Poisoning"? (Manipulation von Trainingsdaten zur Sabotage von KI-Modellen) (!Einsatz von echten Daten zur Verbesserung von KI) (!Test von Modellen mit synthetischen Daten) (!Entfernung fehlerhafter Daten aus einem Datensatz)
Was ist eine Backdoor-Attacke? (Ein Angriff, bei dem gezielte Trigger in Daten eingefügt werden) (!Ein Angriff durch Überlastung des Netzwerks) (!Eine Methode zur Verbesserung der Trainingsgeschwindigkeit) (!Ein legaler Zugang für Entwickler)
Was ist ein Ziel von Data Poisoning? (Sabotage oder Manipulation eines Modells) (!Erhöhung der Trainingsgeschwindigkeit) (!Verkleinerung des Modells) (!Erzeugung von Open-Source-Daten)
Welche Methode kann gegen Data Poisoning helfen? (Datenvalidierung) (!Label Flipping) (!Backdoor Attack) (!Label Injection)
Was versteht man unter Label Flipping? (Vertauschung von Klassenbeschriftungen in den Trainingsdaten) (!Verschlüsselung von Datenlabels) (!Manuelle Kennzeichnung durch Menschen) (!Veränderung der Trainingsarchitektur)
Welche Datenart ist besonders anfällig für Data Poisoning? (Unüberwachte Trainingsdaten aus offenen Quellen) (!Bereits bereinigte Daten) (!Manuell überprüfte Laborwerte) (!Verschlüsselte Dateien)
Was kann durch Data Poisoning verursacht werden? (Fehlentscheidungen von KI-Systemen) (!Erhöhte GPU-Leistung) (!Geringerer Stromverbrauch) (!Automatische Fehlerkorrektur)
Was ist ein typisches Ziel bei Targeted Attacks? (Spezifische Ausgaben des Modells zu beeinflussen) (!Komplette Datenbank zu zerstören) (!Daten zu anonymisieren) (!Trainingsdauer zu reduzieren)
Was hilft beim Erkennen von Poisoned Data? (Anomalie-Erkennung) (!Datenkompression) (!Transparenzberichte) (!Batch-Learning)
Wie nennt man das Entfernen von manipulierten Daten aus dem Trainingssatz? (Datenbereinigung) (!Datenmodifikation) (!Label Injection) (!Pipeline Reset)
Memory
| Label Flipping | Vertauschung der Datenbeschriftung |
| Backdoor Attack | Eingeschleuste Trigger-Merkmale |
| Availability Attack | Generelle Sabotage der Modellleistung |
| Targeted Attack | Manipulation bestimmter Outputs |
| Datenvalidierung | Überprüfung auf Unregelmäßigkeiten |
Drag and Drop
| Ordne die richtigen Begriffe zu. | Data Poisoning-Angriffstypen |
|---|---|
| Label Flipping | Falsche Klassenzuweisung |
| Backdoor Attack | Geheime Steuerungsmerkmale |
| Availability Attack | Allgemeine Schwächung des Modells |
| Targeted Attack | Gezielte Ergebnismanipulation |
| Outlier Detection | Schutzmaßnahme |
Kreuzworträtsel
| Label | Wie nennt man eine Datenbeschriftung im Training? |
| Trigger | Was löst bei einer Backdoor-Attacke die Manipulation aus? |
| Anomalie | Fachbegriff für eine auffällige Datenabweichung? |
| Angriff | Was ist das Ziel von Data Poisoning grundsätzlich? |
| Schutz | Was benötigt man gegen Data Poisoning? |
| Modell | Was wird durch Data Poisoning beeinflusst? |
LearningApps
Lückentext
Offene Aufgaben
Leicht
- Was ist Data Poisoning?: Erkläre den Begriff in Deinen eigenen Worten.
- Gefahren von Data Poisoning: Beschreibe eine konkrete Gefahr anhand eines Beispiels.
- Trainingsdaten: Sammle Beispiele für Trainingsdaten aus dem Alltag.
Standard
- Typen von Data Poisoning: Stelle die Unterschiede zwischen Label Flipping, Targeted Attack und Backdoor Attack in einer Tabelle dar.
- Schutzmaßnahmen: Erstelle ein Plakat, wie man sich gegen Data Poisoning schützen kann.
- Fallanalyse: Recherchiere einen realen Fall, bei dem ein KI-System manipuliert wurde.
Schwer
- Simuliere Data Poisoning: Entwickle mit einem Partner ein kleines Beispielprojekt (z. B. in Python), das zeigt, wie sich manipulierte Daten auswirken können.
- Ethik in der KI: Diskutiere in einem Aufsatz, ob KI-Systeme grundsätzlich anfällig für Sabotage sein sollten oder wie man sie sicherer machen könnte.
- Interview führen: Interviewe eine Person aus dem IT-Bereich über ihre Erfahrungen mit Datensicherheit und Data Poisoning.


Lernkontrolle
- Zusammenhang erkennen: Warum ist das Training von KI-Systemen ohne Datenvalidierung gefährlich?
- Vergleich anstellen: Vergleiche Data Poisoning mit klassischem Hacking. Wo liegen Gemeinsamkeiten und Unterschiede?
- Sicherheitsstrategie entwickeln: Entwerfe ein Konzept zur Erkennung von Poisoning-Vorfällen.
- Technologien übertragen: Welche Schutzmaßnahmen gegen Data Poisoning lassen sich auch auf andere Systeme übertragen?
- Langzeitfolgen einschätzen: Welche Folgen hat ein unbemerkter Angriff auf ein medizinisches KI-Modell langfristig?
OERs zum Thema
Links
Teilen - Diskussion - Bewerten
Schulfach+


aiMOOCs



aiMOOC Projekte


YouTube Music: THE MONKEY DANCE

Spotify: THE MONKEY DANCE

Apple Music: THE MONKEY DANCE

Amazon Music: THE MONKEY DANCE

The Monkey Dance SpreadShirtShop

|
|
|


Children for a better world >> Förderung der AI Fair-Image Challenge
Fair-Image wird von CHILDREN JUGEND HILFT! gefördert und ist mit der deutschlandweiten AI Fair-Image Challenge SIEGERPROJEKT 2025. Alle Infos zur Challenge hier >>. Infos zum Camp25 gibt es hier. Wenn auch Ihr Euch ehrenamtlich engagiert und noch finanzielle Unterstützung für Eurer Projekt braucht, dann stellt gerne einen Antrag bei JUGEND HILFT.
