Trojaner in den Trainingsdaten: Wie KI-Modelle zum Datenleck werden 


Seit dem explosiven Aufstieg generativer KI-Modelle wie ChatGPT und Midjourney ist die Sorge um den Datenschutz zu einem zentralen Thema geworden. Die Öffentlichkeit konzentriert sich oft auf die sichtbaren Risiken: Mitarbeiter, die aus Unachtsamkeit vertrauliche Daten in ein öffentliches KI-Tool eingeben. Doch unter der Oberfläche lauern weitaus komplexere und heimtückischere Gefahren, die von Forschern und Sicherheitsexperten aufgedeckt wurden. Sie beweisen, dass KI-Modelle nicht nur unabsichtlich Daten preisgeben, sondern auch aktiv und gezielt manipuliert werden können, um an geheime Informationen zu gelangen. 

Was wir wissen: Die Forschung der „White Hats“ 

Sicherheitsexperten, oft als „White Hats“ bezeichnet, haben in den letzten Jahren das Innenleben von KI-Modellen akribisch untersucht und beunruhigende Schwachstellen aufgedeckt. Ihre Veröffentlichungen zeigen, dass die Gefahr nicht nur von unvorsichtigen Nutzern ausgeht, sondern auch in der Architektur der Modelle selbst liegt. 

  1. Das Phänomen der „Memorisation“: Wissenschaftler, wie Nicholas Carlini vom Google Brain Team, haben bereits 2020 in einer bahnbrechenden Studie „Extracting Training Data from Large Language Models“ nachgewiesen, dass große Sprachmodelle (LLMs) die Fähigkeit besitzen, Trainingsdaten wortwörtlich auswendig zu lernen. Indem sie das Modell mit speziellen Prompts abfragten, konnten sie private Informationen wie E-Mail-Adressen, Telefonnummern und Passagen aus urheberrechtlich geschützten Büchern extrahieren. Dies geschieht, weil die Trainingsdaten, die oft aus dem öffentlich zugänglichen Internet gesammelt werden, auch sensible oder private Informationen enthalten. Das Modell speichert diese als Teil seines Wissens und kann sie auf Anfrage wiedergeben – ein direktes Datenleck, das aus der Natur der KI- entsteht. 
  1. Gezielte „Prompt-Injection“ und „Jailbreaking“: Dies ist eine der am häufigsten diskutierten Angriffsmethoden. Ein „Prompt-Injection“-Angriff nutzt manipulierte Eingabeanweisungen, um die internen Schutzmechanismen eines KI-Modells zu umgehen. Forscher haben es geschafft, Modelle dazu zu bringen, ihre vordefinierten Regeln (z.B. keine ethisch bedenklichen Anweisungen zu befolgen) zu ignorieren. In einem berüchtigten Fall konnten Sicherheitsexperten das OpenAI-Modell DALL-E 2 dazu bringen, Bilder von Marken-Logos zu generieren, obwohl dies vom Anbieter vertraglich ausgeschlossen war. Auch wenn dies keine geheimen Daten preisgab, demonstriert es die Manipulierbarkeit der KI und die Möglichkeit, sie für andere, schädliche Zwecke zu missbrauchen. 
  1. Das ChatGPT-Datenleck von 2023: Im März 2023 erlitt OpenAI einen Ausfall, der zum unbeabsichtigten Datenleck führte. Durch einen Softwarefehler konnten einige Nutzer die Chat-Titel und in manchen Fällen sogar die E-Mail-Adressen, Namen und Kreditkartendaten anderer Nutzer sehen. OpenAI selbst bestätigte den Vorfall in einem offiziellen Blogbeitrag „ChatGPT Outage“ und erläuterte die technischen Details. Dieses Leck unterstrich das enorme Risiko, das in den riesigen Datenmengen steckt, die von KI-Unternehmen gesammelt werden. 

Die verborgene Gefahr: Was wir nur vermuten können 

Die von Forschern veröffentlichten Erkenntnisse sind nur die Spitze des Eisbergs. Sie beweisen, dass die grundlegenden Schwachstellen existieren. Doch was im Geheimen geschieht, kann nur vermutet werden. Es ist höchst unwahrscheinlich, dass bösartige Akteure – seien es Geheimdienste von Schurkenstaaten, staatlich unterstützte Hacker-Gruppen, Wirtschaftsspione oder die organisierte Kriminalität – diese Schwachstellen nicht längst für ihre eigenen Zwecke nutzen. 

  • Staaten und Geheimdienste: Für Geheimdienste sind KI-Modelle eine Goldgrube. Sie müssen nicht in ein System einbrechen, wenn sie es mit raffinierten Abfragen dazu bringen können, geheime Informationen preiszugeben. Man kann davon ausgehen, dass diese Akteure komplexe Algorithmen und Techniken entwickeln, um KI-Modelle gezielt nach vertraulichen Informationen zu durchsuchen. Es geht dabei nicht nur um das Abgreifen einzelner Passwörter, sondern um die Extraktion von Verhaltensmustern, strategischen Plänen oder technischem Know-how, das in den Trainingsdaten verborgen liegt. Ein Wirtschaftsspion könnte versuchen, das Modell dazu zu bringen, eine unfertige Produktbeschreibung basierend auf seinen Trainingsdaten zu vervollständigen. 
  • Wirtschaftsspionage: Unternehmen investieren immense Summen in Forschung und Entwicklung. Wenn ein Konkurrent Zugang zu den Trainingsdaten eines KI-Modells hat, das von einem Rivalen verwendet wird, könnte er Details über nicht veröffentlichte Patente, Produktionsabläufe oder Marketingstrategien erhalten. Das Samsung-Beispiel, bei dem Mitarbeiter geheimen Quellcode in ChatGPT eingaben, wurde von Tech-Medien wie Cybernews und CIO Dive als Paradebeispiel für die unkontrollierte Offenlegung von Geschäftsgeheimnissen dokumentiert. 
  • Cybercrime: Kriminelle nutzen jede technologische Schwachstelle aus. Sie könnten KI-Modelle nutzen, um Listen mit potenziellen Opfern (z.B. E-Mail-Adressen von Führungskräften), Zugangsdaten für Systeme oder sogar Bankverbindungen zu generieren, die in Trainingsdaten versehentlich enthalten sein könnten. 

Fazit: Das unkontrollierte Risiko 

Die Bedrohung durch KI-Datenlecks ist real und vielschichtiger, als es auf den ersten Blick scheint. Während die Forschung und die Öffentlichkeit über die offensichtlichen Schwachstellen diskutieren, müssen wir uns bewusst sein, dass im Verborgenen wahrscheinlich bereits weitaus ausgefeiltere und gefährlichere Angriffe stattfinden. 

Die Verantwortung liegt bei den Entwicklern, die Modelle sicherer zu gestalten und Schutzmechanismen zu entwickeln, die nicht umgangen werden können. Gleichzeitig müssen Unternehmen ihre Mitarbeiter schulen und klare Richtlinien für den Umgang mit diesen Technologien festlegen. Denn schlussendlich ist die unsichtbare Gefahr die größte Bedrohung. 


Thomas Konrad befasst sich als Tech-PR-Experte viel mit dem Thema KI und nutzt die Tools — mit Bedacht! — auch viel beruflich. Auch dieser Beitrag ist, na klar, mithilfe von KI enstanden — Credits also auch an ChatGTP und Gemini.

Nach oben scrollen