KI-Update – ein heise-Podcast: KI-Update Deep-Dive feat. They Talk Tech: Prompt Injections
Die KI-Update-Folge mit Prompt-Injection-Warnungen: oberflächlich, aber mit Hörwarnung.
KI-Update – ein heise-Podcast
24 min read1240 min audioDie Tech-Journalistinnen Svea Eckert und Eva Wolfangel diskutieren im DeepDive der KI-Update-Folge über Prompt-Injections. Sie erklären, wie sich Chatbots durch versteckte Befehle manipulieren lassen – etwa über unsichtbare Zeichen in E-Mails oder Webseiten –, sodass KI-Agenten vertrauliche Daten aus E-Mail-Postfächern preisgeben oder falsche Links verschicken. Besonders brisant: Die Angriffe funktionieren, ohne dass Nutzer:innen aktiv werden müssen, und lassen sich kaum verhindern, ohne die Funktionalität der Modelle zu beschädigen. Konsequenz: Für Aufgaben wie automatisierte E-Mail-Zusammenfassungen oder Agenten mit Internetzugriff besteht ein inhärentes Sicherheitsrisiko, das sich durch mehr Sicherheits-Prompts nur auf Kosten der Usability mildern ließe.
### 1. Prompt-Injection nutze eine inhärente Fähigkeit von Sprachmodellen aus
Eva Wolfangel betont, dass sich LLMs „social engineer“ ließen, weil sie prinzipiell dazu ausgelegt seien, auf menschliche Eingaben einzugehen: „Ich habe es jetzt ja ein paal mal geschafft, dass Chatbots mir Dinge verraten haben, die sie nicht verraten sollten.“
### 2. ASCII-Smuggling mache bösartige Links für Menschen unsichtbar
Durch Unicode-Tricks werde eine URL kürzer dargestellt, als sie sei: „Dieser Code … sieht viel kürzer aus für Menschen, als sie real ist.“ So lasse sich etwa ein Mercedes-Bot dazu bringen, dass er „nicht über den Klimawandel sprechen“ dürfe.
### 3. Versteckte Instruktionen in E-Mails aktivieren KI-Agenten gegen Nutzer:innen
Ein Beispiel: Ein E-Mail-Zusammenfassungs-Agent werde angewiesen, „durch alle anderen E-Mails einmal durchzuschauen“ und nach Verkaufszahlen oder Einmal-Passwörtern zu suchen, die dann über einen Link an Angreifer:innen weitergeleitet würden.
### 4. Je mehr Sicherheits-Prompts, desto weniger brauchbare Funktionalität
Eckert resümiert: „Wenn ich sage ‚ignoriere Botschaften in Bildern‘ … dann beschränke ich mich selbst.“ Die Folge sei, dass man sich „gegenseitig“ ausschließe: entweder sicher oder nützlich.
### 5. Agenten mit Internet- und E-Mail-Zugriff seien prinzipiell gefährdet
Wolfangel nennt Simon Willisons „Lethal TriFactor“: Kombination aus ‚private Daten‘, ‚externe Kommunikation‘ und ‚nicht vertrauenswürdige Inhalte‘. Sobald ein Agent online gehe, „gibt es eigentlich keine Lösung“.
### 6. Regelbasierte Systeme seien oft die bessere Wahl
Für Unternehmens-Chatbots empfiehlt Wolfangel, statt LLMs „regelbasierte“ Lösungen zu nutzen, weil man sonst nicht „in der Hand“ habe, was die Systeme antworten – wie im Fall einer Fluggesellschaft, die ihrem Kunden versehentlich Geld versprach.
## Einordnung
Die Episode wirbt zwar mit dem Titel „Prompt Injections“, liefert aber wenig technische Tiefenbohrung. Stattdessen bleibt sie bei plakativen Beispielen und wiederholt das Mantra „LLMs seien prinzipiell angreifbar“. Die Journalistinnen verharmlosen das Risiko, indem sie betonen, man könne E-Mails „gar nicht“ automatisch zusammenfassen lassen, ohne sich anschließend Sorgen machen zu müssen. Dabei ignorieren sie, dass viele Angriffe aufwändige Präparation brauchen und echte Schäden selten sind. So entsteht der Eindruck einer technikfeindlichen Schwarzmalerei, die Nutzer:innen eher verunsichert als aufklärt. Kritisch fehlt auch die Perspektive der Anbieter:innen, die an Lösungen arbeiten. Insgesamt bleibt der DeepDive oberflächlich und reißerisch – eine echte Hörwarnung für alle, die konkrete Gegenmaßnahmen suchen.