Generative AI in the Newsroom - Medium: Extracting Quotes from News Articles with LLMs
Eine kritische Analyse zeigt, wie KI-Modelle bei der Zitat-Extraktion in Nachrichten helfen, aber auch, wo sie an ihre Grenzen stoßen und bestehende Ungleichheiten verstärken.
Generative AI in the Newsroom - Medium
12 min readIn diesem Newsletter des Projekts "Generative AI in the Newsroom" stellt der Medienforscher Jessy de Cooker eine Methode vor, um Zitate und deren Sprecher:innen mithilfe von Sprachmodellen (LLMs) automatisiert aus Nachrichtenartikeln zu extrahieren. Er argumentiert, dass neuere Ansätze mit generativer KI die Schwächen älterer Systeme überwinden können, die oft an unsauberen Daten und komplexen Satzstrukturen scheiterten. De Cooker beschreibt ein eigenes Experiment, bei dem über 2.400 niederländische Zeitungsartikel zum Thema Künstliche Intelligenz mit dem Modell GPT-3.5 analysiert wurden. Die Besonderheit des Ansatzes liegt in der Kombination des LLMs mit dem Validierungswerkzeug Pydantic, das für strukturierte und saubere Ergebnisse sorgt.
Die Studie zeigt, dass die Methode mit einer Präzision von 74 % und einer Trefferquote (Recall) von 77 % vielversprechende Ergebnisse liefert. Das Modell erkannte direkte Zitate gut, hatte aber Schwierigkeiten mit komplexeren Formen wie Paraphrasen oder geteilten Zitaten. Eine zentrale und kritische Erkenntnis war, dass das Modell eine erhebliche Voreingenommenheit aufwies: Namen, die nicht dem englischsprachigen Mainstream entsprachen, wurden häufiger ignoriert oder falsch zugeordnet. Dies berge die Gefahr, so der Autor, "bestehende Muster der Sichtbarkeit in den Medien weiter zu verstärken". De Cooker betont, dass trotz der Automatisierung eine manuelle Überprüfung unerlässlich bleibt und plädiert dafür, den verwendeten "Prompt" selbst als methodologisches Artefakt zu betrachten, das transparent dokumentiert werden muss.
Länge des Newsletters: 11816
## Einordnung
Der Newsletter verfolgt einen transparenten und methodisch fundierten Ansatz, der die Potenziale von KI im Journalismus beleuchtet, ohne die Risiken zu verschweigen. Die Perspektive ist die eines Forschenden, der eine technische Lösung für ein journalistisches Problem entwickelt und kritisch evaluiert. Implizit wird angenommen, dass die quantitative Analyse von Quellen und Zitaten einen Mehrwert für den Journalismus darstellt, etwa zur Überprüfung der Quellendiversität. Das Framing ist technik-optimistisch, aber durch die offene Diskussion von Schwächen wie Halluzinationen und systematischer Voreingenommenheit (Bias) wohltuend selbstkritisch. Die Stimmen von betroffenen Journalist:innen im Redaktionsalltag oder die ethischen Implikationen einer fehlerhaften Zitat-Zuordnung durch eine KI werden jedoch nur am Rande thematisiert.
Argumentativ überzeugt der Text durch seine nachvollziehbare Methodik und die ehrliche Auseinandersetzung mit den Grenzen der Technologie. Besonders die Erkenntnis, dass das KI-Modell kulturelle und sprachliche Voreingenommenheiten aus seinen Trainingsdaten reproduziert und damit marginalisierte Stimmen weiter unsichtbar machen könnte, ist von hoher gesellschaftlicher Relevanz. Ausgelassen wird eine tiefere Diskussion über die Kosten-Nutzen-Rechnung für Redaktionen.
Der Newsletter ist eine klare Leseempfehlung für Journalist:innen, Datenwissenschaftler:innen und Medienforscher:innen, die an einem praxisnahen und kritisch reflektierten Einblick in den Einsatz von LLMs im Newsroom interessiert sind. Er bietet eine exzellente Fallstudie, die sowohl die Chancen als auch die Fallstricke der Technologie aufzeigt.