On: The scraper economy hiding in plain sight

Der Newsletter von The Media Copilot – verfasst von einem auf KI und Medien spezialisierten Analysten – beginnt mit einer eigenen Kursankündigung, stürzt sich dann aber auf ein heißes Thema: den unkontrollierten Markt für KI-Trainingsdaten. Kernstück ist ein Bericht, wonach fast zwei Dutzend Firmen systematisch Verlagsinhalte scrapen und an Unternehmen wie OpenAI oder Amazon verkaufen. Der Autor zitiert eine Recherche des Medienanalysten Matthew Scott Goldstein: „Fast zwei Dutzend ‚Datendienste‘-Firmen ernten Verlagsinhalte und verkaufen sie an die Höchstbietenden.“ Das eigentlich Brisante daran sei die rechtliche Grauzone – denn obwohl Scraping oft als Unrecht empfunden werde, verlangten Gerichte einen messbaren Schaden durch konkrete KI-Outputs. Der Newsletter erinnert an den gescheiterten Fall von Autorin Sarah Silverman, bei dem eine Klage abgewiesen wurde, weil keine direkten Kopien der Werke in den KI-Antworten nachweisbar waren.

Dieses Beweisproblem werde durch die unsichtbare Infrastruktur der Scraping-Ökonomie noch verschärft. „Scraping passiert lautlos, mit Maschinengeschwindigkeit, hinter Infrastruktur-Lagen, die die meisten Verlage nie zu Gesicht bekommen“, schreibt der Autor. Genau hier setzt der neue Bericht an: Er macht einen kaum regulierten Milliardenmarkt sichtbar, der Verlagen nicht nur schadet, sondern sie zugleich als Kunden solcher Datendienste in eine Zwickmühle bringt.

Neben dem Hauptartikel liefert der Newsletter drei auf Medienprofis zugeschnittene KI-Meldungen: LinkedIn unterdrückt künftig Postings, die nach maschineller Generierung „riechen“ – darunter typische KI-Formulierungen, während das eingebaute KI-Schreibtool weiterhin erlaubt bleibt. Das Preprint-Repository arXiv verhängt einjährige Sperren gegen Forschende, die ungeprüfte KI-Texte einreichen, und Microsoft Clarity bietet jetzt ein kostenloses Dashboard an, mit dem Verlage und PR-Teams verfolgen können, wie oft ihre Inhalte in KI-generierten Antworten zitiert werden. Alle Kurznachrichten sind mit dem Transparenzhinweis „AI-assisted“ versehen: KI-Entwürfe, redaktionell geprüft.

Einordnung

Der Newsletter betrachtet KI-Scraping konsequent aus der Warte von Content-Schaffenden und Verlagen. Die Perspektive der Datenbroker oder der KI-Firmen fehlt völlig – alternative Modelle wie Lizenzverträge oder Opt-out-Mechanismen werden nicht diskutiert. Unausgesprochen steht die Annahme dahinter, dass ungefragtes Scraping per se moralisch und wirtschaftlich verwerflich ist. Der Autor selbst verkauft KI-Trainings und hat damit ein Eigeninteresse, das Problem dramatisierend darzustellen, weil es die Dringlichkeit seiner Kurse unterstreicht. Die Faktenlage ist jedoch solide und durch die zitierte Quelle gut belegt. Auffällig ist der werbliche Ton, der die journalistische Distanz etwas verwässert.

Die Ausgabe ist für Medienleute lesenswert, die verstehen wollen, wie Scraping-Ökonomie die eigene Arbeit bedroht und welche Gegenstrategien es gibt. Wer sich an der eingewobenen Eigenwerbung nicht stört, bekommt eine kompakte und aktuelle Lageeinschätzung – mit dem Hinweis, dass die Sichtweise der Gegenseite unterbelichtet bleibt.