Dwarkesh Podcast: Richard Sutton – Father of RL thinks LLMs are a dead-end
Richard Sutton über die Grenzen von LLMs und die Macht des Reinforcement Learning – eine konzentrierte Debatte über die Zukunft von KI.
Dwarkesh Podcast
3982 min audioRichard Sutton, Begründer des Reinforcement Learning und Träger des Turing-Awards 2024, erklärt im Gespräch mit Dwarkesh Patel, warum er LLMs für eine Sackgasse hält. Er argumentiert, dass große Sprachmodelle zwar mächtige Mustererkennung in Daten besitzen, aber nicht aus eigener Erfahrung lernen können – ein entscheidender Unterschied zum menschlichen Lernen. Die Episode spannt einen Bogen von Suttons berühmtem Essay „The Bitter Lesson“ bis zu möglichen Wegen zu allgemeiner Künstlicher Intelligenz.
### 1. LLMs sind keine Lernagenten
Sutton sieht LLMs als „dead end“, weil sie nur aus statischen Datensätzen lernen: „They only learn from data… it's not experience that they generate.“ Ohne Interaktion mit der Welt könnten sie keine neuen Situationen meistern oder an neue Ziele anpassen.
### 2. Bittere Lektion: Allgemeine Methoden skalieren
Sein Essay „The Bitter Lesson“ besagt, dass über 70 Jahre AI-Forschung zeigten: Allgemeine, rechenintensive Methoden ohne eingebautes Menschenwissen setzen sich durch. LLMs bestätigen diese Regel, seien aber zu speziell, um allein zu AGI zu führen.
### 3. Menschen lernen primär durch Handeln
Sutton betont, Menschen würden meist durch direkte Interaktion lernen: „We try things out. We make mistakes. We learn from our mistakes.“ Nur Beobachtung von Anderen reiche nicht für generelle Intelligenz.
### 4. Simulation reicht nicht als Erfahrung
Die Idee, ein LLM könne durch Selbstsimulation neue Daten generieren, hält er für begrenzt: „The simulation is only as good as the data that went into it.“ Neue, nie zuvor gesehene Aufgaben könne es so nicht bewältigen.
### 5. LLMs als Teil eines RL-Agenten denkbar
Ein LLM könne als Komponente in einem Reinforcement-Learning-Agenten dienen, der durch Erfahrung lernt. Dann aber sei der Agent RL-basiert, nicht mehr das LLM selbst.
### 6. Kontinuierliches „on-the-job“-Learning fehlt
LLMs müssten bei jeder Änderung komplett neu trainiert werden. Für Sutton ist zukunftsweisend, dass ein Agent „learn on the fly“, statt auf vorab gesammelte Daten angewiesen zu sein.
## Einordnung
Der Podcast bietet eine konzentrierte, technisch versierte Debatte, in der Patel souverän die Position des Gegenarguments einbringt und Sutton klar artikuliert, warum er LLMs skeptisch gegenübersteht. Die Diskussion bleibt durchgehend sachlich; es findet eine sinnvolle Trennung zwischen Beobachtung und Bewertung statt. Interessant ist, wie Sutton die Dominanz von Skalierung und Rechenleistung („The Bitter Lesson“) mit der Forderung nach echter Erfahrung verbindet. Fehlende Perspektiven sind Agent:innen, die hybride Ansätze mit LLM und Reinforcement Learning bereits erfolgreich einsetzen, sowie Stimmen, die anmerken, dass Menschen ebenfalls stark auf kulturelle Daten angewiesen sind. Die Sendung wirft wichtige Fragen zur Zukunft von KI auf, ohne in Spekulation oder Hype abzudriften.
Hörempfehlung: Wer einen knappen, faktenreiten Überblick über eine der zentralen Kontroversen der aktuellen KI-Forschung sucht, findet hier eine zugängliche Einstieg in Suttons radikale Position.