Eric Jang, ehemaliger Vize-Präsident für KI bei 1X Technologies, nimmt in diesem tiefgehenden Interview AlphaGo auseinander und setzt die Funktionsweise in Bezug zu modernen Lernmethoden großer Sprachmodelle. Der Newsletter, ein Transkript seines Gesprächs, beginnt mit den Grundregeln von Go und arbeitet sich Schritt für Schritt zum Herzstück von AlphaGo vor: der geschickten Verschränkung von Monte-Carlo-Baumsuche (MCTS) mit neuronalen Netzen. Jang zeichnet ein klares Bild, wie die unüberwindbare kombinatorische Explosion des Spiels durch ein Wertnetzwerk und ein Policy-Netzwerk gebändigt wird. Das Wertnetzwerk schätzt die Gewinnwahrscheinlichkeit und kappt die Tiefe der Suche, das Policy-Netzwerk priorisiert vielversprechende Züge und stutzt die Breite des Suchbaums.

Die Schlüsselinnovation und der Kern des Gesprächs ist die damit mögliche Selbstverbesserung, die Jang als elegante Lösung für ein fundamentales Problem der Verstärkungslernens (RL) darstellt. Anstatt wie in einfachen RL-Ansätzen nur komplette, gewonnene Spiele zu belohnen, wird nach jedem einzelnen Zug die Suche gestartet. Das Ergebnis dieser Suche – eine überlegene Verteilung guter Züge – wird dann als Trainingsziel für das Netzwerk verwendet. Jang bringt es auf den Punkt: „Der wichtigste Grund, warum dies ein eleganter RL-Algorithmus ist, liegt darin, dass man nie mit einer Null-Prozent-Erfolgsquote anfangen und das Explorationsproblem lösen muss, wie man zu einer Quote über Null kommt.“ So umgeht AlphaGo das Problem der Kreditvergabe, bei dem ein Agent in einer langen Kette von Aktionen herausfinden muss, welcher Schritt entscheidend war. Die Baumsuche liefert für jeden einzelnen Zustand ein verbessertes Aktionslabel – ein Prozess, den Jang mit dem DAgger-Algorithmus aus der Robotik vergleicht.

Darauf aufbauend zieht das Gespräch einen expliziten Kontrast zum heutigen RL für große Sprachmodelle (LLMs). Während ein LLM bei einer langen Programmieraufgabe über tausende Tokens hinweg mühsam herausfinden muss, welche davon zum Erfolg geführt haben („Lernen durch einen Strohhalm“), liefert die Baumsuche in AlphaGo einen direkten Verbesserungsvorschlag. Jang sieht das Potenzial für eine Rückkehr solcher Suchverfahren in KI-Systemen, erkennt aber die Hürden: Sprachmodelle haben einen immens großen Aktionsraum, in dem der für Go typische Erkundungsbonus der Baumsuche nicht funktioniert.

Der dritte Teil des Newsletters widmet sich Jangs persönlichem Projekt: dem Nachbau von AlphaGo mit modernen Werkzeugen. Mit einem Budget von nur wenigen tausend Dollar an gespendeten GPU-Ressourcen und der Hilfe von Coding-Assistenten wie Claude Opus gelang ihm, was 2017 noch ein ganzes Team und Millionen erforderte. Er teilt praktische Weisheiten, etwa dass ResNets bei kleineren Budgets immer noch vorteilhaft sind, dass Skalierungsgesetze ein bereits funktionierendes System voraussetzen und dass die Initialisierung durch Imitation existierender starker Bots (wie KataGo) den entscheidenden Unterschied macht.

Seine Erfahrungen mit teilautomatisierten KI-Forschern sind aufschlussreich. LLMs sind brillant darin, einmal definierte Experimente auszuführen und Hyperparameter zu optimieren – „eine fast schon Doktoranden-ähnliche Fähigkeit, einfach eine Leistungsmetrik zu optimieren.“ Sie scheitern jedoch an der entscheidenden Meta-Fähigkeit: dem lateralen Denken, um einen Forschungszweig als Sackgasse zu erkennen, die richtigen Fragen zu stellen, aus einer Reihe von Ergebnissen ein größeres Bild zu formen und eine langfristige Vision zu haben. Jang schlägt vor, Go und MCTS als eine schnelle, überprüfbare Umgebung („outer loop“) zu nutzen, um genau diese Art von wissenschaftlichem Denken in KI-Systemen zu trainieren und zu testen.

Einordnung

Das Gespräch ist eine brillante technische Exegese, die jedoch den unkritischen Blick auf die „Bitter Lesson“ als unausweichliches Naturgesetz der KI-Entwicklung kultiviert. Die Annahme, dass stetig wachsende Rechenleistung alle konzeptionellen Probleme früher oder später marginalisiert, durchzieht den Text. Jang misst den Erfolg an der Fähigkeit, frühere Resultate mit weniger Rechenleistung zu reproduzieren. Die tiefergehende Frage, ob das zugrundeliegende theoretische Verständnis mit dem technischen Fortschritt Schritt hält oder ob eine extreme Hardware-Optimierung die Entwicklung pluraler KI-Ansätze verengt, wird ausgeblendet. Die Agenda ist klar: Es geht um die Effizienzoptimierung für ein skalierbares, gut definiertes Problem und die Übertragung dieser Prinzipien auf die Automatisierung der Forschung selbst.

Die Stimmen, die grundsätzlich andere Ansätze verfolgen, etwa verkörperte Kognition, hybride Systeme oder einen stärkeren Fokus auf Dateneffizienz abseits reiner Skalierung, kommen nicht vor. Der Text normalisiert die Idee einer massiven, kompressionsgetriebenen KI und fördert die Perspektive, dass der Weg zu allgemeiner Intelligenz ein reines Skalierungs- und Optimierungsproblem ist. Der Newsletter ist eine hochkarätige Leseempfehlung für alle, die die architektonischen Wurzeln moderner KI-Lernsysteme verstehen wollen und einen Einblick in die praktische Denkweise der Forschung an vorderster Front suchen. Für Leser:innen, die eine kritischere Auseinandersetzung mit den gesellschaftlichen Implikationen und den Grenzen der „Bitter Lesson“-Ideologie suchen, mag die technische Tiefe die fehlende kontroverse Diskussion nicht aufwiegen.