Generative KI unfähig zur Entdeckung: Loops richtig bauen

Generative KI unfähig zur Entdeckung: Du brauchst Bewertungsschleifen für echte F&E. Lerne Variation, Bewertung, Selektion—und setze es um.

Generative KI unfähig zur Entdeckung: R&D-Team prüft Kandidaten in einer Bewertungsschleife am Dashboard

Wenn du schon mal einen richtig guten Output von Generative KI gesehen hast, kennst du den Moment: Es klingt neu. Es klingt richtig. Und trotzdem bleibt die entscheidende Frage offen: Ist das wirklich Entdeckung – oder nur Nachahmung, die zufällig gerade etwas Ähnliches produziert?

Laut THE-DECODER (ohne Monatsangabe im Snippet) argumentiert Richard Sutton als Turing-Preisträger: „Generative KI ist gut im Nachahmen, aber unfähig zur Entdeckung“ – weil sie ihre eigenen Ergebnisse nicht bewertet. Ohne Bewertung fehle die verlässliche Selektion des „Guten“. Neuheit „flackere“ laut Sutton nur kurz auf und gehe wieder verloren, wenn ihr Wert nicht erkannt wird.

TL;DR:

Richard Sutton kritisiert, dass Generative KI ohne Bewertung keine verlässliche Entdeckung schafft. (Quelle: The-Decoder)
Echte wissenschaftliche Entdeckung braucht einen Loop aus Variation, Bewertung und selektiver Beibehaltung. (Quelle: The-Decoder)
Für F&E strukturierst du Modelle mit eingebauter Evaluierung + klaren Rückkopplungssignalen statt auf reines Generieren zu setzen.

Einstieg: Wenn „neu“ nur kurz aufflackert

„Neu“ ist bei Textmodellen oft ein Gefühl. Ein Sprachmuster, das gerade gut passt. Laut THE-DECODER beschreibt Sutton genau dieses Paradox: Neuartigkeit kann kurzfristig „flackern“, aber sie bleibt nicht bestehen, wenn niemand (oder kein Mechanismus) ihren Wert erkennt.

Ich sehe das in Projekten immer wieder als Muster: Teams testen „die Idee“ schnell mit generativen Outputs, aber sie lassen die entscheidende Instanz aus. Diese Instanz heißt nicht „noch ein Prompt“ und auch nicht „noch ein größeres Modell“. Sie heißt Bewertung. Und Bewertung heißt: Du baust eine Rückkopplung ein, die echte Auswahl trifft – nicht nur plausibles Aussehen.

Generative KI unfähig zur Entdeckung ist die Eigenschaft, dass ein System neue Dinge nicht zuverlässig findet, weil es seine eigenen Ergebnisse nicht bewertet und deshalb nicht selektiv beibehält.

In den nächsten Abschnitten zeige ich dir, was „Bewertungsschleifen“ in der Praxis bedeuten – und wie du Modelle für echte Forschungs- und Entwicklungsarbeit strukturierst, ohne dich auf Illusionen zu verlassen.

Foto eines modernen Forschungs-Teams an einem Bildschirm mit mehreren Test-Outputs und einem Dashboard mit grünen/roten

Generative KI unfähig zur Entdeckung: Was fehlt im Kern?

Laut THE-DECODER beschreibt Richard Sutton den zentralen Engpass: Gewöhnliche generative KI kann Varianten erzeugen, aber sie nimmt zur Laufzeit keine eigene Bewertung der Ausgaben vor. Damit fehlt der Mechanismus, der aus „vielleicht stimmt’s“ verlässlich „das ist wirklich neu und gut“ macht.

Sutton formuliert es sinngemäß als Problem der Selektion. Wenn das System nicht unterscheiden kann, welche Ausgabe Bestand hat, dann kann es auch keine wissenschaftliche Entdeckung „durchtragen“. Es bleibt bei Nachahmung oder Zufallstreffern.

Was Sutton mit „Variation, Bewertung, selektive Beibehaltung“ meint

Laut THE-DECODER beschreibt Sutton echte wissenschaftliche Entdeckung als Dreischritt:

Variation (Möglichkeiten erzeugen)
Bewertung (Wert erkennen)
Selektive Beibehaltung (Erfolgreiches weiterverwenden)

Das ist ein Unterschied wie Tag und Nacht zu „Generieren und hoffen“. Suttons Muster „Neuheit flackert kurz auf, gehe aber wieder verloren, wenn ihr Wert nicht erkannt werde“ (laut THE-DECODER) ist dabei keine Metapher, sondern eine Systemlogik.

Wenn du in F&E arbeitest, heißt das: Du brauchst nicht nur kreative Modelle, sondern auch Prüfer.

Interner Hinweis, weil’s oft verwechselt wird: Wenn du wissen willst, warum „nur KI-Text“ nicht reicht, schau dir auch Warum gute Texte verkaufen – und schlechte Texte kosten an. Das Prinzip ist im Marketing zwar anders, aber die Bewertungslücke ist die gleiche.

Nahaufnahme von Code-Reviews und Prüfregeln auf einem Monitor, daneben ein Block „Evaluation Loop“ mit grünen Häkchen (o

Schritt 1–3: Die Bewertungsschleife, die Entdeckung ausmacht

Der Knackpunkt ist simpel: Du kannst Variation nicht „hochwertig genug“ machen, wenn du den Erfolg nicht messbar bewertest. Laut THE-DECODER ist das genau Suttons Kritik an gewöhnlicher generativer KI: Ohne Bewertung keine verlässliche Selektion.

Variation: Ideen erzeugen, nicht nur Text ausgeben

Variation heißt: Du erzeugst mehrere mögliche Kandidaten. In der Praxis kann das in der Entwicklung bedeuten, dass du nicht nur eine Hypothese erzeugst, sondern mehrere Testfälle, mehrere Strategien oder mehrere Konstruktionsvarianten durchspielst.

Bewertung: „KI kann Ergebnisse nicht bewerten“ gezielt überbrücken

Sutton erklärt laut THE-DECODER auch, wie Bewertung funktionieren kann: Entweder durch Menschen, die aus KI-Bildern das beste auswählen, oder durch ein klares Ziel/Rückkopplung – zum Beispiel formale Korrektheit oder eine Belohnung in Simulationen.

Und genau hier wird „KI kann Ergebnisse nicht bewerten“ operational lösbar: Du musst der generativen Komponente nicht beibringen, „alles zu wissen“. Du musst ihr beibringen, dass am Ende eine Bewertung stattfindet.

Selektive Beibehaltung: Erfolgreiches weiterverwenden

Selektive Beibehaltung ist der Schritt, in dem du Zeit und Geld sparst. Du nimmst nicht jede Idee mit. Du nimmst die Kandidaten, deren Bewertung dich wirklich weiterbringt.

Aus unseren Projekten sehe ich das sehr klar: Teams, die einen echten Test-Loop einbauen, reduzieren „Lieblingshypothesen“ schnell. Sie müssen dann nicht mehr auf Bauchgefühl entscheiden.

Als kleine Orientierung, welche Textarbeit typischerweise nicht bewertet wird: Textarbeit wird in der Regel zwar geprüft, aber selten mit derselben Strenge wie in einem technischen Loop. Wenn du aber bessere Ergebnisse willst, hilft auch dort eine Bewertungsschicht.

Schritt 4: Beispiele aus AlphaGo & Co. – wo der Loop sitzt

Laut THE-DECODER nennt Sutton Systeme wie AlphaGo, AlphaFold, AlphaProof und Claude Code als Beispiele dafür, dass Bewertungsschleifen Entdeckung (oder zumindest systematischere Verbesserungen) ermöglichen können.

Wichtig: Sutton kritisiert nicht „KI an sich“. Er kritisiert, dass gewöhnliche generative KI zur Laufzeit keine eigene Bewertung ihrer Ausgaben vornimmt.

AlphaGo-Zug 37 als Anschauungsfall

Als Beleg nennt der Artikel konkret den berühmten AlphaGo-Zug 37 (laut THE-DECODER). Dazu gehört laut Snippet auch die Idee, dass es Muster gibt, wie ein System nicht nur Varianten erzeugt, sondern sie testet.

Wenn du dir das als Loop denkst, lautet die Praxis-Übersetzung:

Kandidaten werden nicht „nur generiert“.
Sie werden in einem bewertenden Rahmen geprüft.
Erfolgreiche Ansätze werden weiterverwendet.

AlphaProof, AlphaFold, Claude Code: warum „eingebaute Evaluierung“ zählt

Laut THE-DECODER werden AlphaFold und AlphaProof sowie Claude Code als Beispiele genannt, in denen Bewertungsschleifen eine Rolle spielen können.

Und das passt zu einer Kernidee aus Suttons Modell: Bewertung kann durch formale Korrektheit oder durch Belohnungslogik in Simulationen erfolgen (laut THE-DECODER). Für F&E heißt das: Du brauchst eine „Prüf-/Feedback-Schicht“, die echten Fortschritt ansteuert.

Damit du das in der Agenturpraxis direkt anwenden kannst, kann ich dir außerdem empfehlen, dich mit dem Thema KI im Textbereich – was sie kann, was sie (noch) nicht kann auseinanderzusetzen. Auch dort kommt es am Ende auf Verifikation und Auswahl an.

Illustration/Foto einer Zeichenfläche mit mehreren Testläufen, daneben ein Symbol für „reward“ und „verifikation“ (visue

So strukturierst du F&E-Arbeit: agentic evaluation ohne Illusionen

Jetzt wird’s praktisch. Laut THE-DECODER fordert Sutton KI-Agenten, die kontinuierlich mit einer Umgebung interagieren, daraus lernen, innere Weltmodelle aufbauen und Strategien planen.

Wenn du das auf echte Forschungs- und Entwicklungsarbeit überträgst, brauchst du drei Bausteine:

Interaktion mit der „Umgebung“: nicht nur Text generieren, sondern in einem Testkontext agieren.
Lernen aus Feedback: Bewertungsschleifen müssen Ergebnisse wiederverwenden, nicht nur protokollieren.
Agentic evaluation: Der Loop bewertet Kandidaten – nicht das Bauchgefühl.

Eine praktische Referenz-Architektur für Teams

Basierend auf Suttons Dreischritt (Variation, Bewertung, selektive Beibehaltung) (laut THE-DECODER) sieht eine agentic Struktur in der Praxis so aus:

Generator-Modul: erstellt mehrere Kandidaten (Ideen, Hypothesen, Designs, Antworten)
Verifikator/Bewerter: prüft Kandidaten gegen klare Regeln oder Simulation
Selector: wählt die besten Kandidaten aus
Speicher/Beobachtung: hält erfolgreiche Strategien für die nächste Iteration bereit

Wichtig dabei: Der Bewerter muss „ankern“ können. Laut THE-DECODER kann Bewertung über Menschen oder über formale Korrektheit/Belohnung erfolgen. Entscheidend ist, dass du die Bewertung nicht aus dem Loop entfernst.

Qualitätsgate: wie du „Neuheit flackert kurz“ messbar machst

Suttons Beobachtung „Neuheit flackere kurz auf, gehe aber wieder verloren, wenn ihr Wert nicht erkannt werde“ (laut THE-DECODER) ist für Teams ein Warnsignal.

Du machst das messbar über ein Qualitätsgate:

Akzeptanzkriterien (formale Korrektheit, technische Constraints, definierte Simulationsergebnisse)
Validierungsrate (wie oft bestehen Kandidaten den Prüfschritt)
Persistenz (ob Verbesserungen in späteren Iterationen erhalten bleiben)
Vergleich gegen Baselines (alte Strategie vs. neue Strategie)

Und ja: Das klingt nach „mehr Prozess“. Aber in der Realität spart es dir die doppelten Kosten, weil du nicht zweimal auf die gleiche falsche Richtung setzt.

Wenn du sowieso schon an Marketing/SEO arbeitest: Man kann Loops auch dort denken. SEO lebt von Bewertung (Ranking, Performance, Nutzerverhalten) und selektiver Weiterentwicklung. Die Logik ist ähnlich, auch wenn die Metriken andere sind.

Quellen & Zahlen zur Verbreitung generativer KI helfen dir, die Dringlichkeit intern zu begründen: Laut TÜV-Verband (2025) nutzen bereits 65 Prozent der Bundesbürgerinnen und -bürger generative KI-Tools. Und laut Statista (2023, veröffentlicht in der Quelle) gibt es Umfragewerte zur Nutzung generativer KI-Tools.

Lass dich davon aber nicht blenden: Verbreitung heißt nicht, dass Entdeckung automatisch klappt. Genau da setzt Suttons Unterscheidung an: Ohne Bewertung entsteht keine verlässliche wissenschaftliche Entdeckung.

Fazit

Generative KI unfähig zur Entdeckung ist kein „Bug im Modell“ im Sinne von „man muss nur noch irgendwas einstellen“. Laut THE-DECODER argumentiert Richard Sutton vielmehr, dass gewöhnliche generative KI zwar Varianten erzeugt, aber die Fähigkeit zur Bewertung und damit zur Auswahl des Besten fehlt. Dann flackert Neuheit nur kurz auf und verschwindet wieder.

Wenn du echte Forschungs- oder Entwicklungsarbeit planst, brauchst du einen Loop: Variation → Bewertung → selektive Beibehaltung. Baue diese Bewertungsschicht ein (formale Korrektheit, Rückkopplung, Belohnung, ggf. mit Menschen als Prüfer). Dann machst du aus „Output“ echte Erkenntnis.

Wenn du dafür Struktur, Text-/Dokumentationsrahmen und interne Prozesse brauchst, sprich mit mir direkt über Kontakt. Ich helfe dir, den Loop so zu gestalten, dass er im Alltag funktioniert.

Häufig gestellte Fragen

Warum ist „Generative KI unfähig zur Entdeckung“ – obwohl sie oft überzeugend neu wirkt?

Weil „neu wirkend“ nicht gleichbedeutend mit „bewertet und selektiv beibehalten“ ist. Laut THE-DECODER beschreibt Richard Sutton, dass Neuheit ohne Bewertung typischerweise wieder verloren geht. Für Entdeckung brauchst du einen Mechanismus, der den Wert deiner Kandidaten wirklich erkennt.

Was bedeutet „Bewertungsschleife“ konkret (Variation, Bewertung, selektive Beibehaltung)?

Eine Bewertungsschleife heißt: Du erzeugst mehrere Möglichkeiten (Variation), prüfst sie gegen klare Kriterien oder Rückkopplung (Bewertung) und setzt anschließend nur die erfolgreichen Kandidaten fort (selektive Beibehaltung). Laut THE-DECODER nennt Sutton genau diese Dreistufigkeit als Kern echter wissenschaftlicher Entdeckung.

Wie unterscheiden sich AlphaGo/AlphaFold/AlphaProof von Standard-Textgeneratoren in Bezug auf KI kann Ergebnisse nicht bewerten?

Laut THE-DECODER werden Systeme wie AlphaGo, AlphaFold und AlphaProof als Beispiele dafür genannt, dass Bewertungsschleifen Entdeckung ermöglichen können. Der Unterschied zu Standard-Textgeneratoren: Dort sitzt nicht nur Generieren im Vordergrund, sondern ein bewertender Rahmen, der Kandidaten testet und erfolgreiches weiterverwenden lässt.

Kann Neuheit überhaupt zuverlässig entstehen, oder flackert sie nur kurz auf?

Suttons Kritik zielt auf den Fall ohne Bewertung: Laut THE-DECODER flackert Neuheit kurz auf und geht wieder verloren, wenn ihr Wert nicht erkannt wird. Zuverlässigkeit entsteht dann, wenn du Bewertung und selektive Beibehaltung in den Prozess integrierst.

Quellen

Vincent Effertz

2 Juni, 2026