Zurück zum Blog

Harnesses, keine Frameworks — die neue Form der KI-Tools

· Save Team
#ai#agents#browser-use#claude-code#codex#harness#llm#markdown

Am 18. April 2026 postete Gregor Zunic — Mitgründer von Browser Use — Folgendes:

Introducing: Browser Harness. A self-healing harness that can complete virtually any browser task. We got tired of browser frameworks restricting the LLM. So we removed the framework.

Kein Framework. Direktes CDP. Ein WebSocket zu Chrome. Eine helpers.py, die der Agent on the fly bearbeitet. Drop-in für Claude Code und Codex. Der Tweet ist hier.

Das ist nicht nur ein Browser-Automatisierungstool. Es ist die bisher klarste Formulierung eines Musters, das 2026 leise die KI-Werkzeuglandschaft übernimmt: der Harness.

Was ist ein Harness?

Ein Harness ist die minimale Hülle um ein LLM, die es ihm erlaubt, nützliche Arbeit zu leisten. Er legt eine Tool-Oberfläche frei — meist Dateisystem, Shell, vielleicht HTTP — und geht dann aus dem Weg.

Vergleich der beiden Formen:

FrameworkHarness
Definiert Workflows, Schritte, DAGsKein Workflow. Das LLM entscheidet.
Abstrahiert die zugrundeliegenden Tools wegLegt rohe Tools offen (Shell, CDP, fs)
Schreibt vor, was der Agent tun sollSchreibt vor, was der Agent tun kann
Bricht, wenn die Aufgabe nicht ins Template passtBiegt sich, weil es kein Template gibt
Optimiert für dumme ModelleOptimiert für schlaue Modelle

Frameworks ergaben 2023 Sinn. Modelle waren nicht zuverlässig genug, um ihnen rohe Fähigkeiten anzuvertrauen, also baute man Leitplanken. LangChain, AutoGPT, CrewAI — alles Varianten von „Lass mich dieses LLM durch eine Pipeline führen”.

Modelle wurden schlauer. Die Leitplanken begannen mehr zu kosten, als sie sparten.

Claude Code war der erste echte Harness

Claude Code erschien Anfang 2025 mit einem radikalen Design: keine Orchestrierung, kein Planer-Modul, kein Memory Graph. Nur ein LLM mit Bash, Read, Edit, Write, Grep und ein paar Web-Tools. Das war’s.

Die Wette: Ein ausreichend schlaues Modell, dem man Dateisystemzugriff und eine Shell gibt, kann die Orchestrierung selbst übernehmen. Und es konnte. Karpathy nannte es „das einzige KI-Tool, das ich wirklich jeden Tag benutze”.

Codex landete ein paar Monate später bei derselben Form. Anderes Modell, dieselbe Philosophie: Gib dem LLM eine Sandbox und Tools, kein Framework.

Browser Harness ist dieses Muster, das in der Browser-Automatisierung ankommt. Statt Selenium-artiger Schrittdefinitionen oder Playwright-artiger APIs, eingepackt in Agent-Scaffolding, bekommst du eine rohe Chrome-DevTools-Protocol-Verbindung und eine Helpers-Datei, die der Agent umschreibt, wenn etwas bricht.

Das ist der „self-healing”-Teil. Keine Retry-Logik, keine Fallback-Strategie, kein Parser für Fehlerzustände. Das LLM liest den Fehler, bearbeitet den Helper, versucht es erneut. Die Codebase ist das Gedächtnis.

Warum Harnesses gewinnen

Drei Dinge haben sich parallel verschoben:

  1. Tool-Nutzung wurde zuverlässig. Claude 4 und GPT-5 halten sich konsistent genug an Tool-Schemas, dass man keine Validator-Schicht mehr braucht, die fehlerhafte Aufrufe abfängt.
  2. Kontextfenster sind keine Mangelware mehr. 1M-Token-Kontext bedeutet, dass man die ganze Codebase, das ganze DOM, die ganze Doku laden kann — und das Modell nachlesen lässt, statt vorher zu zerteilen.
  3. Modelle haben gelernt, sich zu erholen. Wenn ein Aufruf scheitert, bearbeitet ein modernes LLM das Tool, schreibt einen neuen Helper oder wechselt den Ansatz. Framework-Autoren schrieben diese Recovery-Logik von Hand. Das Modell macht es besser.

Sobald diese drei Dinge wahr sind, ist jede Abstraktionsschicht zwischen LLM und rohem Tool eine Belastung. Es ist Code, den du wartest, den das Modell umgehen muss, der bricht, wenn die Aufgabe nur leicht vom Muster abweicht.

Gregs Zeile ist das Indiz: „Ich fordere jeden heraus, eine Aufgabe zu finden, die NICHT funktioniert.” Frameworks haben bekannte Fehlermodi. Harnesses nicht — oder besser gesagt, ihr Fehlermodus ist das LLM selbst, und das wird ständig besser.

Der Harness-Stack 2026

Wenn man die Augen zusammenkneift, sieht man den Stack entstehen:

  • Coding Harness: Claude Code, Codex, Cursor Agent Mode
  • Browser Harness: Browser Harness (Browser Use)
  • Research Harness: Karpathys Autoresearch — program.md + Claude Code
  • Data Harness: im Entstehen — direkter DB-Zugriff + Shell

Die gemeinsame Form: LLM + rohes Tool + persistentes Arbeitsverzeichnis. Das Arbeitsverzeichnis ist der Ort, an dem Kontext angesammelt wird, wo Helper geschrieben werden, wo das Gedächtnis des Modells zwischen den Zügen lebt.

Harnesses laufen auf Kontext

Hier ist der Teil, der zählt, wenn du mit diesen Tools baust: Ein Harness ist nur so gut wie der Kontext, den du ihm gibst.

Claude Code ohne CLAUDE.md ist ein generischer Coding-Assistent. Claude Code mit einer gut gepflegten CLAUDE.md, einer Bibliothek von Referenzdokumenten und einem Wissensordner, den es grep’en kann — das ist, was Karpathy benutzt. Das ist die 10x-Version.

Dasselbe gilt für Browser Harness. Die helpers.py, die er on the fly bearbeitet, startet irgendwo. Wenn du dieses Irgendwo mit Mustern, Auth-Flows und seitenspezifischen Eigenheiten füllst, die du dokumentiert hast — hat der Harness Hebel. Wenn du ihm eine leere Datei gibst, muss er alles neu entdecken.

Der Harness macht die Arbeit. In der Kontextbibliothek liegt dein Vorteil.

Wo Save ins Spiel kommt

Jeder Harness, über den wir gesprochen haben, liest Markdown von der Platte. CLAUDE.md, AGENTS.md, Referenzdokumente, gespeicherte Doku-Seiten, API-Notizen — alles Markdown, alles in einem Ordner, den der Agent sehen kann.

Save ist ein Ein-Klick-Konverter von jeder Webseite zu sauberem Markdown. Doku-Seiten, Blogposts, Stack-Overflow-Antworten, GitHub-READMEs, API-Referenzen — was auch immer der nächste Harness, den du ausführst, lesen muss.

Die Leute, die 2026 am meisten aus Claude Code und Browser Harness herausholen, bauen nicht mehr Framework. Sie kuratieren bessere Bibliotheken. Der Harness ist gratis. Der Kontext ist der Burggraben.


Save verwandelt jede Webseite in Markdown, das dein KI-Harness lesen kann — installiere die Extension und fang an, die Bibliothek aufzubauen, die deine Agenten schlauer macht.