Harnessy, nie frameworki — nowa forma narzędzi AI
18 kwietnia 2026 Gregor Zunic — współzałożyciel Browser Use — napisał:
Introducing: Browser Harness. A self-healing harness that can complete virtually any browser task. We got tired of browser frameworks restricting the LLM. So we removed the framework.
Żadnego frameworka. Bezpośrednie CDP. Jeden websocket do Chrome. Plik helpers.py, który agent edytuje w locie. Drop-in do Claude Code i Codex. Tweet jest tutaj.
To nie tylko narzędzie do automatyzacji przeglądarki. To najczystsze dotąd sformułowanie wzorca, który po cichu przejmuje tooling AI w 2026: harness.
Czym jest harness?
Harness to minimalne opakowanie wokół LLM-a, które pozwala mu wykonywać użyteczną pracę. Wystawia powierzchnię narzędzi — zwykle system plików, shell, może HTTP — i schodzi z drogi.
Porównaj dwie formy:
| Framework | Harness |
|---|---|
| Definiuje workflowy, kroki, DAG-i | Żadnego workflowu. Decyduje LLM. |
| Abstrahuje narzędzia bazowe | Wystawia surowe narzędzia (shell, CDP, fs) |
| Przepisuje, co agent powinien robić | Przepisuje, co agent może robić |
| Pęka, gdy zadanie nie pasuje do szablonu | Gnie się, bo nie ma szablonu |
| Zoptymalizowany pod głupie modele | Zoptymalizowany pod mądre modele |
Frameworki miały sens w 2023. Modele nie były na tyle niezawodne, by powierzyć im surowe zdolności, więc budowało się poręcze. LangChain, AutoGPT, CrewAI — wszystkie wariacje na temat „pozwól mi poprowadzić tego LLM-a za rękę przez pipeline”.
Modele stały się mądrzejsze. Poręcze zaczęły kosztować więcej, niż oszczędzały.
Claude Code był pierwszym prawdziwym harnessem
Claude Code wyszedł na początku 2025 z radykalnym designem: żadnej orkiestracji, żadnego modułu plannera, żadnego grafu pamięci. Tylko LLM z Bash, Read, Edit, Write, Grep i kilkoma narzędziami webowymi. Tyle.
Zakład polegał na tym, że wystarczająco mądry model, z dostępem do systemu plików i shella, potrafi sam zadbać o orkiestrację. I potrafił. Karpathy nazwał to „jedynym narzędziem AI, którego naprawdę używam codziennie”.
Codex wylądował na tej samej formie kilka miesięcy później. Inny model, ta sama filozofia: daj LLM-owi piaskownicę i narzędzia, nie framework.
Browser Harness to ten wzorzec dochodzący do automatyzacji przeglądarki. Zamiast definicji kroków w stylu Selenium czy API w stylu Playwrighta opakowanych w scaffolding agenta, dostajesz surowe połączenie Chrome DevTools Protocol i plik helpers, który agent przepisuje, gdy coś się zepsuje.
To jest część „self-healing”. Żadnej logiki retry, żadnej strategii fallback, żadnego parsera stanów błędu. LLM czyta błąd, edytuje helper, próbuje ponownie. Kodebaza jest pamięcią.
Dlaczego harnessy wygrywają
Trzy rzeczy przesunęły się równolegle:
- Użycie narzędzi stało się niezawodne. Claude 4 i GPT-5 trzymają się schematów narzędzi wystarczająco konsekwentnie, że nie potrzebujesz warstwy walidatora łapiącego zniekształcone wywołania.
- Okna kontekstu przestały być deficytem. Kontekst 1M tokenów oznacza, że możesz załadować całą kodebazę, całe DOM, całą dokumentację — i pozwolić modelowi czytać ponownie zamiast wcześniej chunkować.
- Modele nauczyły się odzyskiwać. Gdy wywołanie się nie udaje, nowoczesny LLM edytuje narzędzie, pisze nowy helper albo zmienia podejście. Autorzy frameworków pisali tę logikę odzyskiwania ręcznie. Model robi to lepiej.
Gdy te trzy rzeczy są prawdziwe, każda warstwa abstrakcji między LLM a surowym narzędziem staje się obciążeniem. To kod, który ty utrzymujesz, który model musi omijać, który pęka, gdy zadanie odchyla się choćby trochę od wzorca.
Linia Grega jest sygnałem: „Wyzywam kogokolwiek do znalezienia zadania, które NIE działa”. Frameworki mają znane tryby awarii. Harnessy nie — albo raczej, ich trybem awarii jest sam LLM, a ten wciąż się poprawia.
Stos harnessów w 2026
Jeśli zmrużysz oczy, zobaczysz, jak stos się tworzy:
- Coding harness: Claude Code, Codex, tryb agenta Cursor
- Browser harness: Browser Harness (Browser Use)
- Research harness: autoresearch Karpathy’ego —
program.md+ Claude Code - Data harness: rodzący się — bezpośredni dostęp do DB + shell
Wspólna forma: LLM + surowe narzędzie + trwały katalog roboczy. Katalog roboczy to miejsce, gdzie kumuluje się kontekst, gdzie pisane są helpery, gdzie żyje pamięć modelu między turami.
Harnessy działają na kontekście
Oto część, która liczy się, jeśli budujesz z tymi narzędziami: harness jest tak dobry, jak kontekst, który mu dasz.
Claude Code bez CLAUDE.md to generyczny asystent kodu. Claude Code z dobrze wypielęgnowanym CLAUDE.md, biblioteką dokumentów referencyjnych i folderem wiedzy, który może przegrepować — to, czego używa Karpathy. To wersja 10x.
Tak samo z Browser Harness. helpers.py, który edytuje w locie, startuje skądś. Jeśli zasiejesz to skądś wzorcami, flowami auth, specyfikami stron, które udokumentowałeś — harness ma dźwignię. Jeśli dasz mu pusty plik, musi wszystko odkryć od nowa.
Harness wykonuje pracę. Twoja biblioteka kontekstu to miejsce, gdzie żyje twoja przewaga.
Gdzie pasuje Save
Każdy harness, o którym mówiliśmy, czyta Markdown z dysku. CLAUDE.md, AGENTS.md, dokumenty referencyjne, zapisane strony dokumentacji, notatki API — wszystko Markdown, wszystko w folderze, który agent może zobaczyć.
Save to konwerter jednym kliknięciem z dowolnej strony web na czysty Markdown. Strony dokumentacji, posty blogowe, odpowiedzi na Stack Overflow, README z GitHuba, referencje API — cokolwiek będzie musiał przeczytać następny harness, który uruchomisz.
Ludzie, którzy w 2026 wyciągają najwięcej z Claude Code i Browser Harness, nie budują więcej frameworków. Kurują lepsze biblioteki. Harness jest darmowy. Kontekst to fosa.
Save zamienia dowolną stronę web w Markdown, który twój harness AI może przeczytać — zainstaluj rozszerzenie i zacznij budować bibliotekę, która uczyni twoich agentów mądrzejszymi.