Zwei Jahre lang lautete die Standardantwort auf „Wie gebe ich einem LLM mein Wissen?” RAG. Vektordatenbank aufbauen. Dokumente aufteilen. Einbetten. Nearest-Neighbor-Suche zur Abfragezeit. Ergebnisse zurück in den Prompt einweben.

Es hat funktioniert. Irgendwie. Jeder, der ein RAG-System tatsächlich in Produktion gebracht hat, kennt die Fehlerquellen: Chunks, die den Kontext verlieren, Embeddings, die die falsche Passage abrufen, undurchsichtige Rankings, keine Quellenangaben, seltsame Grenzfälle, wenn der Nutzer etwas fragt, für das der Index nicht ausgelegt war.

Im April 2026 veröffentlichte Andrej Karpathy einen Workflow, der fast nichts davon tut — und für persönliches Wissen besser funktioniert. Er nennt es LLM Knowledge Bases. Die Architektur besteht nur aus einem Ordner mit Markdown-Dateien, einem LLM mit Dateisystemzugang und einer Gewohnheit. VentureBeat beschrieb es als „eine von KI gepflegte, sich weiterentwickelnde Markdown-Bibliothek” — eine Beschreibung, die das wirklich Neue auf den Punkt bringt.

Das Post-RAG-Muster ist da. Dieser Artikel erklärt, was es ist, warum es funktioniert und wie Save Vault es ohne Entwickler-Setup zugänglich macht.

Was RAG zu lösen versuchte

Das ursprüngliche Problem: LLMs haben ein festes Kontextfenster, deine Wissensbasis ist größer als das Fenster, also braucht man eine Methode, um bei jeder Frage den relevanten Ausschnitt abzurufen.

2023 waren Vektoren die naheliegende Antwort. Alles einbetten, nach Ähnlichkeit suchen, die Top-k-Chunks einfügen. Das passte gut zu den kleinen Kontextfenstern von GPT-3.5 und Claude 1. Das typische „KI-Startup”-Muster war „RAG über X.”

Drei Dinge haben sich verändert.

Kontextfenster sind explodiert. Claude hat dieses Jahr 1M-Token-Kontext eingeführt. Gemini und GPT-5 sind ähnlich. Eine Million Token entspricht ungefähr 750.000 Wörtern — genug, um ein kleines Wiki komplett im Arbeitsspeicher zu halten.
Filesystem MCP wurde eingeführt. LLMs können jetzt direkt Dateien auf der Festplatte öffnen. Sie brauchen keine vorprozessierten Chunks mehr. Sie können navigieren, lesen und neu lesen wie ein Mensch.
LLMs sind beim Lesen besser geworden. Claude Opus 4 kann in einer Sitzung Hunderte von Dateien verarbeiten und kohärent darüber nachdenken. Der Engpass hat sich von „Abrufqualität” zu „Was braucht der Mensch eigentlich?” verschoben.

Sobald diese drei Dinge zutrafen, begann RAG wie ein Workaround für Einschränkungen auszusehen, die nicht mehr existieren.

Wie das Markdown-Wiki-Muster aussieht

Karpathys Aufbau, vereinfacht:

Raw-Ordner. Jede Webseite, die er behalten möchte, wird als .md-Datei in einem raw/-Verzeichnis gespeichert. Er verwendet dafür Obsidian Web Clipper.
Compile-Durchgang. Regelmäßig liest ein LLM-Agent (in seinem Fall Claude Code) alles in raw/, erstellt Konzeptseiten, schreibt Zusammenfassungen und erzeugt Backlinks. Daraus entsteht ein strukturiertes Wiki über dem Rohmaterial.
Query-Schleife. Wenn er eine Frage hat, stellt er sie dem LLM. Es durchsucht das Wiki, öffnet die relevanten Dateien und antwortet anhand der Inhalte.
Lint-Durchgang. Gelegentlich scannt das LLM das Wiki auf Inkonsistenzen, fehlende Daten oder neue Verbindungen, die es lohnt festzuhalten.

Sein aktuelles Forschungswiki umfasst ~100 Artikel und ~400K Wörter. Er stellt komplexe Fragen und erhält quellenbasierte Antworten.

Keine Vektordatenbank. Kein Embedding-Modell. Keine Chunking-Strategie. Kein Retrieval-Ranking. Nur Markdown-Dateien, eine Ordnerstruktur und ein LLM, das sie lesen kann.

Warum es besser funktioniert als RAG (für diesen Zweck)

Das Wiki-Muster hat strukturelle Vorteile, die RAG nicht erreichen kann, ohne selbst zum Wiki zu werden.

Quellenangaben sind kostenlos. Jede Antwort zitiert eine Datei. Du kannst sie öffnen, lesen, bearbeiten, löschen. Kein „Das Embedding hat es so gesagt.”

Bearbeiten ist trivial. Eine Markdown-Datei ist Text. Öffne sie in einem beliebigen Editor. Korrigiere einen Tippfehler. Füge eine Notiz hinzu. Lösche einen Abschnitt. Die nächste Abfrage spiegelt die Änderung sofort wider. Kein erneutes Einbetten nötig.

Struktur wächst mit. Wenn das LLM das Wiki kompiliert, erstellt es Backlinks und Konzeptseiten. Das Wiki wird besser, je mehr du speicherst, weil das LLM mehr Kontext hat, um neue Einträge zu verknüpfen. Ein Vektorindex wird nur größer.

Vollständige Portabilität. Ein Ordner mit .md-Dateien funktioniert in Obsidian, VS Code, GitHub, Logseq, vim oder cat. Eine Vektordatenbank ist eine Black Box, die eine bestimmte Laufzeitumgebung zum Lesen erfordert.

Du kannst es selbst lesen. Das klingt offensichtlich, ist aber der größte Vorteil. Manchmal möchtest du wissen, was in deiner Wissensbasis steht. Bei RAG ist das eine Reporting-Abfrage. Bei Markdown ist es ls.

Der ehrliche Kompromiss: RAG gewinnt immer noch, wenn du Millionen von Dokumenten, Multi-Tenant-Zugang oder harte Latenzanforderungen hast (denk an Kundensupport-Chatbots über ein Corpus von Millionen Hilfeartikeln). Für persönliches Wissen — dein Lesen, deine Recherche, deine Domäne — ist das Wiki-Muster jetzt eindeutig besser.

Das fehlende Stück: Ingestion

Karpathys Muster hat eine stille Annahme: dass sauberes Markdown in den raw/-Ordner zu bekommen einfach ist. Für Entwickler, die Obsidian Web Clipper bereits nutzen, stimmt das irgendwie. Für alle anderen ist das der Schritt, an dem der Workflow scheitert.

Web Clipper kann bei paywalled Seiten, JavaScript-lastigen Websites, Videoinhalten, X-Threads und allem Dynamischen Probleme haben. Leute speichern verstümmeltes HTML, geben auf und schlussfolgern: „Das Wiki-Ding ist nichts für mich.”

Die Save-Extension existiert genau dafür, diesen Schritt zu lösen. Sie nutzt Gemini, um saubere Inhalte von beliebigen Seiten zu extrahieren, einschließlich:

Artikel hinter Paywalls, auf die du Zugang hast
YouTube-Videos (vollständiges Transkript + KI-Zusammenfassung)
X/Twitter-Threads
Instagram Reels und TikTok-Untertitel (transkribiert)
Reddit-Diskussionen
Dokumentation mit intakten Code-Blöcken
Dynamische SPAs, an denen traditionelle Clipper scheitern

Ein Klick. Sauberes Markdown auf der anderen Seite. In den Ordner legen.

Das andere fehlende Stück: Das MCP-Setup

Karpathys Muster setzt auch voraus, dass du einen MCP-Server konfigurieren kannst. Für Claude Code-Nutzer ist das ein einzeiliges cd. Für alle, die Claude Desktop verwenden, bedeutet das, eine JSON-Konfigurationsdatei zu bearbeiten und die App neu zu starten — und den Pfad richtig hinzubekommen, und daran zu denken, es erneut zu tun, wenn man die Ordner verschiebt.

Save Vault fasst beide fehlenden Stücke in einer App zusammen:

Die Save-Extension füttert sauberes Markdown automatisch in Save Vault ein
Save Vault schreibt nach ~/Documents/Save Vault/, organisiert in Wissensbasen (Unterordner)
Ein eingebauter MCP-Server stellt list_knowledge_bases, list_files, read_file und search für Claude bereit
Der „Connect to Claude”-Schalter in der Menüleiste verbindet den MCP-Server mit Claude Desktop und Claude Code — ohne JSON-Bearbeitung

Das Ergebnis ist das Karpathy-Muster ohne die rauen Kanten. Seite speichern → landet in deinem Vault → Claude kann Fragen dazu beantworten. Keine Vektordatenbank, kein Chunking, keine Embeddings.

Wie das in der Praxis aussieht

Stell dir vor, du recherchierst einen Wettbewerber.

Tag 1. Du speicherst ihre Preisseite, drei Blogposts und einen Hacker News-Thread über ihre Seed-Runde. Fünf Dateien in deiner Competitors-KB.

Tag 5. Du fragst Claude: „Welche Preisänderungen hat dieses Unternehmen im letzten Jahr vorgenommen, und wie haben Kunden reagiert?” Claude durchsucht deine Competitors-KB, liest die relevanten Dateien, zitiert die Preisseite, bringt die Stimmung aus dem HN-Thread hervor und antwortet — alles mit Quellenangaben.

Tag 30. Du hast 40 Dateien in Competitors, Customers und AI Research. Du bittest Claude, jede KB in ein Wiki zu kompilieren. Es schreibt Konzeptseiten, verknüpft sie, markiert Widersprüche. Du hast jetzt drei lebendige Wikis, die du wie Suchmaschinen abfragen kannst, aber besser — weil sie nur das enthalten, was du kuratiert hast.

Tag 90. Deine Wikis sind umfangreicher als jeder Analysebericht, den du kaufen würdest, aktueller als jedes Beraterdecks und vollständig deins. Jede Aussage ist auf eine Datei zurückzuführen, die du gespeichert hast.

So fühlt sich eine persönliche Wissensbasis an, wenn die Reibung weg ist. RAG sollte das liefern und hat es nicht geschafft. Das Karpathy-Muster tut es — sobald die Ingestion und MCP-Stücke für dich zusammengebaut sind.

Jetzt loslegen

Installiere die Save Chrome-Extension
Installiere Save Vault von savemarkdown.co
Schalte Connect to Claude in der Menüleiste ein
Speichere 10 Dinge, die du schon längst lesen wolltest
Öffne Claude und stelle eine Frage, die sie miteinander verknüpft

Das ist der Post-RAG-Workflow. Er ersetzt bereits Vektordatenbanken für persönliches Wissen. Das Einzige, was noch fehlt, ist damit anzufangen.

Save Vault ist kostenlos. Die Save-Extension ist kostenlos für 3 Speicherungen pro Monat, 3,99 $/Monat unbegrenzt. savemarkdown.co.