AIリサーチのためにarXiv論文をMarkdownに変換する方法
arXiv論文はPDFだ。PDFはAIワークフローに向いていない。検索しにくく、LLMに渡すとトークンを無駄に消費し、ナレッジベース内の他のリサーチ素材と簡単に組み合わせられない。
AIリサーチ --- またはarXivに依存する他のどの分野であっても --- 論文をMarkdownに変換することですべてが変わる。
なぜリサーチ論文にMarkdownを使うのか?
LLMはMarkdownをネイティブに理解する。 ClaudeやChatGPTにPDFを渡すと、フォーマット、ページブレーク、2段組レイアウトに苦労する。Markdownを渡すと完璧に読める --- すべての数式、すべてのコードブロック、すべての参照文献。
トークンが10分の1。 典型的なarXiv論文はPDFで200〜500KBだ。同じコンテンツのMarkdownは10〜30KBだ。つまり、1つのClaudeのコンテキストウィンドウに10倍多くの論文が収まる。
ライブラリ全体で検索可能。 フォルダ内に50本の論文をMarkdownファイルとして置けば、数ミリ秒でgrepを使ってすべての概念を横断検索できる。PDFではそうはいかない。
Obsidianと連携できる。 Obsidian内のMarkdownファイルとしての論文は、リンク付き、タグ付き、検索可能になる。自分のノートをインラインで追加。[[wikilinks]]で論文間のつながりを作れる。
arXiv論文をMarkdownとして保存する方法
方法1:Save拡張機能(推奨)
Saveは、arXivの概要ページ(および多くのHTMLレンダリングされた論文)をクリーンなMarkdownに変換する。
- arXivの論文ページを開く(例:
arxiv.org/abs/2401.12345) - Save拡張機能のアイコンをクリック
- タイトル、著者、アブストラクト、利用可能なコンテンツが含まれるMarkdownファイルが得られる
HTMLバージョンがある論文(arXivではますます一般的になっている)の場合、Saveは数式、図の参照、引用文献を含む完全な論文コンテンツを抽出する。
方法2:arXiv HTML + Save
最近の多くの論文はarXivにHTMLバージョンがある(PDFの隣にある「HTML」リンクを探す)。HTMLバージョンを開いてSaveを使う --- クリーンなMarkdownとして完全な論文が得られる。
方法3:Semantic ScholarまたはPapers With Code
これらのサイトには論文のよりクリーンなHTMLレンダリングがあることが多い。論文ページを開いてSaveを使う。
リサーチナレッジベースを構築する
本当の力は、時間をかけて論文を蓄積することから来る:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
このフォルダをClaude Codeで開く:
cd research
claude
これで「これらの論文のアテンションメカニズムを比較して」や「スケーリング法則に関する主要な発見は何か?」といった質問ができる。Claudeはすべての論文を読み、実際のリサーチに基づいた回答を合成する。
Karpathyパターン
Andrej Karpathyはこのアプローチを説明した:Markdownファイルのパーソナルwikiを構築し、LLMにそれを横断して調査させる。AIリサーチャーにとって、これは以下を意味する:
- 重要な論文をすべてMarkdownとして保存する
- トピック別に整理する
- 自分のノートとアノテーションを追加する
- ClaudeまたはChatGPTにコレクション全体を扱わせる
数ヶ月後には、自分が読んだすべての論文を知っているパーソナルリサーチアシスタントが完成する。
始めましょう
Saveをインストールして、次に読むarXiv論文から始めよう。時間が経つにつれ、Markdownリサーチライブラリは汎用AIが到底及ばないものに成長していく。
arXiv論文を検索可能でAIが読めるナレッジベースに変える。Saveをインストール --- 無料で始められる。