AIリサーチのためにarXiv論文をMarkdownに変換する方法

arXiv論文はPDFだ。PDFはAIワークフローに向いていない。検索しにくく、LLMに渡すとトークンを無駄に消費し、ナレッジベース内の他のリサーチ素材と簡単に組み合わせられない。

AIリサーチ --- またはarXivに依存する他のどの分野であっても --- 論文をMarkdownに変換することですべてが変わる。

なぜリサーチ論文にMarkdownを使うのか？

LLMはMarkdownをネイティブに理解する。 ClaudeやChatGPTにPDFを渡すと、フォーマット、ページブレーク、2段組レイアウトに苦労する。Markdownを渡すと完璧に読める --- すべての数式、すべてのコードブロック、すべての参照文献。

トークンが10分の1。 典型的なarXiv論文はPDFで200〜500KBだ。同じコンテンツのMarkdownは10〜30KBだ。つまり、1つのClaudeのコンテキストウィンドウに10倍多くの論文が収まる。

ライブラリ全体で検索可能。 フォルダ内に50本の論文をMarkdownファイルとして置けば、数ミリ秒でgrepを使ってすべての概念を横断検索できる。PDFではそうはいかない。

Obsidianと連携できる。 Obsidian内のMarkdownファイルとしての論文は、リンク付き、タグ付き、検索可能になる。自分のノートをインラインで追加。[[wikilinks]]で論文間のつながりを作れる。

arXiv論文をMarkdownとして保存する方法

方法1：Save拡張機能（推奨）

Saveは、arXivの概要ページ（および多くのHTMLレンダリングされた論文）をクリーンなMarkdownに変換する。

arXivの論文ページを開く（例：arxiv.org/abs/2401.12345）
Save拡張機能のアイコンをクリック
タイトル、著者、アブストラクト、利用可能なコンテンツが含まれるMarkdownファイルが得られる

HTMLバージョンがある論文（arXivではますます一般的になっている）の場合、Saveは数式、図の参照、引用文献を含む完全な論文コンテンツを抽出する。

方法2：arXiv HTML + Save

最近の多くの論文はarXivにHTMLバージョンがある（PDFの隣にある「HTML」リンクを探す）。HTMLバージョンを開いてSaveを使う --- クリーンなMarkdownとして完全な論文が得られる。

方法3：Semantic ScholarまたはPapers With Code

これらのサイトには論文のよりクリーンなHTMLレンダリングがあることが多い。論文ページを開いてSaveを使う。

リサーチナレッジベースを構築する

本当の力は、時間をかけて論文を蓄積することから来る：

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

このフォルダをClaude Codeで開く：

cd research
claude

これで「これらの論文のアテンションメカニズムを比較して」や「スケーリング法則に関する主要な発見は何か？」といった質問ができる。Claudeはすべての論文を読み、実際のリサーチに基づいた回答を合成する。

Karpathyパターン

Andrej Karpathyはこのアプローチを説明した：Markdownファイルのパーソナルwikiを構築し、LLMにそれを横断して調査させる。AIリサーチャーにとって、これは以下を意味する：

重要な論文をすべてMarkdownとして保存する
トピック別に整理する
自分のノートとアノテーションを追加する
ClaudeまたはChatGPTにコレクション全体を扱わせる

数ヶ月後には、自分が読んだすべての論文を知っているパーソナルリサーチアシスタントが完成する。

始めましょう

Saveをインストールして、次に読むarXiv論文から始めよう。時間が経つにつれ、Markdownリサーチライブラリは汎用AIが到底及ばないものに成長していく。

arXiv論文を検索可能でAIが読めるナレッジベースに変える。Saveをインストール --- 無料で始められる。

AIリサーチのためにarXiv論文をMarkdownに変換する方法

なぜリサーチ論文にMarkdownを使うのか？

arXiv論文をMarkdownとして保存する方法

方法1：Save拡張機能（推奨）

方法2：arXiv HTML + Save

方法3：Semantic ScholarまたはPapers With Code

リサーチナレッジベースを構築する

Karpathyパターン

始めましょう

## Continue reading

arXivの論文をMarkdownとして保存する方法

研究論文をクリーンなMarkdownとしてObsidianに保存する方法

MarkdownがAIプロンプトに最適なフォーマットである理由

ClaudeのチャットをMarkdownで保存する方法（Artifacts、引用、Projects対応）

Jean-Sébastien Wallez