← ブログに戻る

AIリサーチのためにarXiv論文をMarkdownに変換する方法

· Save Team
arxivresearchacademicaimarkdown

arXiv論文はPDFだ。PDFはAIワークフローに向いていない。検索しにくく、LLMに渡すとトークンを無駄に消費し、ナレッジベース内の他のリサーチ素材と簡単に組み合わせられない。

AIリサーチ --- またはarXivに依存する他のどの分野であっても --- 論文をMarkdownに変換することですべてが変わる。

なぜリサーチ論文にMarkdownを使うのか?

LLMはMarkdownをネイティブに理解する。 ClaudeやChatGPTにPDFを渡すと、フォーマット、ページブレーク、2段組レイアウトに苦労する。Markdownを渡すと完璧に読める --- すべての数式、すべてのコードブロック、すべての参照文献。

トークンが10分の1。 典型的なarXiv論文はPDFで200〜500KBだ。同じコンテンツのMarkdownは10〜30KBだ。つまり、1つのClaudeのコンテキストウィンドウに10倍多くの論文が収まる。

ライブラリ全体で検索可能。 フォルダ内に50本の論文をMarkdownファイルとして置けば、数ミリ秒でgrepを使ってすべての概念を横断検索できる。PDFではそうはいかない。

Obsidianと連携できる。 Obsidian内のMarkdownファイルとしての論文は、リンク付き、タグ付き、検索可能になる。自分のノートをインラインで追加。[[wikilinks]]で論文間のつながりを作れる。

arXiv論文をMarkdownとして保存する方法

方法1:Save拡張機能(推奨)

Saveは、arXivの概要ページ(および多くのHTMLレンダリングされた論文)をクリーンなMarkdownに変換する。

  1. arXivの論文ページを開く(例:arxiv.org/abs/2401.12345
  2. Save拡張機能のアイコンをクリック
  3. タイトル、著者、アブストラクト、利用可能なコンテンツが含まれるMarkdownファイルが得られる

HTMLバージョンがある論文(arXivではますます一般的になっている)の場合、Saveは数式、図の参照、引用文献を含む完全な論文コンテンツを抽出する。

方法2:arXiv HTML + Save

最近の多くの論文はarXivにHTMLバージョンがある(PDFの隣にある「HTML」リンクを探す)。HTMLバージョンを開いてSaveを使う --- クリーンなMarkdownとして完全な論文が得られる。

方法3:Semantic ScholarまたはPapers With Code

これらのサイトには論文のよりクリーンなHTMLレンダリングがあることが多い。論文ページを開いてSaveを使う。

リサーチナレッジベースを構築する

本当の力は、時間をかけて論文を蓄積することから来る:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

このフォルダをClaude Codeで開く:

cd research
claude

これで「これらの論文のアテンションメカニズムを比較して」や「スケーリング法則に関する主要な発見は何か?」といった質問ができる。Claudeはすべての論文を読み、実際のリサーチに基づいた回答を合成する。

Karpathyパターン

Andrej Karpathyはこのアプローチを説明した:Markdownファイルのパーソナルwikiを構築し、LLMにそれを横断して調査させる。AIリサーチャーにとって、これは以下を意味する:

  1. 重要な論文をすべてMarkdownとして保存する
  2. トピック別に整理する
  3. 自分のノートとアノテーションを追加する
  4. ClaudeまたはChatGPTにコレクション全体を扱わせる

数ヶ月後には、自分が読んだすべての論文を知っているパーソナルリサーチアシスタントが完成する。

始めましょう

Saveをインストールして、次に読むarXiv論文から始めよう。時間が経つにつれ、Markdownリサーチライブラリは汎用AIが到底及ばないものに成長していく。


arXiv論文を検索可能でAIが読めるナレッジベースに変える。Saveをインストール --- 無料で始められる。