← Назад к блогу

Как конвертировать статьи arXiv в Markdown для AI-исследований

· Save Team
arxivresearchacademicaimarkdown

Статьи arXiv — это PDF-файлы. PDF ужасны для AI-рабочих процессов. Они плохо ищутся, тратят токены при передаче в LLM и не могут легко объединяться с другими исследовательскими материалами в базе знаний.

Если вы занимаетесь AI-исследованиями — или любой областью, где используется arXiv — конвертация статей в Markdown меняет всё.

Почему Markdown для исследовательских статей?

LLM понимают Markdown нативно. Передайте Claude или ChatGPT PDF, и он будет бороться с форматированием, разрывами страниц и двухколоночными макетами. Передайте Markdown — читается идеально: каждое уравнение, каждый блок кода, каждая ссылка.

В 10 раз меньше токенов. Типичная статья arXiv в PDF занимает 200-500 КБ. То же содержимое в Markdown — 10-30 КБ. Это означает, что в одно контекстное окно Claude помещается в 10 раз больше статей.

Поиск по всей библиотеке. С 50 статьями в Markdown-формате в одной папке вы можете найти любую концепцию во всех них за миллисекунды. Попробуйте это с PDF.

Работает с Obsidian. Статьи как Markdown-файлы в Obsidian становятся связанными, помеченными и доступными для поиска. Добавляйте свои заметки встроенно. Создавайте связи между статьями с помощью [[wikilinks]].

Как сохранить статьи arXiv как Markdown

Метод 1: Расширение Save (рекомендуется)

Save конвертирует страницу аннотации arXiv (и многие статьи в HTML-рендеринге) в чистый Markdown.

  1. Откройте страницу статьи arXiv (например, arxiv.org/abs/2401.12345)
  2. Нажмите иконку расширения Save
  3. Получите Markdown-файл с заголовком, авторами, аннотацией и доступным содержимым

Для статей с HTML-версиями (всё более распространёнными на arXiv) Save извлекает полное содержимое статьи, включая уравнения, ссылки на рисунки и цитирования.

Метод 2: HTML arXiv + Save

У многих последних статей есть HTML-версия на arXiv (ищите ссылку «HTML» рядом с PDF). Откройте HTML-версию и используйте Save — вы получите полную статью как чистый Markdown.

Метод 3: Semantic Scholar или Papers With Code

Эти сайты часто имеют более чистые HTML-рендеринги статей. Откройте страницу статьи и используйте Save.

Создание исследовательской базы знаний

Настоящая сила появляется при накоплении статей со временем:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

Направьте Claude Code на эту папку:

cd research
claude

Теперь вы можете спрашивать: «Сравни механизмы внимания в этих статьях» или «Каковы ключевые выводы о законах масштабирования?» Claude читает все ваши статьи и даёт синтезированные ответы, основанные на реальных исследованиях.

Паттерн Карпати

Андрей Карпати описал этот подход: создайте личную вики из Markdown-файлов, позвольте LLM исследовать по ней. Для AI-исследователей это означает:

  1. Сохраняйте каждую важную статью как Markdown
  2. Организуйте по темам
  3. Добавляйте свои заметки и аннотации
  4. Позвольте Claude или ChatGPT работать со всей коллекцией

Через несколько месяцев у вас будет личный исследовательский ассистент, который знает каждую статью, которую вы читали.

Начало работы

Установите Save и начните со следующей статьи arXiv, которую читаете. Со временем ваша Markdown-исследовательская библиотека будет накапливаться в нечто, чего никакой универсальный AI не сможет превзойти.


Превратите статьи arXiv в поисковую, доступную для AI базу знаний. Установите Save — бесплатный старт.