Как конвертировать статьи arXiv в Markdown для AI-исследований
Статьи arXiv — это PDF-файлы. PDF ужасны для AI-рабочих процессов. Они плохо ищутся, тратят токены при передаче в LLM и не могут легко объединяться с другими исследовательскими материалами в базе знаний.
Если вы занимаетесь AI-исследованиями — или любой областью, где используется arXiv — конвертация статей в Markdown меняет всё.
Почему Markdown для исследовательских статей?
LLM понимают Markdown нативно. Передайте Claude или ChatGPT PDF, и он будет бороться с форматированием, разрывами страниц и двухколоночными макетами. Передайте Markdown — читается идеально: каждое уравнение, каждый блок кода, каждая ссылка.
В 10 раз меньше токенов. Типичная статья arXiv в PDF занимает 200-500 КБ. То же содержимое в Markdown — 10-30 КБ. Это означает, что в одно контекстное окно Claude помещается в 10 раз больше статей.
Поиск по всей библиотеке. С 50 статьями в Markdown-формате в одной папке вы можете найти любую концепцию во всех них за миллисекунды. Попробуйте это с PDF.
Работает с Obsidian. Статьи как Markdown-файлы в Obsidian становятся связанными, помеченными и доступными для поиска. Добавляйте свои заметки встроенно. Создавайте связи между статьями с помощью [[wikilinks]].
Как сохранить статьи arXiv как Markdown
Метод 1: Расширение Save (рекомендуется)
Save конвертирует страницу аннотации arXiv (и многие статьи в HTML-рендеринге) в чистый Markdown.
- Откройте страницу статьи arXiv (например,
arxiv.org/abs/2401.12345) - Нажмите иконку расширения Save
- Получите Markdown-файл с заголовком, авторами, аннотацией и доступным содержимым
Для статей с HTML-версиями (всё более распространёнными на arXiv) Save извлекает полное содержимое статьи, включая уравнения, ссылки на рисунки и цитирования.
Метод 2: HTML arXiv + Save
У многих последних статей есть HTML-версия на arXiv (ищите ссылку «HTML» рядом с PDF). Откройте HTML-версию и используйте Save — вы получите полную статью как чистый Markdown.
Метод 3: Semantic Scholar или Papers With Code
Эти сайты часто имеют более чистые HTML-рендеринги статей. Откройте страницу статьи и используйте Save.
Создание исследовательской базы знаний
Настоящая сила появляется при накоплении статей со временем:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
Направьте Claude Code на эту папку:
cd research
claude
Теперь вы можете спрашивать: «Сравни механизмы внимания в этих статьях» или «Каковы ключевые выводы о законах масштабирования?» Claude читает все ваши статьи и даёт синтезированные ответы, основанные на реальных исследованиях.
Паттерн Карпати
Андрей Карпати описал этот подход: создайте личную вики из Markdown-файлов, позвольте LLM исследовать по ней. Для AI-исследователей это означает:
- Сохраняйте каждую важную статью как Markdown
- Организуйте по темам
- Добавляйте свои заметки и аннотации
- Позвольте Claude или ChatGPT работать со всей коллекцией
Через несколько месяцев у вас будет личный исследовательский ассистент, который знает каждую статью, которую вы читали.
Начало работы
Установите Save и начните со следующей статьи arXiv, которую читаете. Со временем ваша Markdown-исследовательская библиотека будет накапливаться в нечто, чего никакой универсальный AI не сможет превзойти.
Превратите статьи arXiv в поисковую, доступную для AI базу знаний. Установите Save — бесплатный старт.