Como Converter Artigos do arXiv para Markdown para Pesquisa com IA
Artigos do arXiv são PDFs. PDFs são terríveis para fluxos de trabalho de IA. Não pesquisam bem, desperdiçam tokens quando fornecidos a LLMs e não podem ser facilmente combinados com outros materiais de pesquisa em uma base de conhecimento.
Se você faz pesquisa em IA --- ou em qualquer área que depende do arXiv --- converter artigos para Markdown muda tudo.
Por Que Markdown para Artigos de Pesquisa?
LLMs entendem Markdown nativamente. Dê ao Claude ou ChatGPT um PDF e ele luta com formatação, quebras de página e layouts de duas colunas. Dê Markdown e ele lê perfeitamente --- cada equação, cada bloco de código, cada referência.
10x menos tokens. Um artigo típico do arXiv tem 200-500KB como PDF. O mesmo conteúdo em Markdown tem 10-30KB. Isso significa que você pode colocar 10x mais artigos em uma única janela de contexto do Claude.
Pesquisável em toda a sua biblioteca. Com 50 artigos como arquivos Markdown em uma pasta, você pode fazer grep de qualquer conceito em todos eles em milissegundos. Tente isso com PDFs.
Funciona com Obsidian. Artigos como arquivos Markdown no Obsidian ficam vinculados, marcados e pesquisáveis. Adicione suas próprias notas inline. Crie conexões entre artigos com [[wikilinks]].
Como Salvar Artigos do arXiv como Markdown
Método 1: Extensão Save (Recomendado)
O Save converte a página de abstract do arXiv (e muitos artigos renderizados em HTML) para Markdown limpo.
- Abra a página do artigo no arXiv (ex:
arxiv.org/abs/2401.12345) - Clique no ícone da extensão Save
- Obtenha um arquivo Markdown com o título, autores, abstract e conteúdo disponível
Para artigos com versões HTML (cada vez mais comuns no arXiv), o Save extrai o conteúdo completo do artigo, incluindo equações, referências de figuras e citações.
Método 2: arXiv HTML + Save
Muitos artigos recentes têm uma versão HTML no arXiv (procure o link “HTML” ao lado do PDF). Abra a versão HTML e use o Save --- você obterá o artigo completo como Markdown limpo.
Método 3: Semantic Scholar ou Papers With Code
Esses sites frequentemente têm renderizações HTML mais limpas dos artigos. Abra a página do artigo e use o Save.
Construindo uma Base de Conhecimento de Pesquisa
O verdadeiro poder vem do acúmulo de artigos ao longo do tempo:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
Aponte o Claude Code para esta pasta:
cd research
claude
Agora você pode perguntar: “Compare os mecanismos de atenção nesses artigos” ou “Quais são as principais descobertas sobre leis de escalonamento?” O Claude lê todos os seus artigos e sintetiza respostas fundamentadas em pesquisa real.
O Padrão Karpathy
Andrej Karpathy descreveu essa abordagem: construa um wiki pessoal de arquivos markdown, deixe um LLM pesquisar por todos eles. Para pesquisadores de IA, isso significa:
- Salvar cada artigo importante como Markdown
- Organizar por tópico
- Adicionar suas próprias notas e anotações
- Deixar Claude ou ChatGPT trabalhar com a coleção completa
Depois de alguns meses, você tem um assistente de pesquisa pessoal que conhece cada artigo que você leu.
Comece Agora
Instale o Save e comece com o próximo artigo do arXiv que você ler. Com o tempo, sua biblioteca de pesquisa em Markdown se multiplica em algo que nenhuma IA genérica pode igualar.
Transforme artigos do arXiv em uma base de conhecimento pesquisável e legível por IA. Instale o Save --- gratuito para começar.