← 블로그로 돌아가기

AI 연구를 위해 arXiv 논문을 Markdown으로 변환하는 방법

· Save Team
arxivresearchacademicaimarkdown

arXiv 논문은 PDF입니다. PDF는 AI 워크플로우에 끔찍합니다. 잘 검색되지 않고, LLM에 제공할 때 토큰을 낭비하며, 지식 베이스에서 다른 연구 자료와 쉽게 결합할 수 없습니다.

AI 연구를 하거나 --- arXiv에 의존하는 어떤 분야에서든 --- 논문을 Markdown으로 변환하면 모든 것이 달라집니다.

연구 논문에 Markdown이 좋은 이유?

LLM은 Markdown을 기본으로 이해합니다. Claude나 ChatGPT에 PDF를 주면 서식, 페이지 구분, 두 열 레이아웃으로 어려움을 겪습니다. Markdown을 주면 완벽하게 읽습니다 --- 모든 방정식, 모든 코드 블록, 모든 참조.

10배 더 적은 토큰. 일반적인 arXiv 논문은 PDF로 200-500KB입니다. 같은 내용이 Markdown으로는 10-30KB입니다. 즉, 단일 Claude 컨텍스트 창에 10배 더 많은 논문을 넣을 수 있습니다.

전체 라이브러리에서 검색 가능. 폴더에 Markdown 파일로 50개의 논문이 있으면, 수 밀리초 만에 모든 논문에서 어떤 개념이든 grep으로 검색할 수 있습니다. PDF로는 시도해보세요.

Obsidian과 작동합니다. Obsidian에서 Markdown 파일로 된 논문은 연결되고, 태그되고, 검색 가능해집니다. 인라인으로 자신의 메모 추가. [[wikilinks]]로 논문 간 연결 생성.

arXiv 논문을 Markdown으로 저장하는 방법

방법 1: Save 확장 프로그램 (권장)

Save는 arXiv 초록 페이지(그리고 많은 HTML 렌더링 논문)를 깨끗한 Markdown으로 변환합니다.

  1. arXiv 논문 페이지 열기 (예: arxiv.org/abs/2401.12345)
  2. Save 확장 프로그램 아이콘 클릭
  3. 제목, 저자, 초록, 사용 가능한 콘텐츠가 있는 Markdown 파일 획득

HTML 버전이 있는 논문(arXiv에서 점점 더 일반화됨)의 경우, Save는 방정식, 그림 참조, 인용을 포함한 전체 논문 콘텐츠를 추출합니다.

방법 2: arXiv HTML + Save

많은 최근 논문에는 arXiv에 HTML 버전이 있습니다 (PDF 옆에 “HTML” 링크 찾기). HTML 버전을 열고 Save 사용 --- 전체 논문을 깨끗한 Markdown으로 얻을 수 있습니다.

방법 3: Semantic Scholar 또는 Papers With Code

이 사이트들은 종종 더 깔끔한 HTML 렌더링의 논문을 가지고 있습니다. 논문 페이지를 열고 Save를 사용하세요.

연구 지식 베이스 구축

진정한 힘은 시간이 지남에 따라 논문을 축적하는 데서 옵니다:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

Claude Code를 이 폴더로 지정:

cd research
claude

이제 “이 논문들의 어텐션 메커니즘을 비교해줘” 또는 “스케일링 법칙에 대한 핵심 발견은 무엇인가요?”라고 물을 수 있습니다. Claude가 모든 논문을 읽고 실제 연구에 기반한 답을 종합합니다.

Karpathy 패턴

Andrej Karpathy가 이 접근 방식을 설명했습니다: markdown 파일로 개인 위키를 만들고, LLM이 그 전체를 연구하게 합니다. AI 연구자에게 이는:

  1. 모든 중요한 논문을 Markdown으로 저장
  2. 주제별로 정리
  3. 자신의 메모와 주석 추가
  4. Claude 또는 ChatGPT가 전체 컬렉션과 작업하게 함

몇 달 후, 당신이 읽은 모든 논문을 아는 개인 연구 보조자가 생깁니다.

시작하기

Save 설치 후 읽는 다음 arXiv 논문부터 시작하세요. 시간이 지남에 따라 Markdown 연구 라이브러리가 어떤 일반 AI도 따라올 수 없는 것으로 성장합니다.


arXiv 논문을 검색 가능하고 AI가 읽을 수 있는 지식 베이스로 변환하세요. Save 설치 --- 무료로 시작.