Cách Chuyển Đổi Bài Báo arXiv sang Markdown cho Nghiên Cứu AI
Bài báo arXiv là các tệp PDF. PDF rất tệ cho quy trình AI. Chúng không tìm kiếm tốt, chúng lãng phí token khi đưa vào LLM, và chúng không thể dễ dàng kết hợp với các tài liệu nghiên cứu khác trong cơ sở kiến thức.
Nếu bạn đang nghiên cứu AI --- hoặc bất kỳ lĩnh vực nào dựa vào arXiv --- việc chuyển đổi bài báo sang Markdown thay đổi mọi thứ.
Tại Sao Markdown cho Bài Báo Nghiên Cứu?
LLM hiểu Markdown một cách tự nhiên. Đưa cho Claude hoặc ChatGPT một tệp PDF và nó vất vả với định dạng, ngắt trang và bố cục hai cột. Đưa cho nó Markdown và nó đọc hoàn hảo --- mọi phương trình, mọi khối mã, mọi tài liệu tham khảo.
Ít token hơn 10 lần. Một bài báo arXiv điển hình có kích thước 200-500KB dưới dạng PDF. Cùng nội dung trong Markdown chỉ 10-30KB. Điều đó có nghĩa là bạn có thể vừa nhiều bài báo hơn 10 lần trong một cửa sổ ngữ cảnh Claude duy nhất.
Có thể tìm kiếm trong toàn bộ thư viện của bạn. Với 50 bài báo dưới dạng tệp Markdown trong một thư mục, bạn có thể grep cho bất kỳ khái niệm nào qua tất cả chúng trong mili giây. Thử làm điều đó với PDF xem sao.
Hoạt động với Obsidian. Các bài báo dưới dạng tệp Markdown trong Obsidian trở thành liên kết, được gắn thẻ và có thể tìm kiếm. Thêm ghi chú của riêng bạn nội tuyến. Tạo kết nối giữa các bài báo với [[wikilinks]].
Cách Lưu Bài Báo arXiv dưới Dạng Markdown
Phương Pháp 1: Tiện Ích Mở Rộng Save (Được Khuyến Nghị)
Save chuyển đổi trang tóm tắt arXiv (và nhiều bài báo được hiển thị HTML) sang Markdown sạch.
- Mở trang bài báo arXiv (ví dụ:
arxiv.org/abs/2401.12345) - Nhấp vào biểu tượng tiện ích mở rộng Save
- Nhận tệp Markdown với tiêu đề, tác giả, tóm tắt và nội dung có sẵn
Đối với các bài báo có phiên bản HTML (ngày càng phổ biến trên arXiv), Save trích xuất nội dung bài báo đầy đủ bao gồm phương trình, tham chiếu hình và trích dẫn.
Phương Pháp 2: arXiv HTML + Save
Nhiều bài báo gần đây có phiên bản HTML trên arXiv (tìm liên kết “HTML” bên cạnh PDF). Mở phiên bản HTML và sử dụng Save --- bạn sẽ nhận được bài báo đầy đủ dưới dạng Markdown sạch.
Phương Pháp 3: Semantic Scholar hoặc Papers With Code
Các trang web này thường có các bản hiển thị HTML sạch hơn của bài báo. Mở trang bài báo và sử dụng Save.
Xây Dựng Cơ Sở Kiến Thức Nghiên Cứu
Sức mạnh thực sự đến từ việc tích lũy bài báo theo thời gian:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
Trỏ Claude Code vào thư mục này:
cd research
claude
Bây giờ bạn có thể hỏi: “So sánh các cơ chế chú ý trong các bài báo này” hoặc “Những phát hiện chính về định luật mở rộng là gì?” Claude đọc tất cả bài báo của bạn và tổng hợp các câu trả lời dựa trên nghiên cứu thực tế.
Mô Hình Karpathy
Andrej Karpathy đã mô tả cách tiếp cận này: xây dựng wiki cá nhân từ các tệp markdown, để LLM nghiên cứu trên chúng. Đối với các nhà nghiên cứu AI, điều này có nghĩa là:
- Lưu mọi bài báo quan trọng dưới dạng Markdown
- Tổ chức theo chủ đề
- Thêm ghi chú và chú thích của riêng bạn
- Để Claude hoặc ChatGPT làm việc với toàn bộ bộ sưu tập
Sau vài tháng, bạn có trợ lý nghiên cứu cá nhân biết mọi bài báo bạn đã đọc.
Bắt Đầu
Cài đặt Save và bắt đầu với bài báo arXiv tiếp theo bạn đọc. Theo thời gian, thư viện nghiên cứu Markdown của bạn tích lũy thành thứ mà không AI chung nào có thể sánh kịp.
Biến bài báo arXiv thành cơ sở kiến thức có thể tìm kiếm và đọc được bởi AI. Cài đặt Save --- miễn phí để bắt đầu.