Cách Chuyển Đổi Bài Báo arXiv sang Markdown cho Nghiên Cứu AI
Bài báo arXiv là các tệp PDF. PDF rất tệ cho quy trình AI. Chúng không tìm kiếm tốt, chúng lãng phí token khi đưa vào LLM, và chúng không thể dễ dàng kết hợp với các tài liệu nghiên cứu khác trong cơ sở kiến thức.
Nếu bạn đang nghiên cứu AI --- hoặc bất kỳ lĩnh vực nào dựa vào arXiv --- việc chuyển đổi bài báo sang Markdown thay đổi mọi thứ.
Tại Sao Markdown cho Bài Báo Nghiên Cứu?
LLM hiểu Markdown một cách tự nhiên. Đưa cho Claude hoặc ChatGPT một tệp PDF và nó vất vả với định dạng, ngắt trang và bố cục hai cột. Đưa cho nó Markdown và nó đọc hoàn hảo --- mọi phương trình, mọi khối mã, mọi tài liệu tham khảo.
Ít token hơn 10 lần. Một bài báo arXiv điển hình có kích thước 200-500KB dưới dạng PDF. Cùng nội dung trong Markdown chỉ 10-30KB. Điều đó có nghĩa là bạn có thể vừa nhiều bài báo hơn 10 lần trong một cửa sổ ngữ cảnh Claude duy nhất.
Có thể tìm kiếm trong toàn bộ thư viện của bạn. Với 50 bài báo dưới dạng tệp Markdown trong một thư mục, bạn có thể grep cho bất kỳ khái niệm nào qua tất cả chúng trong mili giây. Thử làm điều đó với PDF xem sao.
Hoạt động với Obsidian. Các bài báo dưới dạng tệp Markdown trong Obsidian trở thành liên kết, được gắn thẻ và có thể tìm kiếm. Thêm ghi chú của riêng bạn nội tuyến. Tạo kết nối giữa các bài báo với [[wikilinks]].
Cách Lưu Bài Báo arXiv dưới Dạng Markdown
Phương Pháp 1: Tiện Ích Mở Rộng Save (Được Khuyến Nghị)
Save chuyển đổi trang tóm tắt arXiv (và nhiều bài báo được hiển thị HTML) sang Markdown sạch.
- Mở trang bài báo arXiv (ví dụ:
arxiv.org/abs/2401.12345) - Nhấp vào biểu tượng tiện ích mở rộng Save
- Nhận tệp Markdown với tiêu đề, tác giả, tóm tắt và nội dung có sẵn
Đối với các bài báo có phiên bản HTML (ngày càng phổ biến trên arXiv), Save trích xuất nội dung bài báo đầy đủ bao gồm phương trình, tham chiếu hình và trích dẫn.
Phương Pháp 2: arXiv HTML + Save
Nhiều bài báo gần đây có phiên bản HTML trên arXiv (tìm liên kết “HTML” bên cạnh PDF). Mở phiên bản HTML và sử dụng Save --- bạn sẽ nhận được bài báo đầy đủ dưới dạng Markdown sạch.
Phương Pháp 3: Semantic Scholar hoặc Papers With Code
Các trang web này thường có các bản hiển thị HTML sạch hơn của bài báo. Mở trang bài báo và sử dụng Save.
Xây Dựng Cơ Sở Kiến Thức Nghiên Cứu
Sức mạnh thực sự đến từ việc tích lũy bài báo theo thời gian:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
Trỏ Claude Code vào thư mục này:
cd research
claude
Bây giờ bạn có thể hỏi: “So sánh các cơ chế chú ý trong các bài báo này” hoặc “Những phát hiện chính về định luật mở rộng là gì?” Claude đọc tất cả bài báo của bạn và tổng hợp các câu trả lời dựa trên nghiên cứu thực tế.
Mô Hình Karpathy
Andrej Karpathy đã mô tả cách tiếp cận này: xây dựng wiki cá nhân từ các tệp markdown, để LLM nghiên cứu trên chúng. Đối với các nhà nghiên cứu AI, điều này có nghĩa là:
- Lưu mọi bài báo quan trọng dưới dạng Markdown
- Tổ chức theo chủ đề
- Thêm ghi chú và chú thích của riêng bạn
- Để Claude hoặc ChatGPT làm việc với toàn bộ bộ sưu tập
Sau vài tháng, bạn có trợ lý nghiên cứu cá nhân biết mọi bài báo bạn đã đọc.
Bắt Đầu
Cài đặt Save và bắt đầu với bài báo arXiv tiếp theo bạn đọc. Theo thời gian, thư viện nghiên cứu Markdown của bạn tích lũy thành thứ mà không AI chung nào có thể sánh kịp.
Biến bài báo arXiv thành cơ sở kiến thức có thể tìm kiếm và đọc được bởi AI. Cài đặt Save --- miễn phí để bắt đầu.
## Continue reading
Cách Lưu Bài Báo arXiv Dưới Dạng Markdown
Lưu bài báo nghiên cứu arXiv dưới dạng Markdown sạch. Chuyển đổi abstracts, bài báo HTML, và preprints cho Obsidian, tổng quan tài liệu, và các công cụ nghiên cứu AI.
Cách Lưu Bài Nghiên cứu vào Obsidian dưới dạng Markdown Sạch
Xây dựng quy trình nghiên cứu học thuật trong Obsidian bằng cách cắt trang web. Lưu các bài báo, bài viết blog và tài liệu dưới dạng Markdown có cấu trúc để phục vụ tổng quan tài liệu.
Tại Sao Markdown Là Định Dạng Tốt Nhất Cho Prompt AI
Sử dụng Markdown để có prompt AI tốt hơn. Tìm hiểu tại sao ChatGPT và Claude hoạt động tốt hơn với đầu vào Markdown sạch. Công cụ web-to-Markdown miễn phí.
Cách lưu cuộc trò chuyện Claude dưới dạng Markdown (Artifacts, trích dẫn, Projects)
Chuyển đổi cuộc trò chuyện Claude thành Markdown sạch: mỗi lượt, Artifacts dưới dạng khối mã, trích dẫn được bảo toàn. Hướng dẫn đầy đủ cho nhà nghiên cứu và người dùng AI.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.