วิธีแปลงบทความ arXiv เป็น Markdown สำหรับการวิจัย AI
บทความ arXiv เป็น PDF PDF นั้นแย่มากสำหรับเวิร์กโฟลว์ AI ค้นหาได้ไม่ดี สิ้นเปลือง tokens เมื่อป้อนให้ LLMs และรวมกับวัสดุการวิจัยอื่นๆ ในฐานความรู้ได้ยาก
ถ้าคุณทำการวิจัย AI — หรือสาขาใดก็ตามที่ต้องพึ่งพา arXiv — การแปลงบทความเป็น Markdown เปลี่ยนแปลงทุกอย่าง
ทำไมต้อง Markdown สำหรับบทความวิจัย?
LLMs เข้าใจ Markdown โดยธรรมชาติ ป้อน PDF ให้ Claude หรือ ChatGPT มันจะต่อสู้กับการจัดรูปแบบ การแบ่งหน้า และเลย์เอาต์สองคอลัมน์ ป้อน Markdown และมันอ่านได้อย่างสมบูรณ์แบบ — ทุกสมการ ทุกบล็อคโค้ด ทุกการอ้างอิง
10 เท่าน้อยกว่า tokens บทความ arXiv ทั่วไปมีขนาด 200-500KB เป็น PDF เนื้อหาเดียวกันใน Markdown คือ 10-30KB นั่นหมายความว่าคุณสามารถใส่บทความ 10 เท่าในหน้าต่างบริบท Claude เดียว
ค้นหาได้ในห้องสมุดทั้งหมด ด้วยบทความ 50 ชิ้นเป็นไฟล์ Markdown ในโฟลเดอร์ คุณสามารถ grep ทุกแนวคิดในทุกชิ้นได้ในมิลลิวินาที ลองทำแบบนั้นกับ PDF
ใช้งานกับ Obsidian ได้ บทความเป็นไฟล์ Markdown ใน Obsidian กลายเป็นการเชื่อมโยง แท็ก และค้นหาได้ เพิ่มบันทึกของคุณเองแบบ inline สร้างการเชื่อมต่อระหว่างบทความด้วย [[wikilinks]]
วิธีบันทึกบทความ arXiv เป็น Markdown
วิธีที่ 1: ส่วนขยาย Save (แนะนำ)
Save แปลงหน้า abstract ของ arXiv (และบทความที่แสดงผล HTML หลายชิ้น) เป็น Markdown ที่สะอาด
- เปิดหน้าบทความ arXiv (เช่น
arxiv.org/abs/2401.12345) - คลิกไอคอนส่วนขยาย Save
- รับไฟล์ Markdown พร้อมชื่อ ผู้เขียน abstract และเนื้อหาที่มีอยู่
สำหรับบทความที่มีเวอร์ชัน HTML (พบมากขึ้นบน arXiv) Save ดึงเนื้อหาบทความเต็มรูปแบบรวมถึงสมการ การอ้างอิงรูปภาพ และการอ้างอิง
วิธีที่ 2: arXiv HTML + Save
บทความล่าสุดหลายชิ้นมีเวอร์ชัน HTML บน arXiv (มองหาลิงก์ “HTML” ถัดจาก PDF) เปิดเวอร์ชัน HTML และใช้ Save — คุณจะได้บทความเต็มรูปแบบเป็น Markdown ที่สะอาด
วิธีที่ 3: Semantic Scholar หรือ Papers With Code
ไซต์เหล่านี้มักมีการแสดงผล HTML ที่สะอาดกว่าของบทความ เปิดหน้าบทความและใช้ Save
การสร้างฐานความรู้การวิจัย
พลังที่แท้จริงมาจากการสะสมบทความตลอดเวลา:
research/
attention/
attention-is-all-you-need.md
flash-attention-v2.md
multi-head-latent-attention.md
scaling/
chinchilla-scaling-laws.md
scaling-data-constrained.md
agents/
toolformer.md
react-prompting.md
mcp-protocol.md
ชี้ Claude Code ไปที่โฟลเดอร์นี้:
cd research
claude
ตอนนี้คุณสามารถถาม: “เปรียบเทียบกลไก attention ในบทความเหล่านี้” หรือ “ผลการวิจัยหลักเกี่ยวกับกฎการปรับขนาดคืออะไร?” Claude อ่านบทความทั้งหมดของคุณและสังเคราะห์คำตอบที่มีพื้นฐานจากการวิจัยจริง
รูปแบบ Karpathy
Andrej Karpathy อธิบายแนวทางนี้: สร้าง wiki ส่วนตัวของไฟล์ markdown ให้ LLM ค้นหาข้อมูลในนั้น สำหรับนักวิจัย AI นั่นหมายถึง:
- บันทึกทุกบทความสำคัญเป็น Markdown
- จัดระเบียบตามหัวข้อ
- เพิ่มบันทึกและคำอธิบายของคุณเอง
- ให้ Claude หรือ ChatGPT ทำงานกับคอลเล็กชันทั้งหมด
หลังจากสองสามเดือน คุณจะมีผู้ช่วยการวิจัยส่วนตัวที่รู้จักทุกบทความที่คุณอ่าน
เริ่มต้น
ติดตั้ง Save และเริ่มต้นด้วยบทความ arXiv ถัดไปที่คุณอ่าน ตลอดเวลา คลังการวิจัย Markdown ของคุณจะกลายเป็นสิ่งที่ AI ทั่วไปไม่สามารถเทียบได้
เปลี่ยนบทความ arXiv เป็นฐานความรู้ที่ค้นหาได้และ AI อ่านได้ ติดตั้ง Save — เริ่มต้นได้ฟรี