← กลับไปที่บล็อก

วิธีแปลงบทความ arXiv เป็น Markdown สำหรับการวิจัย AI

· Save Team
arxivresearchacademicaimarkdown

บทความ arXiv เป็น PDF PDF นั้นแย่มากสำหรับเวิร์กโฟลว์ AI ค้นหาได้ไม่ดี สิ้นเปลือง tokens เมื่อป้อนให้ LLMs และรวมกับวัสดุการวิจัยอื่นๆ ในฐานความรู้ได้ยาก

ถ้าคุณทำการวิจัย AI — หรือสาขาใดก็ตามที่ต้องพึ่งพา arXiv — การแปลงบทความเป็น Markdown เปลี่ยนแปลงทุกอย่าง

ทำไมต้อง Markdown สำหรับบทความวิจัย?

LLMs เข้าใจ Markdown โดยธรรมชาติ ป้อน PDF ให้ Claude หรือ ChatGPT มันจะต่อสู้กับการจัดรูปแบบ การแบ่งหน้า และเลย์เอาต์สองคอลัมน์ ป้อน Markdown และมันอ่านได้อย่างสมบูรณ์แบบ — ทุกสมการ ทุกบล็อคโค้ด ทุกการอ้างอิง

10 เท่าน้อยกว่า tokens บทความ arXiv ทั่วไปมีขนาด 200-500KB เป็น PDF เนื้อหาเดียวกันใน Markdown คือ 10-30KB นั่นหมายความว่าคุณสามารถใส่บทความ 10 เท่าในหน้าต่างบริบท Claude เดียว

ค้นหาได้ในห้องสมุดทั้งหมด ด้วยบทความ 50 ชิ้นเป็นไฟล์ Markdown ในโฟลเดอร์ คุณสามารถ grep ทุกแนวคิดในทุกชิ้นได้ในมิลลิวินาที ลองทำแบบนั้นกับ PDF

ใช้งานกับ Obsidian ได้ บทความเป็นไฟล์ Markdown ใน Obsidian กลายเป็นการเชื่อมโยง แท็ก และค้นหาได้ เพิ่มบันทึกของคุณเองแบบ inline สร้างการเชื่อมต่อระหว่างบทความด้วย [[wikilinks]]

วิธีบันทึกบทความ arXiv เป็น Markdown

วิธีที่ 1: ส่วนขยาย Save (แนะนำ)

Save แปลงหน้า abstract ของ arXiv (และบทความที่แสดงผล HTML หลายชิ้น) เป็น Markdown ที่สะอาด

  1. เปิดหน้าบทความ arXiv (เช่น arxiv.org/abs/2401.12345)
  2. คลิกไอคอนส่วนขยาย Save
  3. รับไฟล์ Markdown พร้อมชื่อ ผู้เขียน abstract และเนื้อหาที่มีอยู่

สำหรับบทความที่มีเวอร์ชัน HTML (พบมากขึ้นบน arXiv) Save ดึงเนื้อหาบทความเต็มรูปแบบรวมถึงสมการ การอ้างอิงรูปภาพ และการอ้างอิง

วิธีที่ 2: arXiv HTML + Save

บทความล่าสุดหลายชิ้นมีเวอร์ชัน HTML บน arXiv (มองหาลิงก์ “HTML” ถัดจาก PDF) เปิดเวอร์ชัน HTML และใช้ Save — คุณจะได้บทความเต็มรูปแบบเป็น Markdown ที่สะอาด

วิธีที่ 3: Semantic Scholar หรือ Papers With Code

ไซต์เหล่านี้มักมีการแสดงผล HTML ที่สะอาดกว่าของบทความ เปิดหน้าบทความและใช้ Save

การสร้างฐานความรู้การวิจัย

พลังที่แท้จริงมาจากการสะสมบทความตลอดเวลา:

research/
  attention/
    attention-is-all-you-need.md
    flash-attention-v2.md
    multi-head-latent-attention.md
  scaling/
    chinchilla-scaling-laws.md
    scaling-data-constrained.md
  agents/
    toolformer.md
    react-prompting.md
    mcp-protocol.md

ชี้ Claude Code ไปที่โฟลเดอร์นี้:

cd research
claude

ตอนนี้คุณสามารถถาม: “เปรียบเทียบกลไก attention ในบทความเหล่านี้” หรือ “ผลการวิจัยหลักเกี่ยวกับกฎการปรับขนาดคืออะไร?” Claude อ่านบทความทั้งหมดของคุณและสังเคราะห์คำตอบที่มีพื้นฐานจากการวิจัยจริง

รูปแบบ Karpathy

Andrej Karpathy อธิบายแนวทางนี้: สร้าง wiki ส่วนตัวของไฟล์ markdown ให้ LLM ค้นหาข้อมูลในนั้น สำหรับนักวิจัย AI นั่นหมายถึง:

  1. บันทึกทุกบทความสำคัญเป็น Markdown
  2. จัดระเบียบตามหัวข้อ
  3. เพิ่มบันทึกและคำอธิบายของคุณเอง
  4. ให้ Claude หรือ ChatGPT ทำงานกับคอลเล็กชันทั้งหมด

หลังจากสองสามเดือน คุณจะมีผู้ช่วยการวิจัยส่วนตัวที่รู้จักทุกบทความที่คุณอ่าน

เริ่มต้น

ติดตั้ง Save และเริ่มต้นด้วยบทความ arXiv ถัดไปที่คุณอ่าน ตลอดเวลา คลังการวิจัย Markdown ของคุณจะกลายเป็นสิ่งที่ AI ทั่วไปไม่สามารถเทียบได้


เปลี่ยนบทความ arXiv เป็นฐานความรู้ที่ค้นหาได้และ AI อ่านได้ ติดตั้ง Save — เริ่มต้นได้ฟรี