学术网页剪藏的难题

研究内容分散在各处：

arXiv、Google Scholar、PubMed、SSRN 上的论文
用通俗语言解释复杂概念的博客文章
工具、框架和数据集的文档
Reddit、Twitter 和 Stack Overflow 上包含实用见解的讨论帖

每个来源的布局不同、噪音不同、格式不同。复制粘贴到 Obsidian 会得到一堆格式混乱、图片丢失、导航元素残留的内容。

干净的研究工作流程

第一步：用 Save 捕获内容

Save 的 AI 提取功能处理了困难的部分——将杂乱的网页转换为干净、结构化的 Markdown：

导航至论文、文章或文档页面
点击 Save 扩展程序
下载 .md 文件

你将获得：

清晰的标题层级，与论文结构匹配
保留的代码块，适用于技术内容
正确格式的列表和表格，遵循标准 Markdown
无广告、无侧边栏、无 Cookie 弹窗

第二步：整理到研究仓库

按研究领域组织你的仓库：

research-vault/
  literature/
    machine-learning/
    distributed-systems/
    human-computer-interaction/
  notes/
    concepts/
    methods/
    findings/
  projects/
    thesis/
    paper-draft/
  meta/
    reading-list.md
    literature-review-matrix.md

第三步：添加研究元数据

保存后，为每个剪藏的来源添加 frontmatter：

---
title: "Attention Is All You Need"
authors: ["Vaswani et al."]
year: 2017
source: "https://arxiv.org/abs/1706.03762"
type: paper
status: read
tags: [transformers, attention, nlp]
rating: 5
---

这些元数据为 Obsidian 的 Dataview 插件提供文献综述查询能力（详见下文）。

第四步：提取关键见解

不要只是保存——要主动处理。为每个来源在顶部创建摘要部分：

## 我的摘要
- 引入了 Transformer 架构，用自注意力机制取代 RNN
- 核心见解：仅靠注意力机制（无需循环结构）即可处理序列到序列任务
- 实现训练过程的大规模并行化
- 所有现代 LLM（BERT、GPT 等）的基础

## 关键引用
- [具体页面/章节引用]

## 与我的研究的关联
- 直接适用于 [你的项目/论文主题]
- 在 [特定观点] 上与 [另一来源] 存在矛盾

建立文献综述

矩阵法

在 Obsidian 中创建文献综述矩阵：

# 文献综述矩阵：Transformer 架构

| 论文 | 年份 | 主要贡献 | 方法 | 发现 | 相关性 |
|------|------|---------|------|------|--------|
| [[literature/attention-is-all-you-need]] | 2017 | 自注意力 | 架构 | 优于 RNN | 基础 |
| [[literature/bert-pre-training]] | 2018 | 双向预训练 | 预训练 | 11项任务SOTA | 方法 |
| [[literature/gpt-scaling-laws]] | 2020 | 缩放规律 | 实验 | 可预测缩放 | 背景 |

每个条目都链接到你仓库中完整的剪藏来源。需要细节时点击进入阅读原文。

Dataview 查询

借助 Dataview 插件，以编程方式查询你的研究：

TABLE authors, year, rating, status
FROM "literature"
WHERE contains(tags, "transformers")
SORT year DESC

这将为你提供一个动态的文献表格，随着你添加新来源自动更新。可按状态、评分、年份或任何元数据字段筛选。

特定来源的技巧

arXiv 论文

arXiv 的 HTML 页面可以很好地用 Save 剪藏。摘要、章节和参考文献都能转换为干净的 Markdown。对于仅有 PDF 的论文，剪藏 arXiv 摘要页面并在 frontmatter 中记录 PDF 链接。

Google Scholar

剪藏论文的落地页获取元数据。跟踪到全文（通常在出版商网站或 arXiv 上）获取完整内容。

技术博客文章

研究者的博客文章通常用通俗语言解释他们的论文。这是宝贵的资源——同时保存论文和解释性博文，然后将它们关联起来：

另见：[[literature/transformers-blog-explained]]（通俗解释版）

文档和教程

技术文档（PyTorch、TensorFlow、scikit-learn）是你会反复查阅的参考资料。保存一次，归档到相关工具下，并从项目笔记中链接过来。

协作工作流程

如果你在一个研究小组中工作：

每个人在自己的仓库中剪藏和处理来源
通过 Git 或共享文件夹分享处理后的摘要（frontmatter + 摘要部分）
将发现合并到共享的文献综述矩阵中

Markdown 格式使共享变得简单——没有专有格式，没有兼容性问题。

长远积累

每周剪藏和处理 5 个来源的博士生，一年后将拥有 250 多篇组织良好、可搜索的笔记。当需要写作时：

文献综述可以从你的矩阵和 Dataview 查询中直接生成
引用易于查找——搜索你的仓库，而不是 Google
论文之间的联系在 Obsidian 的图谱视图中清晰可见
AI Agent 可以通过 MCP 在你整个研究库中进行综合分析

你在干净剪藏和整理上投入的时间，在写作阶段会获得指数级的回报。

开始使用

安装 Save 并创建你的研究仓库
挑选 3 篇你最近阅读的论文或文章
用 Save 剪藏它们，添加 frontmatter，写一份摘要
在相关时将它们相互链接
感受有组织的研究与一堆书签之间的区别