Como guardar articulos de investigacion en Obsidian como Markdown limpio
La investigacion academica implica leer docenas --- a veces cientos --- de papers, articulos y posts de blog. La mayoria de los investigadores los marcan como favoritos, los pierden y buscan lo mismo en Google dos veces.
Obsidian soluciona el problema del almacenamiento. Pero meter contenido web dentro de Obsidian de forma limpia? Ahi es donde la mayoria de los flujos de trabajo fallan.
Asi es como construir un pipeline de investigacion que convierte fuentes web en una base de conocimiento buscable y conectada.
El problema con el web clipping academico
El contenido de investigacion vive en todas partes:
- Papers en arXiv, Google Scholar, PubMed, SSRN
- Posts de blog que explican conceptos complejos en lenguaje accesible
- Documentacion de herramientas, frameworks y datasets
- Hilos en Reddit, Twitter y Stack Overflow con ideas practicas
Cada fuente tiene un diseno diferente, distinto ruido y diferente formato. Copiar y pegar en Obsidian te da un desastre de formato roto, imagenes faltantes y restos de navegacion.
El flujo de investigacion limpio
Paso 1: Captura con Save
La extraccion con IA de Save se encarga de la parte dificil --- convertir paginas web desordenadas en Markdown limpio y estructurado:
- Navega a la pagina del paper, articulo o documentacion
- Haz clic en la extension Save
- Descarga el archivo
.md
Lo que obtienes:
- Jerarquia de encabezados limpia que coincide con la estructura del paper
- Bloques de codigo preservados para contenido tecnico
- Listas y tablas correctas formateadas en Markdown estandar
- Sin anuncios, barras laterales ni banners de cookies
Paso 2: Archiva en tu vault de investigacion
Organiza tu vault por area de investigacion:
research-vault/
literature/
machine-learning/
distributed-systems/
human-computer-interaction/
notes/
concepts/
methods/
findings/
projects/
thesis/
paper-draft/
meta/
reading-list.md
literature-review-matrix.md
Paso 3: Agrega metadatos de investigacion
Despues de guardar, agrega frontmatter a cada fuente recortada:
---
title: "Attention Is All You Need"
authors: ["Vaswani et al."]
year: 2017
source: "https://arxiv.org/abs/1706.03762"
type: paper
status: read
tags: [transformers, attention, nlp]
rating: 5
---
Estos metadatos alimentan el plugin Dataview de Obsidian para consultas de revision de literatura (mas sobre esto abajo).
Paso 4: Extrae las ideas clave
No solo guardes --- procesa. Para cada fuente, crea una seccion de resumen en la parte superior:
## Mi resumen
- Introduce la arquitectura Transformer, reemplazando las RNNs con self-attention
- Idea clave: los mecanismos de atencion solos (sin recurrencia) pueden manejar
tareas de secuencia a secuencia
- Permite paralelizacion masiva durante el entrenamiento
- Base de BERT, GPT y todos los LLMs modernos
## Citas clave
- [referencias a paginas/secciones especificas]
## Relevancia para mi trabajo
- Directamente aplicable a [tu proyecto/tema de tesis]
- Contradice a [otra fuente] en [punto especifico]
Construyendo una revision de literatura
El metodo de matriz
Crea una matriz de revision de literatura en Obsidian:
# Matriz de revision de literatura: Arquitecturas Transformer
| Paper | Ano | Contribucion clave | Metodo | Hallazgos | Relevancia |
|-------|-----|-------------------|--------|-----------|-----------|
| [[literature/attention-is-all-you-need]] | 2017 | Self-attention | Arquitectura | Supera a RNNs | Base |
| [[literature/bert-pre-training]] | 2018 | Pre-entrenamiento bidireccional | Pre-training | SOTA en 11 tareas | Metodo |
| [[literature/gpt-scaling-laws]] | 2020 | Leyes de escala | Empirico | Escalado predecible | Contexto |
Cada entrada enlaza a la fuente completa recortada en tu vault. Haz clic para leer el original cuando necesites detalle.
Consultas con Dataview
Con el plugin Dataview, consulta tu investigacion programaticamente:
TABLE authors, year, rating, status
FROM "literature"
WHERE contains(tags, "transformers")
SORT year DESC
Esto te da una tabla de literatura dinamica que se actualiza conforme agregas nuevas fuentes. Filtra por estado, valoracion, ano o cualquier campo de metadatos.
Consejos por tipo de fuente
Papers de arXiv
Las paginas HTML de arXiv se recortan bien con Save. El abstract, secciones y referencias se convierten a Markdown limpio. Para papers que solo estan en PDF, recorta la pagina del abstract de arXiv y anota el enlace al PDF en el frontmatter.
Google Scholar
Recorta la pagina de aterrizaje del paper para los metadatos. Sigue al texto completo (normalmente en el sitio del editor o arXiv) para el contenido completo.
Posts de blog tecnicos
Los posts de blog de investigadores a menudo explican sus papers en un lenguaje accesible. Estos son oro --- guarda tanto el paper como el post explicativo, luego enlazalos:
Ver tambien: [[literature/transformers-blog-explained]] (explicacion accesible)
Documentacion y tutoriales
La documentacion tecnica (PyTorch, TensorFlow, scikit-learn) es material de referencia al que volveras repetidamente. Guardala una vez, archivala bajo la herramienta correspondiente y enlazala desde tus notas de proyecto.
Flujo de trabajo colaborativo
Si trabajas con un grupo de investigacion:
- Cada persona recorta y procesa fuentes en su propio vault
- Comparte los resumenes procesados (el frontmatter + seccion de resumen) via Git o carpeta compartida
- Fusiona los hallazgos en una matriz de revision de literatura compartida
El formato Markdown hace que compartir sea trivial --- sin formatos propietarios, sin problemas de compatibilidad.
La vision a largo plazo
Un estudiante de doctorado que recorta y procesa 5 fuentes por semana tiene mas de 250 notas bien organizadas y buscables despues de un ano. Cuando llega el momento de escribir:
- Las revisiones de literatura se escriben solas a partir de tu matriz y consultas Dataview
- Las citas son faciles de encontrar --- busca en tu vault, no en Google
- Las conexiones entre papers son visibles en la vista de grafo de Obsidian
- Los agentes de IA pueden sintetizar a traves de toda tu base de investigacion via MCP
El tiempo que inviertes en recorte limpio y organizacion se paga exponencialmente durante la escritura.
Primeros pasos
- Instala Save y crea tu vault de investigacion
- Elige 3 papers o articulos que hayas leido recientemente
- Recortalos con Save, agrega frontmatter, escribe un resumen
- Enlazalos entre si donde sea relevante
- Siente la diferencia entre investigacion organizada y una pila de marcadores