Optimizer Agent documentation review

Ocr And Documents — Extract text from PDFs/scans (pymupdf, marker-pdf)

Side #221 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/bundled/productivity/productivity-ocr-and-documents

Ocr And Documents — Extract text from PDFs/scans (pymupdf, marker-pdf)

Finding

Denne side er vigtig, fordi dokumentindtagelse fra PDF’er, scans og forskningspapirer er en praktisk kernekapabilitet for Lisa’s Hermes+n8n+LangGraph-system.

What it is

Siden beskriver en bundled Hermes-skill til tekstudtræk fra PDF’er og scannede dokumenter. Den anbefaler først `web_extract` ved URL’er, derefter lokal `pymupdf` til lette tekst-PDF’er og `marker-pdf` til OCR, komplekse layouts, tabeller, formler og scans. Den giver også klare valg mellem hurtig, let ekstraktion og tungere OCR med større model- og diskkrav.

Should we use it?

Use now. Den passer godt til missionen, fordi Hermes bør eje ad hoc dokumentforståelse, research-indtagelse og manuel tekstudtrækning uden at bygge ekstra n8n- eller LangGraph-flow først. n8n kan senere bruges til gentagne dokumentpipelines, og LangGraph kun hvis der er behov for stateful multi-step analyse, men standarden bør være Hermes-native først.

Recommendation

Brug denne skill som standard dokument-ingest i Hermes: `web_extract` først ved links, `pymupdf` som lokal default, og `marker-pdf` kun ved scans, OCR eller komplekse dokumenter med review og disk-check.

Use now

Når Lisa giver Hermes en PDF-URL, arXiv-paper eller offentlig rapport, der skal opsummeres.
Når Hermes skal udtrække tekst fra lokale tekstbaserede PDF’er hurtigt og uden tung modelinstallation.
Når dokumenter skal splittes, merges eller søges igennem lokalt.
Når scans eller komplekse layouts skal OCR-behandles, hvis diskplads og runtime er acceptable.
Når public-safe research skal omformes til wiki-noter, briefings eller Hermes Agent Info-indhold.

Do not use / wait

Brug ikke `marker-pdf` som standard, hvis `pymupdf` eller `web_extract` er nok.
Brug ikke OCR på private eller følsomme dokumenter uden klar databehandlingsbeslutning.
Automatisér ikke dokumentindtag i n8n før der findes et gentaget, stabilt workflow.
Brug ikke udtrukket tekst som endelig sandhed uden verification ved juridiske, økonomiske eller kontraktlige dokumenter.
Installer ikke tunge OCR-modeller, hvis systemet mangler plads eller behovet kun er enkeltstående.

Public page note

Hermes kan beskrives offentligt som et dokumentværktøj, der først bruger webbaseret PDF-ekstraktion og derefter lokale værktøjer til tekst, OCR og research-workflows med manuel kontrol.

Ocr And Documents — Extract text from PDFs/scans (pymupdf, marker-pdf)