Ocr And Documents — Extract text from PDFs/scans (pymupdf, marker-pdf)
Ocr And Documents — Extract text from PDFs/scans (pymupdf, marker-pdf)
Finding
Denne side er vigtig, fordi dokumentindtagelse fra PDF’er, scans og forskningspapirer er en praktisk kernekapabilitet for Lisa’s Hermes+n8n+LangGraph-system.
What it is
Siden beskriver en bundled Hermes-skill til tekstudtræk fra PDF’er og scannede dokumenter. Den anbefaler først `web_extract` ved URL’er, derefter lokal `pymupdf` til lette tekst-PDF’er og `marker-pdf` til OCR, komplekse layouts, tabeller, formler og scans. Den giver også klare valg mellem hurtig, let ekstraktion og tungere OCR med større model- og diskkrav.
Should we use it?
Use now. Den passer godt til missionen, fordi Hermes bør eje ad hoc dokumentforståelse, research-indtagelse og manuel tekstudtrækning uden at bygge ekstra n8n- eller LangGraph-flow først. n8n kan senere bruges til gentagne dokumentpipelines, og LangGraph kun hvis der er behov for stateful multi-step analyse, men standarden bør være Hermes-native først.
Recommendation
Brug denne skill som standard dokument-ingest i Hermes: `web_extract` først ved links, `pymupdf` som lokal default, og `marker-pdf` kun ved scans, OCR eller komplekse dokumenter med review og disk-check.
Use now
- Når Lisa giver Hermes en PDF-URL, arXiv-paper eller offentlig rapport, der skal opsummeres.
- Når Hermes skal udtrække tekst fra lokale tekstbaserede PDF’er hurtigt og uden tung modelinstallation.
- Når dokumenter skal splittes, merges eller søges igennem lokalt.
- Når scans eller komplekse layouts skal OCR-behandles, hvis diskplads og runtime er acceptable.
- Når public-safe research skal omformes til wiki-noter, briefings eller Hermes Agent Info-indhold.
Do not use / wait
- Brug ikke `marker-pdf` som standard, hvis `pymupdf` eller `web_extract` er nok.
- Brug ikke OCR på private eller følsomme dokumenter uden klar databehandlingsbeslutning.
- Automatisér ikke dokumentindtag i n8n før der findes et gentaget, stabilt workflow.
- Brug ikke udtrukket tekst som endelig sandhed uden verification ved juridiske, økonomiske eller kontraktlige dokumenter.
- Installer ikke tunge OCR-modeller, hvis systemet mangler plads eller behovet kun er enkeltstående.
Public page note
Hermes kan beskrives offentligt som et dokumentværktøj, der først bruger webbaseret PDF-ekstraktion og derefter lokale værktøjer til tekst, OCR og research-workflows med manuel kontrol.