Optimizer Agent documentation review

Vision & Image Paste

Side #119 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/features/vision

Vision & Image Paste

Finding

Denne side er vigtig, fordi Hermes kan modtage og forstå billeder direkte, uden at Lisa skal bygge separat billed-upload-logik i n8n eller LangGraph.

What it is

Vision & Image Paste beskriver, hvordan Hermes kan vedhæfte billeder fra clipboard, filer, URLs eller gateway-platforme og sende dem til en vision-capable model. Hvis den aktive model ikke understøtter vision, kan Hermes automatisk bruge et auxiliary vision-flow til at lave en tekstbeskrivelse. Siden forklarer også begrænsninger ved SSH, terminaler og forskellige platforme.

Should we use it?

Use now. Det passer godt til Lisa’s Hermes+n8n+LangGraph mission, fordi billedforståelse bør ligge i Hermes’ native agentlag, ikke som særskilt n8n- eller LangGraph-logik. Brug det til screenshots, UI-fejl, arkitekturdiagrammer, n8n-flowbilleder og visuel dokumentation. LangGraph bør kun involveres, hvis billedanalysen indgår i et længere stateful multi-agent workflow.

Recommendation

Gør Hermes Vision til standardvejen for billedanalyse, og brug n8n kun til transport eller notifikation, hvis billedet kommer fra et eksternt system.

Use now

Screenshots af fejl, dashboards, n8n-flows eller LangGraph-diagrammer.
Hurtig analyse af UI, wireframes, dokumentbilleder og offentlige diagrammer.
Telegram-baserede billedinputs, hvor Lisa sender et billede direkte til Hermes.
Review af visuelle artifacts før de publiceres på Hermes Agent Info.

Do not use / wait

Brug ikke clipboard image paste over SSH som primær arbejdsgang; upload filen eller brug gateway i stedet.
Brug ikke n8n til at bygge parallel billedanalyse, hvis Hermes’ native vision-flow dækker behovet.
Vent med avanceret automatisering omkring billeder, indtil der er et konkret gentaget workflow.
Send ikke private screenshots, secrets, tokens, interne logs eller følsomme kundedata ind i public-facing workflows.

Public page note

Hermes Vision kan beskrives offentligt som en native måde at analysere screenshots og billeder på, med automatisk routing mellem vision-modeller og tekst-only modeller.

Vision & Image Paste