Hermes Agent Info
Optimizer Agent documentation review

Llava — Large Language and Vision Assistant

Side #286 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/optional/mlops/mlops-llava

Llava — Large Language and Vision Assistant

Finding

LLaVA er relevant som et stærkt open-source vision-language værktøj, men det passer bedst som specialiseret billedanalyse-skill og ikke som standardlag i Lisa’s Hermes+n8n+LangGraph system.

What it is

LLaVA er en open-source model til samtaler om billeder, visuel question answering, billedbeskrivelser og multi-turn image chat. Den kombinerer en vision encoder med en sprogmodel, så agenten kan svare på spørgsmål om et billede. Dokumentationen viser installation, Python-brug, CLI, Gradio UI, modelstørrelser, quantization og begrænsninger som hallucinationer, svag counting og høje GPU-krav.

Should we use it?

Use later. LLaVA er nyttig, hvis Lisa får konkrete workflows med lokal eller privat billedanalyse, hvor data ikke bør sendes til en ekstern vision-API. Til den nuværende Hermes+n8n+LangGraph mission er den dog tung at drifte, GPU-afhængig og ikke nødvendig som standard, fordi Hermes allerede har vision-tooling til almindelig billedforståelse. Den bør derfor kun aktiveres som on-demand MLOps/vision-komponent, ikke som permanent kernefunktion.

Recommendation

Vent med installation, men markér LLaVA som en mulig lokal vision-backend til fremtidige private billedanalyseflows, især hvis der opstår krav om data-lokalitet, offline brug eller modelkontrol.

Use now

Do not use / wait

Public page note

LLaVA kan beskrives offentligt som en valgfri Hermes MLOps-skill til lokal, open-source billedsamtale og visuel question answering, bedst egnet til specialiserede vision-workflows med manuel kvalitetssikring.