Segment Anything Model — SAM: zero-shot image segmentation via points, boxes, masks
Segment Anything Model — SAM: zero-shot image segmentation via points, boxes, masks
Finding
SAM er relevant, fordi Hermes kan bruge en bundlet MLOps-skill til præcis billedsegmentering uden at bygge en separat vision-pipeline i n8n eller LangGraph.
What it is
SAM er Meta AI’s model til zero-shot segmentering af objekter i billeder med punkter, bokse eller automatisk maskegenerering. Dokumentationen viser installation, checkpoint-valg, brug via `segment-anything` og HuggingFace Transformers, ONNX-export og praktiske workflows som annotation, objektudklip og medicinske/specialiserede billeder. Den er nyttig, når Hermes skal forstå eller udtrække bestemte billedområder frem for bare at beskrive hele billedet.
Should we use it?
Use later. For Lisa’s Hermes+n8n+LangGraph mission er SAM ikke en kernefunktion til agent-drift, memory, gateway, cron eller orchestration. Den bør først tages i brug, når der er konkrete billed-workflows, fx public content, dataset-forberedelse eller visuel analyse, hvor almindelig vision-beskrivelse ikke er nok. Hermes bør eje selve skill-kørslen, mens n8n kun eventuelt trigger flowet og LangGraph kun bruges, hvis segmentering indgår i en større stateful analyse.
Recommendation
Hold SAM som en on-demand Hermes MLOps-skill til billedanalyse og asset-forberedelse, men aktiver ikke som fast driftspipeline før der findes et konkret visuelt use case og GPU/ressourcekrav er afklaret.
Use now
- Når Lisa skal udklippe objekter fra billeder til offentlige forklaringssider, tutorials eller visuelle demos.
- Når Hermes skal hjælpe med annotation eller maskegenerering til et lille billeddatasæt.
- Når et workflow kræver præcis region-of-interest i et billede, ikke bare en tekstlig billedbeskrivelse.
- Når GroundingDINO + SAM senere ønskes til tekststyret segmentering i en kontrolleret vision-pipeline.
- Når output kan reviewes manuelt før publicering.
Do not use / wait
- Brug det ikke som standard vision-lag i Hermes; almindelig vision-analyse er billigere og enklere til de fleste cases.
- Vent med automatisering, hvis der ikke er GPU/VRAM-budget eller tydeligt modelvalg mellem ViT-B, ViT-L og ViT-H.
- Brug det ikke til real-time objektgenkendelse med klasser; YOLO/Detectron2 passer bedre dér.
- Brug det ikke til video-segmentering; SAM 2 er den relevante retning for video.
- Brug det ikke til public output uden manuel review af masker, billedrettigheder og kontekst.
Public page note
SAM viser, at Hermes kan koble agentarbejde med avanceret billedsegmentering, men bør beskrives som en specialiseret on-demand MLOps-kapacitet frem for en fast del af kernearkitekturen.