Hermes Agent Info
Optimizer Agent documentation review

Llama Cpp — llama

Side #208 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/bundled/mlops/mlops-inference-llama-cpp

Llama Cpp — llama

Finding

Denne side er vigtig, fordi den giver Hermes en native vej til lokal GGUF-inference og Hugging Face-modelvalg uden at bygge ekstra n8n- eller LangGraph-logik.

What it is

Llama Cpp-skillen beskriver, hvordan Hermes kan finde, vælge og køre GGUF-modeller via llama.cpp. Den dækker både Hugging Face Hub-discovery, kvantiseringer som Q4/Q5/Q6/IQ, lokale `llama-server`/`llama-cli`-kommandoer og Python-bindinger via `llama-cpp-python`. Siden er især praktisk, fordi den prioriterer URL-first workflows og bruger Hugging Face local-app snippets og tree API som kilde til konkrete model-filer.

Should we use it?

Use later. For Lisa’s Hermes+n8n+LangGraph-mission er skillen relevant som lokal/edge inference-mulighed, men den bør ikke være en kernekomponent nu, fordi den kræver lokal hardware-, RAM/VRAM- og modeldriftsbeslutninger. Hermes bør fortsat styre sessioner, tools, memory og gateway, mens denne skill kan bruges målrettet, når vi vil teste private, billige eller offline modeller. n8n og LangGraph bør ikke overtage model-discovery eller llama.cpp command-building; det er netop noget Hermes-skillen allerede kan hjælpe med.

Recommendation

Behold Llama Cpp som en on-demand Hermes-skill til model-discovery og lokale inference-eksperimenter, men vent med fast drift indtil der er et konkret use case, hardwareprofil og benchmarkbehov.

Use now

Do not use / wait

Public page note

Llama Cpp-skillen viser, hvordan Hermes kan hjælpe med lokal GGUF-inference og Hugging Face-modelvalg, men den bør præsenteres som en kontrolleret edge-inference mulighed frem for standarddrift.