Llama Cpp — llama
Llama Cpp — llama
Finding
Denne side er vigtig, fordi den giver Hermes en native vej til lokal GGUF-inference og Hugging Face-modelvalg uden at bygge ekstra n8n- eller LangGraph-logik.
What it is
Llama Cpp-skillen beskriver, hvordan Hermes kan finde, vælge og køre GGUF-modeller via llama.cpp. Den dækker både Hugging Face Hub-discovery, kvantiseringer som Q4/Q5/Q6/IQ, lokale `llama-server`/`llama-cli`-kommandoer og Python-bindinger via `llama-cpp-python`. Siden er især praktisk, fordi den prioriterer URL-first workflows og bruger Hugging Face local-app snippets og tree API som kilde til konkrete model-filer.
Should we use it?
Use later. For Lisa’s Hermes+n8n+LangGraph-mission er skillen relevant som lokal/edge inference-mulighed, men den bør ikke være en kernekomponent nu, fordi den kræver lokal hardware-, RAM/VRAM- og modeldriftsbeslutninger. Hermes bør fortsat styre sessioner, tools, memory og gateway, mens denne skill kan bruges målrettet, når vi vil teste private, billige eller offline modeller. n8n og LangGraph bør ikke overtage model-discovery eller llama.cpp command-building; det er netop noget Hermes-skillen allerede kan hjælpe med.
Recommendation
Behold Llama Cpp som en on-demand Hermes-skill til model-discovery og lokale inference-eksperimenter, men vent med fast drift indtil der er et konkret use case, hardwareprofil og benchmarkbehov.
Use now
- Når Lisa vil undersøge, hvilke GGUF-filer en Hugging Face-modelrepo faktisk tilbyder.
- Når Hermes skal foreslå en konkret `llama-server`- eller `llama-cli`-kommando fra en Hub-side.
- Når der skal vælges praktisk quant, fx Q4_K_M, Q5_K_M eller Q6_K, ud fra RAM/VRAM.
- Når et public-safe notat skal forklare forskellen mellem hosted LLM-routing og lokal edge-inference.
- Når vi vil teste små lokale modeller til privacy-sensitive eller billige fallback-scenarier.
Do not use / wait
- Brug den ikke som primær modelrouting for Hermes endnu.
- Brug den ikke til produktionskritiske agentflows uden benchmark, monitoring og restart-strategi.
- Brug den ikke via n8n/LangGraph, hvis opgaven blot er model-discovery eller GGUF-kommandogenerering.
- Vent med store modeller, hvis hardwareprofil, diskplads, RAM/VRAM og køletid ikke er afklaret.
- Undgå automatisk download/kørsel af ukendte modeller uden manuel review af repo, licens og ressourcekrav.
Public page note
Llama Cpp-skillen viser, hvordan Hermes kan hjælpe med lokal GGUF-inference og Hugging Face-modelvalg, men den bør præsenteres som en kontrolleret edge-inference mulighed frem for standarddrift.