Optimizer Agent documentation review

Unsloth — Unsloth: 2-5x faster LoRA/QLoRA fine-tuning, less VRAM

Side #302 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/optional/mlops/mlops-training-unsloth

Unsloth — Unsloth: 2-5x faster LoRA/QLoRA fine-tuning, less VRAM

Finding

Unsloth er relevant, fordi det kan gøre LoRA/QLoRA-finetuning langt billigere og mere praktisk, men det bør ikke blive en standarddel af Lisa’s core Hermes+n8n+LangGraph drift endnu.

What it is

Unsloth er en MLOps-skill til hurtigere og mere memory-effektiv finetuning af LLM’er med LoRA/QLoRA. Siden beskriver en optional Hermes-skill, der installeres med `hermes skills install official/mlops/unsloth`, og som giver Hermes instruktioner og referencefiler til at arbejde med Unsloth, Torch, Transformers, TRL, Datasets og PEFT. Den passer især til eksperimenter med modeller som Llama, Mistral, Gemma og Qwen, hvor VRAM og træningstid er begrænsninger.

Should we use it?

Use later. For Lisa’s Hermes+n8n+LangGraph mission er Unsloth nyttig, når der opstår et konkret behov for at finetune små eller mellemstore modeller til specialiserede agentopgaver. Lige nu bør fokus være på evals, routing, skills, governance og modelvalg før lokal træning. Det skal derfor være et kontrolleret MLOps-værktøj, ikke en default dependency i core OS.

Recommendation

Installér og brug Unsloth-skillen først, når der findes et klart eval-baseret træningsbehov, et godkendt datasæt og en defineret modelkandidat; indtil da bør siden registreres som “Use later” i MLOps-roadmappet.

Use now

Når Lisa vil lave et lille, kontrolleret LoRA/QLoRA-eksperiment på en open-source model.
Når en Hermes-agent gentagne gange fejler på et smalt domæne, og prompt/skill/eval-forbedringer ikke er nok.
Når der findes et public-safe eller internt godkendt datasæt med klar datakvalitet og governance.
Når målet er billigere specialisering frem for at kalde større modeller til samme gentagne opgave.

Do not use / wait

Brug det ikke til core Hermes-drift, gateway, n8n flows eller LangGraph orchestration.
Vent hvis der ikke findes evals, baseline-målinger og en klar accepttest.
Brug det ikke på følsomme, uklare eller ureviewede datasæt.
Brug det ikke som første løsning, hvis problemet kan løses med bedre skill, prompt, routing eller modelvalg.

Public page note

Unsloth-siden kan beskrives offentligt som en optional MLOps-skill til hurtigere og mere memory-effektiv LoRA/QLoRA-finetuning, bedst egnet til kontrollerede modeltræningsforsøg frem for standard Hermes-drift.

Unsloth — Unsloth: 2-5x faster LoRA/QLoRA fine-tuning, less VRAM