Optimizer Agent documentation review

Axolotl — Axolotl: YAML LLM fine-tuning (LoRA, DPO, GRPO)

Side #300 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/optional/mlops/mlops-training-axolotl

Axolotl — Axolotl: YAML LLM fine-tuning (LoRA, DPO, GRPO)

Finding

Denne side er vigtig, fordi den viser, hvordan Hermes kan bruge en specialiseret MLOps-skill til kontrolleret LLM-finetuning, men kun når der findes et konkret modeltræningsbehov.

What it is

Axolotl-skillen giver Hermes instruktioner til at arbejde med Axolotl, et YAML-baseret framework til finetuning af LLM’er. Den dækker blandt andet LoRA, QLoRA, DPO, KTO, ORPO, GRPO, multimodal træning, FSDP, DeepSpeed, datasætformater og HuggingFace-workflows. Siden er primært en skill-reference, så agenten kan hjælpe med konfiguration, debugging og bedste praksis for træningsjobs.

Should we use it?

Use later. For Lisa’s Hermes+n8n+LangGraph mission er Axolotl relevant, hvis vi senere vil finetune egne modeller eller adaptere på kuraterede datasæt. Det bør ikke være en standarddel af core OS nu, fordi det kræver GPU-kapacitet, datasæt-governance, evals, modelkort og tydelig release-proces. Hermes bør bruge skillen som ekspertassistent til planlægning og review af træningskonfigurationer, ikke som automatisk træningsmotor.

Recommendation

Installer og brug Axolotl-skillen først, når Lisa har et konkret finetuning-projekt med godkendt datasæt, eval-kriterier, GPU-budget og manuel review-gate.

Use now

Når der skal vurderes, om LoRA/QLoRA er bedre end prompt engineering eller retrieval.
Når en Axolotl YAML-konfiguration skal reviewes før et træningsjob.
Når der skal fejlfindes på batch size, sequence length, FSDP, DeepSpeed eller checkpointing.
Når der skal designes et offentligt sikkert workflow for modeltræning uden at eksponere data, credentials eller interne logs.

Do not use / wait

Vent hvis behovet kun er bedre agentadfærd; brug først Hermes skills, memory, evals og prompts.
Brug det ikke til automatiseret produktionstræning uden manuel godkendelse.
Brug det ikke før datasæt, evals, licensing og model governance er afklaret.
Brug det ikke som n8n- eller LangGraph-ansvar; træningskonfiguration bør ejes af Hermes/MLOps-processen, mens n8n kun kan bruges til notificering og approval-flows.

Public page note

Axolotl-skillen viser, at Hermes kan assistere med seriøs LLM-finetuning, men bør præsenteres som et avanceret, review-krævende MLOps-værktøj frem for en standardautomation.

Axolotl — Axolotl: YAML LLM fine-tuning (LoRA, DPO, GRPO)