Optimizer Agent documentation review

Peft Fine Tuning — Parameter-efficient fine-tuning for LLMs using LoRA, QLoRA, and 25+ methods

Side #289 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/optional/mlops/mlops-peft

Peft Fine Tuning — Parameter-efficient fine-tuning for LLMs using LoRA, QLoRA, and 25+ methods

Finding

Denne side er vigtig, fordi den viser hvordan Hermes kan finjustere store modeller med små adaptere i stedet for at eje en dyr fuld modeltræningspipeline.

What it is

PEFT er en MLOps-skill til parameter-effektiv fine-tuning med LoRA, QLoRA og andre adaptermetoder. Den gør det muligt at træne under 1% af modellens parametre og gemme små adapterfiler i stedet for hele modeller. Siden dækker installation, LoRA/QLoRA-konfiguration, målmoduler, adapter-loading, merging, multi-adapter serving, vLLM-integration og typiske fejl som CUDA OOM.

Should we use it?

Use later. Det passer til Lisa’s Hermes+n8n+LangGraph mission, men først når der findes et konkret behov for en specialiseret model eller adapter, som ikke kan løses bedre med prompts, skills, retrieval, evals eller eksisterende modelproviders. PEFT bør ikke blive en del af core OS nu, fordi det introducerer GPU-krav, datasæt-governance, evals, modelversionering og deployment-ansvar. Hermes bør styre beslutning, review og dokumentation; selve træningen bør ligge i en kontrolleret MLOps-kontekst.

Recommendation

Behandl PEFT som en fremtidig “model-specialisering”-skill: installer den ikke som standard, men brug den som runbook når Lisa har et valideret datasæt, en målelig eval og et klart adapter-formål.

Use now

Når en konkret modeladfærd gentager sig som et stabilt problem, og prompt/skill/retrieval ikke længere er nok.
Til små, afgrænsede eksperimenter med LoRA-adaptere på en 7B/8B-model med manuel eval før brug.
Til research i multi-adapter serving, hvor én base model skal kunne skifte mellem godkendte task-adaptere.
Til at vurdere om specialiseret fine-tuning kan erstatte dyrere eller langsommere inference for et snævert domæne.

Do not use / wait

Vent med 70B QLoRA, indtil GPU-budget, datahåndtering, evals og rollback-proces er fastlagt.
Brug det ikke til core Hermes-governance, memory, routing eller n8n/LangGraph-orkestrering.
Brug det ikke på private eller uklare datasæt uden samtykke, datarensning og offentlig/privat grænse.
Brug det ikke før almindelige Hermes-skills, prompts, retrieval og modelvalg er testet som billigere alternativer.

Public page note

PEFT kan beskrives offentligt som en valgfri MLOps-skill, der hjælper Hermes med at finjustere store sprogmodeller via små LoRA/QLoRA-adaptere, når et konkret og evaluerbart behov opstår.

Peft Fine Tuning — Parameter-efficient fine-tuning for LLMs using LoRA, QLoRA, and 25+ methods