Optimizer Agent documentation review

Simpo Training — Simple Preference Optimization for LLM alignment

Side #295 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/optional/mlops/mlops-simpo

Simpo Training — Simple Preference Optimization for LLM alignment

Finding

SimPO er relevant, fordi det viser en mere effektiv vej til preference-alignment af LLM’er, men det er kun aktuelt, hvis Lisa faktisk skal træne eller finjustere modeller.

What it is

SimPO er en MLOps-skill til Simple Preference Optimization, altså alignment-træning baseret på “chosen/rejected” preference-data. Den er reference-fri, så den kræver ikke en separat reference-model som DPO typisk gør. Siden beskriver installation, træningskonfigurationer, hyperparametre, fejltyper og hardwarekrav for modeller som Mistral 7B og Llama 3 8B.

Should we use it?

Use later. For Lisa’s Hermes+n8n+LangGraph mission er SimPO ikke en core operating-system feature, men en specialistfunktion til model-post-training. Den bør ikke blandes ind i Hermes’ runtime, memory, skills, n8n-flows eller LangGraph-orkestrering lige nu. Den bliver relevant, hvis Lisa senere vil alignment-træne egne modeller eller evaluere egne agentmodeller ud fra preference-data.

Recommendation

Behandl SimPO som en fremtidig MLOps-specialist-skill, ikke som en del af den nuværende Hermes+n8n+LangGraph driftskerne.

Use now

Brug den som reference, hvis Lisa skal vurdere forskellen mellem SimPO, DPO, PPO og GRPO.
Brug den til research-noter om fremtidig model-alignment og preference-training.
Brug den ved konkret eksperiment med små/medium LLM’er, hvor der allerede findes kvalitetssikrede chosen/rejected preference-par.
Brug den hvis målet er billigere og simplere alignment end DPO, uden reference-model.

Do not use / wait

Vent hvis behovet kun er bedre Hermes-agentadfærd; brug først skills, prompts, memory, evaluations og workflow-governance.
Brug den ikke som erstatning for Hermes skills, Honcho memory, session search eller LangGraph state management.
Brug den ikke uden GPU-budget, datasæt-governance og eval-plan.
Brug den ikke på private logs, rå chats eller uklassificeret driftstekst som træningsdata.

Public page note

SimPO er en avanceret MLOps-skill til preference-alignment af sprogmodeller og bør præsenteres som en fremtidig specialistmulighed, ikke som en nødvendig del af standard Hermes Agent OS.

Simpo Training — Simple Preference Optimization for LLM alignment