Hermes Agent Info
Optimizer Agent documentation review

Simpo Training — Simple Preference Optimization for LLM alignment

Side #295 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/optional/mlops/mlops-simpo

Simpo Training — Simple Preference Optimization for LLM alignment

Finding

SimPO er relevant, fordi det viser en mere effektiv vej til preference-alignment af LLM’er, men det er kun aktuelt, hvis Lisa faktisk skal træne eller finjustere modeller.

What it is

SimPO er en MLOps-skill til Simple Preference Optimization, altså alignment-træning baseret på “chosen/rejected” preference-data. Den er reference-fri, så den kræver ikke en separat reference-model som DPO typisk gør. Siden beskriver installation, træningskonfigurationer, hyperparametre, fejltyper og hardwarekrav for modeller som Mistral 7B og Llama 3 8B.

Should we use it?

Use later. For Lisa’s Hermes+n8n+LangGraph mission er SimPO ikke en core operating-system feature, men en specialistfunktion til model-post-training. Den bør ikke blandes ind i Hermes’ runtime, memory, skills, n8n-flows eller LangGraph-orkestrering lige nu. Den bliver relevant, hvis Lisa senere vil alignment-træne egne modeller eller evaluere egne agentmodeller ud fra preference-data.

Recommendation

Behandl SimPO som en fremtidig MLOps-specialist-skill, ikke som en del af den nuværende Hermes+n8n+LangGraph driftskerne.

Use now

Do not use / wait

Public page note

SimPO er en avanceret MLOps-skill til preference-alignment af sprogmodeller og bør præsenteres som en fremtidig specialistmulighed, ikke som en nødvendig del af standard Hermes Agent OS.