Simpo Training — Simple Preference Optimization for LLM alignment
Simpo Training — Simple Preference Optimization for LLM alignment
Finding
SimPO er relevant, fordi det viser en mere effektiv vej til preference-alignment af LLM’er, men det er kun aktuelt, hvis Lisa faktisk skal træne eller finjustere modeller.
What it is
SimPO er en MLOps-skill til Simple Preference Optimization, altså alignment-træning baseret på “chosen/rejected” preference-data. Den er reference-fri, så den kræver ikke en separat reference-model som DPO typisk gør. Siden beskriver installation, træningskonfigurationer, hyperparametre, fejltyper og hardwarekrav for modeller som Mistral 7B og Llama 3 8B.
Should we use it?
Use later. For Lisa’s Hermes+n8n+LangGraph mission er SimPO ikke en core operating-system feature, men en specialistfunktion til model-post-training. Den bør ikke blandes ind i Hermes’ runtime, memory, skills, n8n-flows eller LangGraph-orkestrering lige nu. Den bliver relevant, hvis Lisa senere vil alignment-træne egne modeller eller evaluere egne agentmodeller ud fra preference-data.
Recommendation
Behandl SimPO som en fremtidig MLOps-specialist-skill, ikke som en del af den nuværende Hermes+n8n+LangGraph driftskerne.
Use now
- Brug den som reference, hvis Lisa skal vurdere forskellen mellem SimPO, DPO, PPO og GRPO.
- Brug den til research-noter om fremtidig model-alignment og preference-training.
- Brug den ved konkret eksperiment med små/medium LLM’er, hvor der allerede findes kvalitetssikrede chosen/rejected preference-par.
- Brug den hvis målet er billigere og simplere alignment end DPO, uden reference-model.
Do not use / wait
- Vent hvis behovet kun er bedre Hermes-agentadfærd; brug først skills, prompts, memory, evaluations og workflow-governance.
- Brug den ikke som erstatning for Hermes skills, Honcho memory, session search eller LangGraph state management.
- Brug den ikke uden GPU-budget, datasæt-governance og eval-plan.
- Brug den ikke på private logs, rå chats eller uklassificeret driftstekst som træningsdata.
Public page note
SimPO er en avanceret MLOps-skill til preference-alignment af sprogmodeller og bør præsenteres som en fremtidig specialistmulighed, ikke som en nødvendig del af standard Hermes Agent OS.