Optimizer Agent documentation review

Slime Rl Training — Provides guidance for LLM post-training with RL using slime, a Megatron+SGLang framework

Side #296 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/optional/mlops/mlops-slime

Slime Rl Training — Provides guidance for LLM post-training with RL using slime, a Megatron+SGLang framework

Finding

Denne side er vigtig, fordi den viser en avanceret RL-post-training skill, men den ligger klart uden for Lisa’s nuværende Hermes+n8n+LangGraph kerneoperation.

What it is

Slime er en MLOps-skill til LLM post-training med reinforcement learning, især GRPO, via Megatron-LM til træning og SGLang til høj-throughput rollouts. Den er målrettet teams, der faktisk træner eller finjusterer store modeller som GLM, Qwen, DeepSeek eller Llama. Dokumentationen beskriver installation, dataformat, træningskommandoer, async training, multi-turn agentic training og typiske GPU-fejl.

Should we use it?

Use later. For Lisa’s Hermes+n8n+LangGraph mission er slime ikke et runtime-, automation- eller orchestration-værktøj; det er et tungt modeltræningsværktøj. Det bør først bruges, hvis Lisa går fra at evaluere og orkestrere modeller til selv at post-traine modeller med RL. Indtil da er det nok at kende siden som fremtidig MLOps-reference, ikke installere den i Hermes-miljøet.

Recommendation

Registrér slime som “future MLOps only” og brug den kun ved et konkret projekt om RL-post-training, ikke som del af den daglige Hermes+n8n+LangGraph drift.

Use now

Når Lisa skal vurdere, om et fremtidigt modeltræningsprojekt kræver Megatron-LM + SGLang frem for mere simple finetuning-værktøjer.
Når der skal laves arkitektur-review af en ekstern RL-training pipeline.
Når Hermes skal hjælpe med at forklare forskellen mellem inference-orchestration og egentlig model-post-training.
Når et forskningsprojekt kræver multi-turn agentic RL med custom reward eller verifier logic.

Do not use / wait

Brug den ikke til almindelig Hermes automation, cron jobs, skills, memory eller gateway workflows.
Brug den ikke inde i Lisa’s nuværende Hermes-container som “bare en ekstra skill”; den kræver tung GPU-/Docker-/MLOps-kontekst.
Brug den ikke til LangGraph orchestration; LangGraph styrer agent-state, mens slime træner modeller.
Vent hvis behovet kun er modelvalg, evals, prompt engineering, n8n-flows eller RAG.

Public page note

Slime er en avanceret Hermes MLOps-skill til RL-post-training af store modeller og bør præsenteres som fremtidig specialinfrastruktur, ikke som standarddel af et Hermes Agent OS.

Slime Rl Training — Provides guidance for LLM post-training with RL using slime, a Megatron+SGLang framework