Optimizer Agent documentation review

Evaluating Llms Harness — lm-eval-harness: benchmark LLMs (MMLU, GSM8K, etc

Side #205 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/bundled/mlops/mlops-evaluation-lm-evaluation-harness

Evaluating Llms Harness — lm-eval-harness: benchmark LLMs (MMLU, GSM8K, etc

Finding

Denne side er vigtig, fordi den giver Hermes en standardiseret måde at benchmarke LLM-kvalitet på, før modeller bliver godkendt som fallback, eksperimentel eller primær model.

What it is

`lm-evaluation-harness` er en bundled Hermes-skill til at køre kendte LLM-benchmarks som MMLU, GSM8K, HellaSwag, TruthfulQA og HumanEval. Den bruges til reproducerbare modelmålinger på HuggingFace-modeller, vLLM-backends og API-modeller. Siden beskriver installation, standard benchmarks, model-sammenligning, trænings-checkpoints, vLLM-acceleration og typiske fejl som OOM eller langsomme kørsler.

Should we use it?

Use later. Den passer godt til Lisa’s Hermes+n8n+LangGraph mission, men primært som eval-lag, ikke som daglig Hermes-drift. Den bør bruges, når Lisa vil dokumentere modelkvalitet systematisk, især i forbindelse med model approval ladder eller sammenligning af nye fallback-kandidater. Den skal ikke gøres til n8n- eller LangGraph-automation, før der findes et fast, gentaget eval-flow.

Recommendation

Brug denne skill som Hermes’ standardværktøj til model-benchmarking, men kun i en separat eval-session eller eval-profil med klare opgaver, små test-suites først og manuelle public-safe resultater.

Use now

Når en ny model skal vurderes som eksperimentel, fallback eller primær kandidat.
Når Hermes skal sammenligne flere modeller på samme benchmark-suite.
Når der skal laves public-safe modelkvalitetsnoter til Hermes Agent Info.
Når et lokalt eller hostet checkpoint skal testes mod kendte benchmarks.
Når vLLM kan bruges til hurtigere evaluering på egnet GPU-hardware.

Do not use / wait

Brug den ikke som daglig CoS- eller driftsautomation.
Brug den ikke inde i n8n, medmindre eval-processen senere bliver fast og gentagelig.
Brug den ikke i LangGraph, medmindre flere eval-agenter skal koordinere analyse, kritik og rapportering over tid.
Vent med fuld MMLU/HumanEval-kørsel, hvis hardware, tid eller kodeeksekveringssikkerhed ikke er afklaret.
Brug ikke benchmark-resultater direkte offentligt uden manuel review og kontekst om metode, few-shot count og modelopsætning.

Public page note

Hermes kan bruge lm-evaluation-harness som et standardiseret eval-værktøj til at sammenligne LLM’er og dokumentere modelkvalitet uden at afsløre private logs, nøgler eller intern konfiguration.

Evaluating Llms Harness — lm-eval-harness: benchmark LLMs (MMLU, GSM8K, etc