Hermes Agent Operations Control Room

🚀 Frontier Top-3 (Level 3)

🥇 MiniMax M2.7 staging

58.6%
L3 score

68%
L1 score

html_css ✓ all20 ✗ score_latency ✓ tasks ✗ filter_sort ✓ roles ✓ evidence ✗ tts ✓ safe ✓ frontier6 ✓ collector ✓ cos_pipeline ✗ risk_gates ✗

🥈 Qwen 3.6 Plus eval

50.0%
L3 score

75%
L1 score

html_css ✓ all20 ✗ score_latency ✓ tasks ✗ filter_sort ✓ roles ✓ evidence ✓ tts ✓ safe ✓ frontier6 ✗ collector ✗ cos_pipeline ✗ risk_gates ✗

🥉 MiMo V2.5 Pro eval

52.3%
L3 score

—
L1 score

html_css ✓ all20 ✗ score_latency ✓ tasks ✗ filter_sort ✗ roles ✓ evidence ✗ tts ✓ safe ✓ frontier6 ✓ collector ✓ cos_pipeline ✗ risk_gates ✗

🎯 Rolle-matrix (7 roller)

Rolle	Model	Score	Miljø
research-agent	x-ai/grok-4.1-fast	95%	eval
code/dashboard-agent	minimax/minimax-m2.7	58.6% L3	staging
validator	gpt-5.5	quality baseline	staging
collector/cron-agent	local metadata collector	0 LLM calls	production-safe local
Telegram/CoS-gate	Hermes current assistant	human-facing	production
Free-LLM Manager	inclusionai/ling-2.6-1t:free	96.7% role-eval	eval
fallback/cheap-fast	openai/gpt-4o-mini	87.5% cheap fast	eval

📊 Alle 20 Cheap-Agent Resultater

#	Model	Adgang	Score %	Score/Max	OK	Median Lat.	Fejl	Repar.	Status

📡 OpenRouter Collector / Cron

Collector status	production Daglig cron aktiv
Model-katalog	Top 50 modeller opdateret
Weekly trends	Ugentlig trend-rapport genereret
Trending apps	App-tracking aktiv
Cron-type	local crontab (ikke ekstern)
Data-output	/opt/data/home/hermes-llm-eval/

🆓 Free-LLM Manager

Primær model	inclusionai/ling-2.6-1t:free
Role-eval score	96.7%
Rate limit	20 requests/minut
Daglig grænse	50 requests/dag
Maks daglig	1000 requests/dag
Default mode	metadata-only collector
Status	eval

🚧 Stop-gates (ordret)

🟢 402 — Payment required

🟢 429 — Rate limit exceeded

🟢 Provider mismatch — Forkert provider-valg

🟢 Hidden fallback — Skjult model-switch

🟢 Secrets — API-nøgler eksponeret

🟢 Unsafe HTML — script/iframe/CDN

🟢 Non-local cron — Eksterne scheduler-kald

Alle stop-gates er aktive og passeret. Ingen blokeringer i nuværende kørsel.

⚡ Næste handlinger

Kør Level 3 eval — Brug Grok 4.1 Fast (95%, 6.7s) som primær agent til næste eval-kørsel med fuld harness. eval
Sæt cheap-fast fallback op — GPT-4o-mini (87.5%, 2.2s median) som hurtig fallback til simple opgaver og status-checks. eval
Valider frontier top-3 — Kør fuld Level 3 harness mod MiniMax M2.7, Qwen 3.6 Plus og MiMo V2.5 Pro med deres provider-policies. staging
Aktiver Free-LLM Manager cron — Daglig discovery-kørsel med inclusionai/ling-2.6-1t:free som primær manager-agent. Metadata-only default. eval
Opsæt Telegram/CoS-gate — Hermes current assistant som human-facing CoS-routing. production
Undgå blokerede modeller — GPT-5 Nano (0%), DeepSeek V4 Flash (45%), Step 3.5 Flash (40%) — ingen produktion eller staging. blocked
Overvåk rate-limits — Step 3.5 Flash og DeepSeek V4 Flash havde 429-fejl; sæt backoff op. Validator-gate: ingen 429 i 3 på hinanden følgende kald.
Kør daglig OpenRouter collector — Sikre at model-katalog og trending data opdateres dagligt via lokal crontab. Stop-kriterium: 3 manglende opdateringer = alarm.

🤖 Autonomi-politik

Selvstændig kørsel

Collector/cron-agent (metadata-only), daglig OpenRouter-opdatering, Free-LLM discovery cron. Ingen LLM-kald. Lokal crontab.

Validator-gate påkrævet

Alle LLM-agent kald eval→staging→production. Frontier top-3 validering. Ny model-integration. Stop-kriterium: validator-score < 80% blokerer promotion.

Menneske-godkendelse

Telegram/CoS-gate svar til bruger. Production-ændringer. API-nøgle-rotation. Model-policy ændringer. Stop-kriterium: Lisa/Telegram bekræftelse påkrævet.

📁 Evidence paths

/opt/data/home/hermes-llm-eval/agent_page_and_research_20260504/results/all20_agentic_results.json

/opt/data/home/hermes-llm-eval/agent_page_and_research_20260504/results/frontier_agent_pages_20260504_level3/frontier_agent_pages_level3_summary.json

/opt/data/home/hermes-llm-eval/free_llm_manager/results/free_llm_final_report_20260504.txt

🔊 CoS-opsummering (TTS-venlig)

🛡️ Hermes Agent Operations Control Room — Level 3