Hermes Agent InfoOps control dashboard
Dashboard Testcenter
Test og validering

Testcenter

Testcenter samler alle typer tests, evals og valideringer — fra daglige LLM-checks til modelbenchmarks og dashboard compliance.

6test-typer
5benchmarks
18free modeller
~19/20compliance

📋 Test Katalog

Test TypeBeskrivelseStatusSidst KørtResultat
Free LLM AvailabilityTjekker om :free modeller er tilgængelige på OpenRouterAdoptedDaglig (cron)18 modeller aktive
Browser QAVisuel/layout check af siderUsefulOn-demandSprint 1-3 bestået
Docs ReviewGennemgang af Hermes docs for public-safetyAdopted2026-05-19330/330 gennemgået
Level 4 EvalModel-kvalitetstest med scoringUseful2026-05-12MiMo 93.8%, Qwen 78.5%
Agent Group SprintMulti-agent design sprint med spec complianceMonitoring2026-05-20Score: 6/20 (Sprint 1-3: ~19/20)
RegressionscheckTjekker om deployed sider har fejlMonitoringManuelt

🔗 Benchmark Links

📊 Evalueringsresultater

Seneste Level 4 Eval

  • MiMo V2.5 Pro: 93.8% Adopted
  • Qwen 3.6 Plus: 78.5% Useful
  • MiniMax M2.7: 43.1% Monitoring

Sidst kørt: 2026-05-12

Free LLM Coverage

  • 18 aktive :free modeller
  • Daglig opdatering via cron
  • OpenRouter free-tier trackning
  • Fallback-kæde: free → paid budget → premium

Kilde: Free LLM Availability test

Dashboard Compliance

  • Før Sprint 1-3: 6-7/20
  • Efter Sprint 1-3: ~19/20
  • Forbedring: +12-13 point (+185%)
  • Agent Group design sprint evalueret

Kilde: Agent Group 1 Test 1 + Sprint 1-3 audit