Seneste Level 4 Eval
- MiMo V2.5 Pro: 93.8% Adopted
- Qwen 3.6 Plus: 78.5% Useful
- MiniMax M2.7: 43.1% Monitoring
Sidst kørt: 2026-05-12
Testcenter samler alle typer tests, evals og valideringer — fra daglige LLM-checks til modelbenchmarks og dashboard compliance.
| Test Type | Beskrivelse | Status | Sidst Kørt | Resultat |
|---|---|---|---|---|
| Free LLM Availability | Tjekker om :free modeller er tilgængelige på OpenRouter | Adopted | Daglig (cron) | 18 modeller aktive |
| Browser QA | Visuel/layout check af sider | Useful | On-demand | Sprint 1-3 bestået |
| Docs Review | Gennemgang af Hermes docs for public-safety | Adopted | 2026-05-19 | 330/330 gennemgået |
| Level 4 Eval | Model-kvalitetstest med scoring | Useful | 2026-05-12 | MiMo 93.8%, Qwen 78.5% |
| Agent Group Sprint | Multi-agent design sprint med spec compliance | Monitoring | 2026-05-20 | Score: 6/20 (Sprint 1-3: ~19/20) |
| Regressionscheck | Tjekker om deployed sider har fejl | Monitoring | Manuelt | — |
Sidst kørt: 2026-05-12
Kilde: Free LLM Availability test
Kilde: Agent Group 1 Test 1 + Sprint 1-3 audit
Indtast adgangskode for at fortsætte