Frontier Level 4: Validator-guided repair loop

Kørt UTC: 2026-05-04T16:41:29.804192+00:00

CoS-spec
- Builder: MiniMax, Qwen og MiMo fik deres Level 3-fejlrapport og skulle reparere siden.
- Validator: objektiv scoring plus statisk HTML safety scan.
- Telegram gate: kort dansk rapport og sikre artefakter.

Resultater
1. xiaomi/mimo-v2.5-pro: Level 4 93.8%, Level 3 None%, safe ja, latency 5.3s
2. qwen/qwen3.6-plus: Level 4 78.5%, Level 3 51.4%, delta +27.1p, safe ja, latency 2.5s
3. minimax/minimax-m2.7: Level 4 43.1%, Level 3 58.6%, delta -15.5p, safe ja, latency 2.7s

Praktisk vinder
Bedst i Level 4 repair: xiaomi/mimo-v2.5-pro med 93.8%.

Hvad Level 4 testede
- Om modellen kan modtage validator-feedback og reparere konkrete mangler.
- Gates: alle 20 rows, rolle-matrix, næste handlinger, states, stop-gates, Free-LLM Manager, evidence paths og safe HTML.

Artefakter
- Summary JSON: /opt/data/home/hermes-llm-eval/agent_page_and_research_20260504/results/frontier_agent_pages_20260504_level4/frontier_agent_pages_level4_summary.json
- Galleri: /opt/data/home/hermes-llm-eval/agent_page_and_research_20260504/results/frontier_agent_pages_20260504_level4/frontier_agent_pages_level4_gallery.html
- Bundle: /opt/data/home/hermes-llm-eval/agent_page_and_research_20260504/results/frontier_agent_pages_20260504_level4/frontier_agent_pages_level4_bundle.zip
- HTML-mappe: /opt/data/home/hermes-llm-eval/agent_page_and_research_20260504/frontier_agent_pages_level4

Sikkerhed
- Safety scan af HTML kigger efter external scripts, network calls, iframes/object/embed, credentials og farlige kommandoer.