Hermes Agent Info / LLM

Free LLM — Opus-retest coverage

Opdateret 2026-05-12T07:54:49.590679+00:00. Eksplicitte :free model-id’er. Ingen openrouter/free scoring-router.

25/25
Opus-retest forsøgt
17
Modeller med HTTP 200
9
Modeller med positiv score
16
Ikke positiv score

Fordeling

bestået 9 · 429 cooldown 8 · tomt output 7 · andet fail 1 · mangler 0

Cooldown-retry

cognitivecomputations/dolphin-mistral-24b-venice-edition:free: status=429, score=0, note=empty_output
google/gemma-4-31b-it:free: status=429, score=0, note=empty_output
meta-llama/llama-3.2-3b-instruct:free: status=429, score=0, note=empty_output

Rolle pr. model

tomt output arcee-ai/trinity-large-thinking:free prompt/profil-retest
attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
tomt output baidu/cobuddy:free prompt/profil-retest
attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
bestået baidu/qianfan-ocr-fast:free validator
attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
429 cooldown cognitivecomputations/dolphin-mistral-24b-venice-edition:free cooldown / retry
attempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
bestået google/gemma-4-26b-a4b-it:free validator
attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
429 cooldown google/gemma-4-31b-it:free cooldown / retry
attempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
bestået inclusionai/ring-2.6-1t:free research
attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
andet fail liquid/lfm-2.5-1.2b-instruct:free prompt/profil-retest
attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · modellen svarede, men vores exact-check var for snævert eller output afveg
tomt output liquid/lfm-2.5-1.2b-thinking:free prompt/profil-retest
attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
429 cooldown meta-llama/llama-3.2-3b-instruct:free cooldown / retry
attempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
429 cooldown meta-llama/llama-3.3-70b-instruct:free cooldown / retry
attempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
429 cooldown minimax/minimax-m2.5:free cooldown / retry
attempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
429 cooldown nousresearch/hermes-3-llama-3.1-405b:free cooldown / retry
attempts: 4 · 200: 0 · 429: 4 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
bestået nvidia/nemotron-3-nano-30b-a3b:free validator
attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
tomt output nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free prompt/profil-retest
attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
bestået nvidia/nemotron-3-super-120b-a12b:free manager
attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
tomt output nvidia/nemotron-nano-12b-v2-vl:free prompt/profil-retest
attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
bestået nvidia/nemotron-nano-9b-v2:free validator
attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
bestået openai/gpt-oss-120b:free research
attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
bestået openai/gpt-oss-20b:free validator
attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
tomt output poolside/laguna-m.1:free prompt/profil-retest
attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
tomt output poolside/laguna-xs.2:free prompt/profil-retest
attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
429 cooldown qwen/qwen3-coder:free cooldown / retry
attempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
429 cooldown qwen/qwen3-next-80b-a3b-instruct:free cooldown / retry
attempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
bestået z-ai/glm-4.5-air:free research
attempts: 2 · 200: 2 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

Ikke-positive: begrundelse og forbedring

tomt output arcee-ai/trinity-large-thinking:free
Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
tomt output baidu/cobuddy:free
Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
429 cooldown cognitivecomputations/dolphin-mistral-24b-venice-edition:free
Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown google/gemma-4-31b-it:free
Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
andet fail liquid/lfm-2.5-1.2b-instruct:free
Begrundelse: Modellen svarede, men ikke med præcis free-ok; sandsynligt test-format mismatch.
Hvad kan vi gøre: Brug tolerant smoke-scorer og en rollepassende prompt; exact-match bør ikke alene afgøre discard.
tomt output liquid/lfm-2.5-1.2b-thinking:free
Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
429 cooldown meta-llama/llama-3.2-3b-instruct:free
Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown meta-llama/llama-3.3-70b-instruct:free
Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown minimax/minimax-m2.5:free
Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown nousresearch/hermes-3-llama-3.1-405b:free
Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
tomt output nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free
Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
tomt output nvidia/nemotron-nano-12b-v2-vl:free
Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
tomt output poolside/laguna-m.1:free
Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
tomt output poolside/laguna-xs.2:free
Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
429 cooldown qwen/qwen3-coder:free
Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown qwen/qwen3-next-80b-a3b-instruct:free
Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

Artifacts

Machine JSON: /llm/data/free-llm-results.json

Rapport: /opt/data/home/hermes-llm-eval/free_llm_manager/results/free_llm_nonpositive_analysis_20260512_da.txt

Sikkerhed: ingen secrets i public artifacts; ingen eksterne scripts.