Free LLM — Opus-retest coverage

Opdateret 2026-05-12T07:54:49.590679+00:00. Eksplicitte :free model-id’er. Ingen openrouter/free scoring-router.

25/25

Opus-retest forsøgt

Modeller med HTTP 200

Modeller med positiv score

Ikke positiv score

Fordeling

bestået 9 · 429 cooldown 8 · tomt output 7 · andet fail 1 · mangler 0

Cooldown-retry

cognitivecomputations/dolphin-mistral-24b-venice-edition:free: status=429, score=0, note=empty_output
google/gemma-4-31b-it:free: status=429, score=0, note=empty_output
meta-llama/llama-3.2-3b-instruct:free: status=429, score=0, note=empty_output

Rolle pr. model

tomt output arcee-ai/trinity-large-thinking:free prompt/profil-retest

attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard

tomt output baidu/cobuddy:free prompt/profil-retest

attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard

bestået baidu/qianfan-ocr-fast:free validator

attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

429 cooldown cognitivecomputations/dolphin-mistral-24b-venice-edition:free cooldown / retry

attempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen

bestået google/gemma-4-26b-a4b-it:free validator

attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

429 cooldown google/gemma-4-31b-it:free cooldown / retry

attempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen

bestået inclusionai/ring-2.6-1t:free research

attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

andet fail liquid/lfm-2.5-1.2b-instruct:free prompt/profil-retest

attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · modellen svarede, men vores exact-check var for snævert eller output afveg

tomt output liquid/lfm-2.5-1.2b-thinking:free prompt/profil-retest

attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard

429 cooldown meta-llama/llama-3.2-3b-instruct:free cooldown / retry

attempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen

429 cooldown meta-llama/llama-3.3-70b-instruct:free cooldown / retry

attempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen

429 cooldown minimax/minimax-m2.5:free cooldown / retry

attempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen

429 cooldown nousresearch/hermes-3-llama-3.1-405b:free cooldown / retry

attempts: 4 · 200: 0 · 429: 4 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen

bestået nvidia/nemotron-3-nano-30b-a3b:free validator

attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

tomt output nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free prompt/profil-retest

attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard

bestået nvidia/nemotron-3-super-120b-a12b:free manager

attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

tomt output nvidia/nemotron-nano-12b-v2-vl:free prompt/profil-retest

attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard

bestået nvidia/nemotron-nano-9b-v2:free validator

attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

bestået openai/gpt-oss-120b:free research

attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

bestået openai/gpt-oss-20b:free validator

attempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

tomt output poolside/laguna-m.1:free prompt/profil-retest

attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard

tomt output poolside/laguna-xs.2:free prompt/profil-retest

attempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard

429 cooldown qwen/qwen3-coder:free cooldown / retry

attempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen

429 cooldown qwen/qwen3-next-80b-a3b-instruct:free cooldown / retry

attempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen

bestået z-ai/glm-4.5-air:free research

attempts: 2 · 200: 2 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle

Ikke-positive: begrundelse og forbedring

tomt output arcee-ai/trinity-large-thinking:free

Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.

Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.

tomt output baidu/cobuddy:free

Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.

Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.

429 cooldown cognitivecomputations/dolphin-mistral-24b-venice-edition:free

Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.

Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

429 cooldown google/gemma-4-31b-it:free

Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.

Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

andet fail liquid/lfm-2.5-1.2b-instruct:free

Begrundelse: Modellen svarede, men ikke med præcis free-ok; sandsynligt test-format mismatch.

Hvad kan vi gøre: Brug tolerant smoke-scorer og en rollepassende prompt; exact-match bør ikke alene afgøre discard.

tomt output liquid/lfm-2.5-1.2b-thinking:free

Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.

Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.

429 cooldown meta-llama/llama-3.2-3b-instruct:free

Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.

Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

429 cooldown meta-llama/llama-3.3-70b-instruct:free

Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.

Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

429 cooldown minimax/minimax-m2.5:free

Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.

Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

429 cooldown nousresearch/hermes-3-llama-3.1-405b:free

Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.

Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

tomt output nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free

Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.

Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.

tomt output nvidia/nemotron-nano-12b-v2-vl:free

Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.

Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.

tomt output poolside/laguna-m.1:free

Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.

Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.

tomt output poolside/laguna-xs.2:free

Begrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.

Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.

429 cooldown qwen/qwen3-coder:free

Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.

Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

429 cooldown qwen/qwen3-next-80b-a3b-instruct:free

Begrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.

Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.

Artifacts

Machine JSON: /llm/data/free-llm-results.json

Rapport: /opt/data/home/hermes-llm-eval/free_llm_manager/results/free_llm_nonpositive_analysis_20260512_da.txt

Sikkerhed: ingen secrets i public artifacts; ingen eksterne scripts.

Free LLM — Opus-retest coverage

Fordeling

Cooldown-retry

Rolle pr. model

Ikke-positive: begrundelse og forbedring

Artifacts

Hermes Agent Info