Free LLM — Opus-retest coverage
Opdateret 2026-05-12T07:54:49.590679+00:00. Eksplicitte :free model-id’er. Ingen openrouter/free scoring-router.
25/25
Opus-retest forsøgt
17
Modeller med HTTP 200
9
Modeller med positiv score
16
Ikke positiv score
Fordeling
bestået 9 · 429 cooldown 8 · tomt output 7 · andet fail 1 · mangler 0
Cooldown-retry
cognitivecomputations/dolphin-mistral-24b-venice-edition:free: status=429, score=0, note=empty_output
google/gemma-4-31b-it:free: status=429, score=0, note=empty_output
meta-llama/llama-3.2-3b-instruct:free: status=429, score=0, note=empty_output
Rolle pr. model
tomt output
arcee-ai/trinity-large-thinking:free prompt/profil-retestattempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
tomt output
baidu/cobuddy:free prompt/profil-retestattempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
bestået
baidu/qianfan-ocr-fast:free validatorattempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
429 cooldown
cognitivecomputations/dolphin-mistral-24b-venice-edition:free cooldown / retryattempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
bestået
google/gemma-4-26b-a4b-it:free validatorattempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
429 cooldown
google/gemma-4-31b-it:free cooldown / retryattempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
bestået
inclusionai/ring-2.6-1t:free researchattempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
andet fail
liquid/lfm-2.5-1.2b-instruct:free prompt/profil-retestattempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · modellen svarede, men vores exact-check var for snævert eller output afveg
tomt output
liquid/lfm-2.5-1.2b-thinking:free prompt/profil-retestattempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
429 cooldown
meta-llama/llama-3.2-3b-instruct:free cooldown / retryattempts: 2 · 200: 0 · 429: 2 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
429 cooldown
meta-llama/llama-3.3-70b-instruct:free cooldown / retryattempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
429 cooldown
minimax/minimax-m2.5:free cooldown / retryattempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
429 cooldown
nousresearch/hermes-3-llama-3.1-405b:free cooldown / retryattempts: 4 · 200: 0 · 429: 4 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
bestået
nvidia/nemotron-3-nano-30b-a3b:free validatorattempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
tomt output
nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free prompt/profil-retestattempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
bestået
nvidia/nemotron-3-super-120b-a12b:free managerattempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
tomt output
nvidia/nemotron-nano-12b-v2-vl:free prompt/profil-retestattempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
bestået
nvidia/nemotron-nano-9b-v2:free validatorattempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
bestået
openai/gpt-oss-120b:free researchattempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
bestået
openai/gpt-oss-20b:free validatorattempts: 1 · 200: 1 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
tomt output
poolside/laguna-m.1:free prompt/profil-retestattempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
tomt output
poolside/laguna-xs.2:free prompt/profil-retestattempts: 1 · 200: 1 · 429: 0 · best: 0 · last: 200 · HTTP 200 men tomt output på exact-smoke; kræver anden prompt/parametre før discard
429 cooldown
qwen/qwen3-coder:free cooldown / retryattempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
429 cooldown
qwen/qwen3-next-80b-a3b-instruct:free cooldown / retryattempts: 1 · 200: 0 · 429: 1 · best: 0 · last: 429 · ikke kvalitetsafvist; upstream/provider rate-limit blokerede testen
bestået
z-ai/glm-4.5-air:free researchattempts: 2 · 200: 2 · 429: 0 · best: 100 · last: 200 · positiv Opus-score; kan bruges forsigtigt til specialistrolle
Ikke-positive: begrundelse og forbedring
tomt output
arcee-ai/trinity-large-thinking:freeBegrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
tomt output
baidu/cobuddy:freeBegrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
429 cooldown
cognitivecomputations/dolphin-mistral-24b-venice-edition:freeBegrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown
google/gemma-4-31b-it:freeBegrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
andet fail
liquid/lfm-2.5-1.2b-instruct:freeBegrundelse: Modellen svarede, men ikke med præcis free-ok; sandsynligt test-format mismatch.
Hvad kan vi gøre: Brug tolerant smoke-scorer og en rollepassende prompt; exact-match bør ikke alene afgøre discard.
tomt output
liquid/lfm-2.5-1.2b-thinking:freeBegrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
429 cooldown
meta-llama/llama-3.2-3b-instruct:freeBegrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown
meta-llama/llama-3.3-70b-instruct:freeBegrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown
minimax/minimax-m2.5:freeBegrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown
nousresearch/hermes-3-llama-3.1-405b:freeBegrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
tomt output
nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:freeBegrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
tomt output
nvidia/nemotron-nano-12b-v2-vl:freeBegrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
tomt output
poolside/laguna-m.1:freeBegrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
tomt output
poolside/laguna-xs.2:freeBegrundelse: HTTP 200 men content tomt; exact-smoke kan være for snæver eller modellen bruger reasoning/format anderledes.
Hvad kan vi gøre: Retest med normal dansk prompt, lavere/uden reasoning, max_tokens 160-300, og scorer på meningsfuldt kort svar fremfor exact string.
429 cooldown
qwen/qwen3-coder:freeBegrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
429 cooldown
qwen/qwen3-next-80b-a3b-instruct:freeBegrundelse: Provider/upstream rate-limit; ikke et kvalitetsbevis.
Hvad kan vi gøre: Retry senere, lavere parallelitet, evt. BYOK/provider-key hvis relevant; undgå at score som fail før HTTP 200.
Artifacts
Machine JSON: /llm/data/free-llm-results.json
Rapport: /opt/data/home/hermes-llm-eval/free_llm_manager/results/free_llm_nonpositive_analysis_20260512_da.txt
Sikkerhed: ingen secrets i public artifacts; ingen eksterne scripts.