Hermes Agent Info / LLM / Test LLM Indbygget web search

Test: LLM med indbygget web search

Formålet er at finde billige, kildebaserede metoder til danske app-beskrivelser uden at omskrive samme app igen og igen.

Genereret: 2026-06-10T14:06:23.580695+00:00

Konklusion

NanoGPT /api/web provider=linkup outputType=sourcedAnswer for cheap sourced Danish descriptions; exa-answer is best chat fallback; OpenRouter Fusion for high-stakes review.

One-shot regel: Danske app-beskrivelser genereres kun én gang pr. app_ref_id. Automatisk workflow må ikke løbende omskrive eksisterende beskrivelser; regenerering kræver manuel markering/godkendelse.
Vigtigt fund: OpenRouter gpt-4o-mini-search-preview var hurtig, men fandt en ikke-canonical Hermes URL ift. vores SQL app_directory.official_url. Kritikken viser, at den ikke bør kaldes forkert uden ekstra domæne-/redirect-verifikation.
Bedst kvalitet: openrouter/fusion, men dyrt og langsomt.

Metoder testet15

Bestået10

Fejlet5

OpenRouter katalog-hits16

Testresultater

Metode	Status	Latency	Pris	Kilder	Anbefaling
openrouter:openai/gpt-4o-mini-search-preview	bestået	6.21	0.028	1	Brug kun til hurtige brede opslag med eftervalidering.
openrouter:openrouter/fusion	bestået	63.59	0.359	3	Brug til vigtig research, ikke batch for alle apps.
nanogpt-chat:linkup-research-low	bestået	42.18	0.2625	2	Kan bruges selektivt
nanogpt-chat:fastgpt	fejlet	0.19			Undgå pt.
nanogpt-chat:brave	bestået	2.94	0.05692	3	Kan bruges selektivt
nanogpt-chat:exa-answer	bestået	2.9	0.005	9	God kandidat
nanogpt-web:linkup_standard_searchResults	bestået	1.62	0.006	15	Rå kildeindsamling
nanogpt-web:linkup_standard_sourcedAnswer	bestået	3.09	0.006	15	Primær billig løsning
nanogpt-web:linkup_standard_structured	fejlet				Ikke anbefalet pt.
nanogpt-web:linkup_deep_searchResults	bestået				Rå kildeindsamling
nanogpt-web:brave_standard_searchResults	bestået	1.12	0.005	10	Rå kildeindsamling
nanogpt-web:brave_standard_sourcedAnswer	fejlet				Ikke anbefalet pt.
nanogpt-web:exa_standard_searchResults	bestået	1.3	0.005	5	Rå kildeindsamling
nanogpt-web:exa_standard_sourcedAnswer	fejlet				Ikke anbefalet pt.
nanogpt-web:linkup_standard_answer_old	fejlet				Ikke anbefalet pt.

Prompts og test-instrukser

Her er de konkrete prompts/instrukser, der blev brugt i smoke-testen.

OpenRouter: `openai/gpt-4o-mini-search-preview`

model: openai/gpt-4o-mini-search-preview
endpoint: https://openrouter.ai/api/v1/chat/completions
prompt: What is Hermes Agent by Nous Research? Find the official website URL and give a short description of its purpose. Cite your sources (URLs).
extra: web_search_options = {}

OpenRouter: `openrouter/fusion`

model: openrouter/fusion
endpoint: https://openrouter.ai/api/v1/chat/completions
prompt: What is Hermes Agent by Nous Research? Find the official website URL and give a short description of its purpose. Cite your sources (URLs).
extra: tool_choice = required

NanoGPT chat-modeller

endpoint: https://nano-gpt.com/api/v1/chat/completions
models: linkup-research-low, fastgpt, brave, exa-answer
prompt: Find the official website and give a concise purpose description for Hermes Agent by Nous Research. Include sources.

NanoGPT /api/web

endpoint: https://nano-gpt.com/api/web
query: Find official website + concise purpose for Hermes Agent by Nous Research with sources
providers: linkup, brave, exa
depth: standard/deep
outputType: searchResults, sourcedAnswer, structured

Uafhængig kritik

En separat agent har kritiseret testen. Hovedvurderingen: testen er et nyttigt smoke-test første udkast, men konklusionerne var for stærke til at være et produktionsbenchmark.

Metodekritik: kun én prompt pr. model, ét emne og ingen gentagelser.
Ground truth: hermes-agent.org bør kaldes ikke-canonical ift. vores SQL, ikke nødvendigvis forkert, før domæne/redirect er verificeret.
Fairness: Fusion, exa-answer og /api/web er forskellige produkttyper og bør scores med rubric, ikke bare pris/latency.
Før produktion: lav 10-app ground truth, 3 gentagelser pr. metode, URL-verifikation og dansk prompt-test.

Prioriterede optimeringsforslag

Definér en ground-truth tabel med 10 apps og verificerede canonical URLs.
Kør 3 gentagelser pr. metode og rapportér P50/P95 latency + cost.
Indfør URL-verifikation: HTTP status, redirect chain, canonical match og domæneautoritet.
Test Perplexity Sonar, gpt-4o-search-preview og relace/relace-search.
Tilføj danske prompts og scoring-rubric 0-5.
Brug cache, fallback-kæde, circuit breaker og one-shot lock pr. app_ref_id.

Kritik som JSON · Kritik som markdown

Workflow 3B / 3C forslag

Find apps i SQL hvor dansk beskrivelse mangler.
Indsaml kilder med billig metode: først NanoGPT /api/web linkup sourcedAnswer eller searchResults.
Gem kilder/snippets i SQL på app_ref_id.
Lav dansk beskrivelse én gang med billig LLM ud fra kilderne.
Opdater aldrig automatisk eksisterende dansk beskrivelse uden manuel markering.

Model discovery

OpenRouter modelkataloget kan filtreres på ord som web, search og research i model-id, navn og beskrivelse. Aktuelle hits:

openrouter/fusion — OpenRouter: Fusion match: web
x-ai/grok-4.20-multi-agent — xAI: Grok 4.20 Multi-Agent match: research
relace/relace-search — Relace: Relace Search match: search
perplexity/sonar-pro-search — Perplexity: Sonar Pro Search match: search
openai/o3-deep-research — OpenAI: o3 Deep Research match: research
openai/o4-mini-deep-research — OpenAI: o4 Mini Deep Research match: research
nousresearch/hermes-4-70b — Nous: Hermes 4 70B match: Research
nousresearch/hermes-4-405b — Nous: Hermes 4 405B match: Research
bytedance/ui-tars-1.5-7b — ByteDance: UI-TARS 7B match: web
openai/gpt-4o-mini-search-preview — OpenAI: GPT-4o-mini Search Preview match: search
openai/gpt-4o-search-preview — OpenAI: GPT-4o Search Preview match: search
perplexity/sonar-reasoning-pro — Perplexity: Sonar Reasoning Pro match: search
perplexity/sonar-pro — Perplexity: Sonar Pro match: search
perplexity/sonar-deep-research — Perplexity: Sonar Deep Research match: research
microsoft/phi-4 — Microsoft: Phi 4 match: Research
google/gemma-2-27b-it — Google: Gemma 2 27B match: research

Data

llm-web-search-test-results.json
llm-web-search-test-results.csv
llm-web-search-critique.json
llm-web-search-critique.md
/opt/data/llm-web-search-tests/openrouter/guide.md
/opt/data/llm-web-search-tests/nanogpt/20260610T135413Z/guide.md