Hermes Agent Info / LLM / Test LLM Indbygget web search
Test: LLM med indbygget web search
Formålet er at finde billige, kildebaserede metoder til danske app-beskrivelser uden at omskrive samme app igen og igen.
Genereret: 2026-06-10T14:06:23.580695+00:00
Konklusion
NanoGPT /api/web provider=linkup outputType=sourcedAnswer for cheap sourced Danish descriptions; exa-answer is best chat fallback; OpenRouter Fusion for high-stakes review.
- One-shot regel: Danske app-beskrivelser genereres kun én gang pr. app_ref_id. Automatisk workflow må ikke løbende omskrive eksisterende beskrivelser; regenerering kræver manuel markering/godkendelse.
- Vigtigt fund: OpenRouter
gpt-4o-mini-search-previewvar hurtig, men fandt en ikke-canonical Hermes URL ift. vores SQLapp_directory.official_url. Kritikken viser, at den ikke bør kaldes forkert uden ekstra domæne-/redirect-verifikation. - Bedst kvalitet:
openrouter/fusion, men dyrt og langsomt.
Metoder testet15
Bestået10
Fejlet5
OpenRouter katalog-hits16
Testresultater
| Metode | Status | Latency | Pris | Kilder | Anbefaling |
|---|---|---|---|---|---|
| openrouter:openai/gpt-4o-mini-search-preview | bestået | 6.21 | 0.028 | 1 | Brug kun til hurtige brede opslag med eftervalidering. |
| openrouter:openrouter/fusion | bestået | 63.59 | 0.359 | 3 | Brug til vigtig research, ikke batch for alle apps. |
| nanogpt-chat:linkup-research-low | bestået | 42.18 | 0.2625 | 2 | Kan bruges selektivt |
| nanogpt-chat:fastgpt | fejlet | 0.19 | Undgå pt. | ||
| nanogpt-chat:brave | bestået | 2.94 | 0.05692 | 3 | Kan bruges selektivt |
| nanogpt-chat:exa-answer | bestået | 2.9 | 0.005 | 9 | God kandidat |
| nanogpt-web:linkup_standard_searchResults | bestået | 1.62 | 0.006 | 15 | Rå kildeindsamling |
| nanogpt-web:linkup_standard_sourcedAnswer | bestået | 3.09 | 0.006 | 15 | Primær billig løsning |
| nanogpt-web:linkup_standard_structured | fejlet | Ikke anbefalet pt. | |||
| nanogpt-web:linkup_deep_searchResults | bestået | Rå kildeindsamling | |||
| nanogpt-web:brave_standard_searchResults | bestået | 1.12 | 0.005 | 10 | Rå kildeindsamling |
| nanogpt-web:brave_standard_sourcedAnswer | fejlet | Ikke anbefalet pt. | |||
| nanogpt-web:exa_standard_searchResults | bestået | 1.3 | 0.005 | 5 | Rå kildeindsamling |
| nanogpt-web:exa_standard_sourcedAnswer | fejlet | Ikke anbefalet pt. | |||
| nanogpt-web:linkup_standard_answer_old | fejlet | Ikke anbefalet pt. |
Prompts og test-instrukser
Her er de konkrete prompts/instrukser, der blev brugt i smoke-testen.
OpenRouter: openai/gpt-4o-mini-search-preview
model: openai/gpt-4o-mini-search-preview
endpoint: https://openrouter.ai/api/v1/chat/completions
prompt: What is Hermes Agent by Nous Research? Find the official website URL and give a short description of its purpose. Cite your sources (URLs).
extra: web_search_options = {}
OpenRouter: openrouter/fusion
model: openrouter/fusion
endpoint: https://openrouter.ai/api/v1/chat/completions
prompt: What is Hermes Agent by Nous Research? Find the official website URL and give a short description of its purpose. Cite your sources (URLs).
extra: tool_choice = required
NanoGPT chat-modeller
endpoint: https://nano-gpt.com/api/v1/chat/completions
models: linkup-research-low, fastgpt, brave, exa-answer
prompt: Find the official website and give a concise purpose description for Hermes Agent by Nous Research. Include sources.
NanoGPT /api/web
endpoint: https://nano-gpt.com/api/web
query: Find official website + concise purpose for Hermes Agent by Nous Research with sources
providers: linkup, brave, exa
depth: standard/deep
outputType: searchResults, sourcedAnswer, structured
Uafhængig kritik
En separat agent har kritiseret testen. Hovedvurderingen: testen er et nyttigt smoke-test første udkast, men konklusionerne var for stærke til at være et produktionsbenchmark.
- Metodekritik: kun én prompt pr. model, ét emne og ingen gentagelser.
- Ground truth:
hermes-agent.orgbør kaldes ikke-canonical ift. vores SQL, ikke nødvendigvis forkert, før domæne/redirect er verificeret. - Fairness: Fusion, exa-answer og /api/web er forskellige produkttyper og bør scores med rubric, ikke bare pris/latency.
- Før produktion: lav 10-app ground truth, 3 gentagelser pr. metode, URL-verifikation og dansk prompt-test.
Prioriterede optimeringsforslag
- Definér en ground-truth tabel med 10 apps og verificerede canonical URLs.
- Kør 3 gentagelser pr. metode og rapportér P50/P95 latency + cost.
- Indfør URL-verifikation: HTTP status, redirect chain, canonical match og domæneautoritet.
- Test Perplexity Sonar,
gpt-4o-search-previewogrelace/relace-search. - Tilføj danske prompts og scoring-rubric 0-5.
- Brug cache, fallback-kæde, circuit breaker og one-shot lock pr.
app_ref_id.
Workflow 3B / 3C forslag
- Find apps i SQL hvor dansk beskrivelse mangler.
- Indsaml kilder med billig metode: først NanoGPT
/api/weblinkupsourcedAnswerellersearchResults. - Gem kilder/snippets i SQL på
app_ref_id. - Lav dansk beskrivelse én gang med billig LLM ud fra kilderne.
- Opdater aldrig automatisk eksisterende dansk beskrivelse uden manuel markering.
Model discovery
OpenRouter modelkataloget kan filtreres på ord som web, search og research i model-id, navn og beskrivelse. Aktuelle hits:
openrouter/fusion— OpenRouter: Fusion match: webx-ai/grok-4.20-multi-agent— xAI: Grok 4.20 Multi-Agent match: researchrelace/relace-search— Relace: Relace Search match: searchperplexity/sonar-pro-search— Perplexity: Sonar Pro Search match: searchopenai/o3-deep-research— OpenAI: o3 Deep Research match: researchopenai/o4-mini-deep-research— OpenAI: o4 Mini Deep Research match: researchnousresearch/hermes-4-70b— Nous: Hermes 4 70B match: Researchnousresearch/hermes-4-405b— Nous: Hermes 4 405B match: Researchbytedance/ui-tars-1.5-7b— ByteDance: UI-TARS 7B match: webopenai/gpt-4o-mini-search-preview— OpenAI: GPT-4o-mini Search Preview match: searchopenai/gpt-4o-search-preview— OpenAI: GPT-4o Search Preview match: searchperplexity/sonar-reasoning-pro— Perplexity: Sonar Reasoning Pro match: searchperplexity/sonar-pro— Perplexity: Sonar Pro match: searchperplexity/sonar-deep-research— Perplexity: Sonar Deep Research match: researchmicrosoft/phi-4— Microsoft: Phi 4 match: Researchgoogle/gemma-2-27b-it— Google: Gemma 2 27B match: research
Data
- llm-web-search-test-results.json
- llm-web-search-test-results.csv
- llm-web-search-critique.json
- llm-web-search-critique.md
/opt/data/llm-web-search-tests/openrouter/guide.md/opt/data/llm-web-search-tests/nanogpt/20260610T135413Z/guide.md