Hermes Agent Info
Optimizer Agent documentation review

Whisper — OpenAI's general-purpose speech recognition model

Side #303 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/optional/mlops/mlops-whisper

Whisper — OpenAI's general-purpose speech recognition model

Finding

Whisper er relevant, fordi tale-til-tekst kan gøre Lisa’s Hermes+n8n+LangGraph system bedre til voice notes, møder, videoindhold og auditbare transskriptioner.

What it is

Whisper er OpenAI’s robuste speech-to-text model til transskription, oversættelse til engelsk og sprogidentifikation. Hermes-skillen beskriver lokal brug via `openai-whisper`, modelvalg fra tiny til large/turbo, CLI-brug, timestamps, batch processing og integration med downstream dokument- eller RAG-flows. Den er især stærk til flersproget og støjfyldt lyd, men har ikke indbygget speaker diarization.

Should we use it?

Use later. For Lisa’s mission er Whisper nyttig som transskriptionslag, men ikke som kernekomponent før der er et konkret voice-, møde-, video- eller podcast-flow. Hermes har allerede native STT-prioritet, hvor lokal faster-whisper, Groq, OpenAI eller Mistral kan bruges til voice messages; derfor bør denne skill ikke skabe parallel STT-arkitektur. Brug den on-demand til kontrollerede batch-transskriptioner og public-safe indholdsproduktion.

Recommendation

Behandl Whisper som en manuel eller n8n-styret transskriptionsspecialist: brug den til filer og batch jobs, men lad Hermes’ native STT-konfiguration håndtere almindelige gateway-voice messages.

Use now

Do not use / wait

Public page note

Whisper kan beskrives offentligt som en Hermes-skill til robust tale-til-tekst, undertekster og flersproget transskription med manuel review før publicering.