Optimizer Agent documentation review

Voice & TTS

Side #118 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/features/tts

Voice & TTS

Finding

Denne side er vigtig, fordi Voice & TTS gør Hermes mere tilgængelig i Telegram og andre chatkanaler uden at flytte voice-logik ud i n8n eller LangGraph.

What it is

Voice & TTS beskriver Hermes’ native tekst-til-tale og tale-til-tekst. Hermes kan sende svar som lyd, transskribere indgående voice-beskeder og vælge mellem gratis, lokale og betalte TTS/STT-providere. Siden dækker også Telegram voice bubbles, ffmpeg-krav, input-limits og command-baserede custom voice providers.

Should we use it?

Use now. For Lisa’s Hermes+n8n+LangGraph mission bør Hermes eje voice-laget, fordi det ligger tæt på gateway, sessioner, memory og agentens svar. n8n bør ikke bygge separat TTS/STT-flow, medmindre der er et konkret integrationsbehov uden for Hermes-chatten. LangGraph bør heller ikke eje voice, medmindre et stateful multi-agent flow specifikt kræver voice som en del af proces-state.

Recommendation

Brug Hermes’ native TTS/STT som standard for Telegram-brugeroplevelsen, med Edge TTS som billig baseline og dansk stemme, og vent med betalte eller custom providers indtil der er et klart kvalitets- eller brandingbehov.

Use now

Når Lisa sender voice-beskeder til Hermes og vil have dem transskriberet direkte ind i samtalen.
Når korte Hermes-svar skal kunne leveres som TTS i Telegram.
Når accessibility eller hands-free drift er vigtigere end perfekt studiokvalitet.
Når Hermes skal være “front door” for CoS-, research- eller operationsbeskeder uden ekstra n8n-flow.

Do not use / wait

Brug ikke lange rapporter som voice-output; send hellere tekst eller artifact og kun en kort TTS-summary.
Vent med ElevenLabs, OpenAI, MiniMax, Mistral eller xAI TTS, indtil der er en konkret kvalitetsgrund og budget.
Brug ikke custom command providers til voice-cloning eller eksterne engines, før drift, sikkerhed og vedligehold er afklaret.
Lad ikke n8n eller LangGraph bygge parallel STT/TTS for almindelige Hermes-chatflows.

Public page note

Hermes kan beskrives offentligt som et agent-native voice-lag, der kan transskribere voice-beskeder og levere korte lydsvar på tværs af chatplatforme uden at afsløre private stemmer, logs, nøgler eller intern konfiguration.

Voice & TTS

Voice & TTS

Finding

What it is

Should we use it?

Recommendation

Use now

Do not use / wait

Public page note

Hermes Agent Info