Voice & TTS
Voice & TTS
Finding
Denne side er vigtig, fordi Voice & TTS gør Hermes mere tilgængelig i Telegram og andre chatkanaler uden at flytte voice-logik ud i n8n eller LangGraph.
What it is
Voice & TTS beskriver Hermes’ native tekst-til-tale og tale-til-tekst. Hermes kan sende svar som lyd, transskribere indgående voice-beskeder og vælge mellem gratis, lokale og betalte TTS/STT-providere. Siden dækker også Telegram voice bubbles, ffmpeg-krav, input-limits og command-baserede custom voice providers.
Should we use it?
Use now. For Lisa’s Hermes+n8n+LangGraph mission bør Hermes eje voice-laget, fordi det ligger tæt på gateway, sessioner, memory og agentens svar. n8n bør ikke bygge separat TTS/STT-flow, medmindre der er et konkret integrationsbehov uden for Hermes-chatten. LangGraph bør heller ikke eje voice, medmindre et stateful multi-agent flow specifikt kræver voice som en del af proces-state.
Recommendation
Brug Hermes’ native TTS/STT som standard for Telegram-brugeroplevelsen, med Edge TTS som billig baseline og dansk stemme, og vent med betalte eller custom providers indtil der er et klart kvalitets- eller brandingbehov.
Use now
- Når Lisa sender voice-beskeder til Hermes og vil have dem transskriberet direkte ind i samtalen.
- Når korte Hermes-svar skal kunne leveres som TTS i Telegram.
- Når accessibility eller hands-free drift er vigtigere end perfekt studiokvalitet.
- Når Hermes skal være “front door” for CoS-, research- eller operationsbeskeder uden ekstra n8n-flow.
Do not use / wait
- Brug ikke lange rapporter som voice-output; send hellere tekst eller artifact og kun en kort TTS-summary.
- Vent med ElevenLabs, OpenAI, MiniMax, Mistral eller xAI TTS, indtil der er en konkret kvalitetsgrund og budget.
- Brug ikke custom command providers til voice-cloning eller eksterne engines, før drift, sikkerhed og vedligehold er afklaret.
- Lad ikke n8n eller LangGraph bygge parallel STT/TTS for almindelige Hermes-chatflows.
Public page note
Hermes kan beskrives offentligt som et agent-native voice-lag, der kan transskribere voice-beskeder og levere korte lydsvar på tværs af chatplatforme uden at afsløre private stemmer, logs, nøgler eller intern konfiguration.