Optimizer Agent documentation review

Godmode — Jailbreak LLMs: Parseltongue, GODMODE, ULTRAPLINIAN

Side #224 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/bundled/red-teaming/red-teaming-godmode

Godmode — Jailbreak LLMs: Parseltongue, GODMODE, ULTRAPLINIAN

Finding

Denne side er vigtig, fordi den beskriver en stærk red-teaming skill, men den er for risikabel til Lisa’s Hermes+n8n+LangGraph drift uden meget stram governance.

What it is

Dokumentationssiden beskriver en bundled Hermes-skill til prompt/API-baseret jailbreaking af LLM’er. Den dækker teknikker som system-prompt manipulation, prefill messages, input-obfuskering og multi-model racing for at finde mindre filtrerede svar. Siden er nyttig som sikkerhedsreference, men indholdet er eksplicit designet til at omgå model-sikkerhed og bør derfor ikke aktiveres i almindelig assistentdrift.

Should we use it?

Avoid. For Lisa’s Hermes+n8n+LangGraph mission bør denne skill ikke bruges som driftsværktøj, fordi den går imod målet om kontrolleret, public-safe, governance-first agentadfærd. Den kan læses som defensiv research for at forstå angrebsflader mod LLM’er, men bør ikke sættes i config, cron, n8n-flows eller LangGraph-agentkæder.

Recommendation

Behandl Godmode som “security research only”: dokumentér den som en risiko, ikke som en kapabilitet, og sørg for at ingen durable profiler, gateway-sessioner eller automatiserede workflows loader den som standard.

Use now

Til defensiv awareness: forstå hvilke prompt-angreb Hermes-operatører skal kunne genkende.
Til policy-design: lave klare regler for at Hermes ikke må bruge jailbreaking, prefill-bypass eller safety-bypass prompts i produktion.
Til public-safe undervisning: forklare på højt niveau hvorfor prompt-injection og jailbreak-resistens er vigtigt, uden at gengive teknikker eller skabeloner.

Do not use / wait

Brug ikke skillen i Lisa’s normale Hermes-profil, Telegram-gateway eller CoS-agent.
Brug ikke auto-jailbreak, prefill-jailbreak eller model-racing til at omgå sikkerhedsfiltre.
Brug ikke n8n eller LangGraph til at automatisere denne type prompts.
Vent med enhver praktisk test, medmindre der findes en isoleret, godkendt red-team sandbox med klare etiske rammer og ingen public eller produktionsnær adgang.

Public page note

Godmode bør omtales offentligt som en red-team risikoreference, ikke som en anbefalet produktionsfunktion for Lisa’s Hermes+n8n+LangGraph-operativsystem.

Godmode — Jailbreak LLMs: Parseltongue, GODMODE, ULTRAPLINIAN