Hermes Agent Info
Optimizer Agent documentation review

Obliteratus — OBLITERATUS: abliterate LLM refusals (diff-in-means)

Side #209 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/bundled/mlops/mlops-inference-obliteratus

Obliteratus — OBLITERATUS: abliterate LLM refusals (diff-in-means)

Finding

Denne side er vigtig, fordi den viser en kraftfuld Hermes-bundled MLOps-skill til modelkirurgi, men også et område hvor Lisa bør være ekstra restriktiv af hensyn til sikkerhed, governance og mission-fit.

What it is

Obliteratus beskriver en Hermes-skill til at fjerne eller reducere refusal-adfærd i open-weight LLMs uden klassisk fine-tuning. Den bruger metoder som diff-in-means, SVD, LEACE og andre mekanistiske teknikker til at identificere og ændre vægtretninger i modellen. Dokumentationen dækker installation, GPU-krav, metodevalg, evaluering, telemetry og faldgruber. Den fremhæver også en vigtig licensgrænse: OBLITERATUS er AGPL-3.0 og bør kun kaldes via CLI, ikke importeres som Python-bibliotek i Hermes/MIT-kontekst.

Should we use it?

Avoid. For Lisa’s Hermes+n8n+LangGraph-operativsystem er dette ikke en kernefunktion, fordi missionen handler om stabil agentdrift, integration, orchestration, memory, governance og public-safe formidling — ikke om at fjerne sikkerhedsadfærd fra modeller. Risikoen for misbrug, modelskade, licenskompleksitet og uklare driftsgevinster er højere end værdien i den nuværende arkitektur. Siden bør dog kendes som MLOps-reference, så Hermes kan genkende forespørgsler om abliteration og håndtere dem sikkert.

Recommendation

Klassificér Obliteratus som “research-only / not operational” i Lisa’s Hermes Agent Info: ingen aktivering i standardprofiler, ingen cron, ingen n8n-flow, ingen LangGraph-node, og kun manuel review hvis Lisa eksplicit laver kontrolleret MLOps-forskning på open-weight modeller.

Use now

Do not use / wait

Public page note

Obliteratus kan omtales offentligt som en avanceret Hermes MLOps-reference for kontrolleret open-weight modelanalyse, men Lisa’s drift bør markere den som research-only og ikke som en standardfunktion i Hermes+n8n+LangGraph-systemet.