Optimizer Agent documentation review

Obliteratus — OBLITERATUS: abliterate LLM refusals (diff-in-means)

Side #209 · Kilde: https://hermes-agent.nousresearch.com/docs/user-guide/skills/bundled/mlops/mlops-inference-obliteratus

Obliteratus — OBLITERATUS: abliterate LLM refusals (diff-in-means)

Finding

Denne side er vigtig, fordi den viser en kraftfuld Hermes-bundled MLOps-skill til modelkirurgi, men også et område hvor Lisa bør være ekstra restriktiv af hensyn til sikkerhed, governance og mission-fit.

What it is

Obliteratus beskriver en Hermes-skill til at fjerne eller reducere refusal-adfærd i open-weight LLMs uden klassisk fine-tuning. Den bruger metoder som diff-in-means, SVD, LEACE og andre mekanistiske teknikker til at identificere og ændre vægtretninger i modellen. Dokumentationen dækker installation, GPU-krav, metodevalg, evaluering, telemetry og faldgruber. Den fremhæver også en vigtig licensgrænse: OBLITERATUS er AGPL-3.0 og bør kun kaldes via CLI, ikke importeres som Python-bibliotek i Hermes/MIT-kontekst.

Should we use it?

Avoid. For Lisa’s Hermes+n8n+LangGraph-operativsystem er dette ikke en kernefunktion, fordi missionen handler om stabil agentdrift, integration, orchestration, memory, governance og public-safe formidling — ikke om at fjerne sikkerhedsadfærd fra modeller. Risikoen for misbrug, modelskade, licenskompleksitet og uklare driftsgevinster er højere end værdien i den nuværende arkitektur. Siden bør dog kendes som MLOps-reference, så Hermes kan genkende forespørgsler om abliteration og håndtere dem sikkert.

Recommendation

Klassificér Obliteratus som “research-only / not operational” i Lisa’s Hermes Agent Info: ingen aktivering i standardprofiler, ingen cron, ingen n8n-flow, ingen LangGraph-node, og kun manuel review hvis Lisa eksplicit laver kontrolleret MLOps-forskning på open-weight modeller.

Use now

Brug siden som dokumentationsreference, hvis Hermes skal forklare hvad “abliteration”, “uncensoring” eller “refusal direction” betyder.
Brug den til at markere en tydelig governance-grænse: model-surgery hører ikke hjemme i standard CoS-, research-, gateway- eller automation-profiler.
Brug den som eksempel på hvorfor licensgrænser betyder noget: AGPL-værktøjer må kaldes via CLI, men bør ikke importeres ind i Hermes-kode.
Brug den kun i et isoleret, manuelt MLOps-lab med open-weight testmodel, eksplicit formål, hardware-tjek og evaluering af refusal-rate, perplexity og coherence.

Do not use / wait

Brug den ikke i Lisa’s daglige Hermes-agent, Telegram-CoS, n8n workflows eller LangGraph-operativsystem.
Brug den ikke på produktionsmodeller, fallback-modeller eller modeller der bruges til brugerkommunikation.
Brug den ikke automatisk via cron, webhook eller baggrundsagent.
Brug den ikke uden klar licensvurdering, GPU-budget, isoleret arbejdsmappe og manuel godkendelse.
Brug den ikke som løsning på almindelige “modellen nægter” problemer; prompt-design, modelvalg og policy-kompatible alternativer bør komme først.

Public page note

Obliteratus kan omtales offentligt som en avanceret Hermes MLOps-reference for kontrolleret open-weight modelanalyse, men Lisa’s drift bør markere den som research-only og ikke som en standardfunktion i Hermes+n8n+LangGraph-systemet.