Obliteratus — OBLITERATUS: abliterate LLM refusals (diff-in-means)
Obliteratus — OBLITERATUS: abliterate LLM refusals (diff-in-means)
Finding
Denne side er vigtig, fordi den viser en kraftfuld Hermes-bundled MLOps-skill til modelkirurgi, men også et område hvor Lisa bør være ekstra restriktiv af hensyn til sikkerhed, governance og mission-fit.
What it is
Obliteratus beskriver en Hermes-skill til at fjerne eller reducere refusal-adfærd i open-weight LLMs uden klassisk fine-tuning. Den bruger metoder som diff-in-means, SVD, LEACE og andre mekanistiske teknikker til at identificere og ændre vægtretninger i modellen. Dokumentationen dækker installation, GPU-krav, metodevalg, evaluering, telemetry og faldgruber. Den fremhæver også en vigtig licensgrænse: OBLITERATUS er AGPL-3.0 og bør kun kaldes via CLI, ikke importeres som Python-bibliotek i Hermes/MIT-kontekst.
Should we use it?
Avoid. For Lisa’s Hermes+n8n+LangGraph-operativsystem er dette ikke en kernefunktion, fordi missionen handler om stabil agentdrift, integration, orchestration, memory, governance og public-safe formidling — ikke om at fjerne sikkerhedsadfærd fra modeller. Risikoen for misbrug, modelskade, licenskompleksitet og uklare driftsgevinster er højere end værdien i den nuværende arkitektur. Siden bør dog kendes som MLOps-reference, så Hermes kan genkende forespørgsler om abliteration og håndtere dem sikkert.
Recommendation
Klassificér Obliteratus som “research-only / not operational” i Lisa’s Hermes Agent Info: ingen aktivering i standardprofiler, ingen cron, ingen n8n-flow, ingen LangGraph-node, og kun manuel review hvis Lisa eksplicit laver kontrolleret MLOps-forskning på open-weight modeller.
Use now
- Brug siden som dokumentationsreference, hvis Hermes skal forklare hvad “abliteration”, “uncensoring” eller “refusal direction” betyder.
- Brug den til at markere en tydelig governance-grænse: model-surgery hører ikke hjemme i standard CoS-, research-, gateway- eller automation-profiler.
- Brug den som eksempel på hvorfor licensgrænser betyder noget: AGPL-værktøjer må kaldes via CLI, men bør ikke importeres ind i Hermes-kode.
- Brug den kun i et isoleret, manuelt MLOps-lab med open-weight testmodel, eksplicit formål, hardware-tjek og evaluering af refusal-rate, perplexity og coherence.
Do not use / wait
- Brug den ikke i Lisa’s daglige Hermes-agent, Telegram-CoS, n8n workflows eller LangGraph-operativsystem.
- Brug den ikke på produktionsmodeller, fallback-modeller eller modeller der bruges til brugerkommunikation.
- Brug den ikke automatisk via cron, webhook eller baggrundsagent.
- Brug den ikke uden klar licensvurdering, GPU-budget, isoleret arbejdsmappe og manuel godkendelse.
- Brug den ikke som løsning på almindelige “modellen nægter” problemer; prompt-design, modelvalg og policy-kompatible alternativer bør komme først.
Public page note
Obliteratus kan omtales offentligt som en avanceret Hermes MLOps-reference for kontrolleret open-weight modelanalyse, men Lisa’s drift bør markere den som research-only og ikke som en standardfunktion i Hermes+n8n+LangGraph-systemet.