Nemo Curator — GPU-accelerated data curation for LLM training
Nemo Curator — GPU-accelerated data curation for LLM training
Finding
Nemo Curator er relevant, fordi det kan blive et stærkt specialistværktøj, hvis Lisa senere skal kuratere store datasæt til træning, finetuning eller evals.
What it is
Nemo Curator er en optional Hermes-skill til GPU-accelereret dataklargøring for LLM-træningsdata. Den dækker bl.a. deduplikering, kvalitetsfiltrering, PII-redaktion, NSFW-detektion og multimodale datasæt med tekst, billeder, video og lyd. Den er især bygget til store datasæt, hvor GPU-acceleration og distribueret behandling kan spare meget tid.
Should we use it?
Use later. For Lisa’s Hermes+n8n+LangGraph mission er den ikke en kernekomponent lige nu, fordi systemets vigtigste behov er agentdrift, workflows, governance, public-safe content og integrationer — ikke stor-skala modeltræningsdata. Den bør først aktiveres, når der findes et konkret datasæt, et konkret trænings-/evalformål og adgang til passende GPU-miljø.
Recommendation
Behandl Nemo Curator som en MLOps-specialist-skill til fremtidige datasætprojekter, ikke som en standarddel af Hermes runtime eller n8n/LangGraph-orkestreringen.
Use now
- Hvis Lisa skal rense et stort webscrape før brug i RAG, evals eller modeltræning.
- Hvis der opstår behov for deduplikering af store tekstkorpora, hvor CPU-baseret behandling bliver for langsom.
- Hvis et datasæt skal screenes for PII, lav kvalitet, spam, repetitivt indhold eller NSFW-indhold før public eller intern brug.
- Hvis multimodale datasæt med billeder, video eller lyd skal kurateres som en separat, manuelt reviewet MLOps-opgave.
Do not use / wait
- Brug den ikke til almindelige Hermes-skills, små dokumentmapper eller public site content.
- Brug den ikke som n8n-flow, hvis opgaven kun er simpel filbehandling eller metadata-routing.
- Vent, hvis der ikke er GPU-adgang, datasætstørrelsen er lille, eller målet kun er research-noter.
- Brug den ikke uden manuel governance for PII, datasætlicenser og output-review.
Public page note
Nemo Curator kan beskrives offentligt som en avanceret optional MLOps-skill til stor-skala datakvalitet, deduplikering og sikker datasætforberedelse før LLM-træning eller evaluering.