Modal Serverless Gpu — Serverless GPU cloud platform for running ML workloads
Modal Serverless Gpu — Serverless GPU cloud platform for running ML workloads
Finding
Modal-skillen er vigtig, fordi den giver Hermes en praktisk vej til on-demand GPU-kørsel uden at Lisa skal drifte GPU-servere selv.
What it is
Modal er en serverless GPU-platform, hvor ML-jobs, inference-endpoints og batchprocesser defineres direkte i Python. Siden beskriver installation, GPU-valg, container images, secrets, web endpoints, persistent storage, batching, cron-lignende jobs og performance-tuning. I Hermes-kontekst er det en MLOps-skill til at køre tunge modeller eller eksperimenter eksternt, mens Hermes bevarer styring, review og governance.
Should we use it?
Use later. Modal passer godt til Lisa’s Hermes+n8n+LangGraph mission, men kun når der er et konkret GPU-behov, fx model-inference, batchkørsel eller public demo-API. Det bør ikke være en standarddel af core OS endnu, fordi det introducerer cloud-omkostninger, secrets, deploy-governance og modeldrift. Hermes bør først bruge native/managed model providers og eksisterende tools, før vi deployer egne GPU workloads.
Recommendation
Installer og brug Modal-skillen on-demand, når Lisa har en konkret GPU-opgave, og lav altid en lille test med budgetgrænse, manuel review og klar rollefordeling: Hermes styrer opgaven, Modal kører GPU-workloaden, n8n kalder kun godkendte endpoints, og LangGraph bruges kun hvis workflowet kræver stateful multi-agent orkestrering.
Use now
- Hurtig prototype af ML-inference, hvor en model kræver GPU og ikke kan køres effektivt via eksisterende modelprovider.
- Batchjobs til billed-, video-, embeddings- eller model-evaluering, hvor pay-per-second GPU er bedre end permanent infrastruktur.
- Midlertidige API-endpoints til demoer, tests eller interne workflows, før noget gøres public-facing.
- Eksperimenter med GPU-typer som L4, A10G, L40S eller A100, hvor pris/performance skal afklares.
Do not use / wait
- Brug ikke Modal til almindelige Hermes-opgaver, tekstgenerering eller automation, der allerede klares af eksisterende LLM-providers.
- Vent med permanent deployment, indtil der er budgetstyring, secrets-håndtering, logging-policy og manuel release-gate.
- Brug ikke Modal som erstatning for Hermes cron, skills eller memory; det er kun compute-laget.
- Undgå public endpoints uden auth, rate limits, sanitiseret input/output og klar ejer for drift.
Public page note
Modal kan beskrives offentligt som en optional MLOps-skill til serverless GPU-kørsel, hvor Hermes kan orkestrere tunge ML-jobs uden selv at eje GPU-infrastruktur.