Pytorch Fsdp
Pytorch Fsdp
Finding
Denne side er relevant som MLOps-specialviden til stor distributed PyTorch-træning, men den er ikke kernefunktionalitet for Lisa’s nuværende Hermes+n8n+LangGraph-operativsystem.
What it is
Pytorch Fsdp-skillen giver Hermes ekspertvejledning i Fully Sharded Data Parallel-træning med PyTorch. Den dækker parameter-sharding, distributed process groups, NCCL/Gloo-backends, mixed precision, CPU offloading og nyere FSDP2-mønstre. Den er målrettet store modeltræningsjobs, hvor GPU-hukommelse, multi-node kommunikation og distributed debugging er centrale problemer.
Should we use it?
Use later. Lisa’s mission handler primært om agent-runtime, governance, workflows, memory, public-safe automation og rollefordeling mellem Hermes, n8n og LangGraph. FSDP bliver først relevant, hvis systemet begynder at træne eller fine-tune større PyTorch-modeller selv, især på multi-GPU eller multi-node infrastruktur. Indtil da bør Hermes ikke installere skillen som standard, fordi den tilføjer specialistkontekst uden daglig driftsværdi.
Recommendation
Marker Pytorch Fsdp som en on-demand MLOps-skill, der kun installeres ved konkret distributed training eller model fine-tuning-projekt.
Use now
- Når Lisa skal vurdere en konkret PyTorch fine-tuning-plan for store modeller.
- Når en træningsopgave fejler på GPU-hukommelse, sharding, NCCL, process groups eller distributed hangs.
- Når Hermes skal reviewe kode for FSDP/FSDP2-konfiguration, mixed precision eller CPU offloading.
- Når LangGraph/Hermes skal orkestrere research omkring modeltræning, men ikke selv er runtime for træningen.
Do not use / wait
- Brug den ikke til almindelig Hermes-agentdrift, n8n workflows eller LangGraph orchestration.
- Brug den ikke til inference-only modelrouting eller provider-valg; det er et andet lag.
- Vent med installation, hvis Lisa ikke har aktiv multi-GPU træning eller fine-tuning i pipeline.
- Brug den ikke som erstatning for simpel hosted modelbrug via eksisterende providers.
Public page note
Pytorch Fsdp er en avanceret MLOps-skill til distributed PyTorch-træning og bør beskrives offentligt som specialiseret on-demand ekspertise, ikke som en nødvendig del af standard Hermes-agentdrift.