Ik diagnoseer en los je HPC-cluster prestatieproblemen op
Over deze dienst
De meeste HPC-clusters draaien op 30-40% van hun daadwerkelijke capaciteit.
Niet omdat de hardware verkeerd is. Omdat de configuratie nooit is afgestemd op de daadwerkelijke workload.
Ik heb dit exacte probleem vastgesteld bij onderzoeksinstituten, AI-labs en engineeringteams. De oplossingen liggen bijna altijd in software en configuratie, niet in hardware.
Wat de audit omvat:
Gaten in Slurm-configuratie (DefMemPerCPU, cgroup, fairshare)
InfiniBand fabric gezondheid en link snelheid validatie
Opslagdoorvoer (Lustre/BeeGFS/NFS stripe configuratie)
MPI procesbinding en NUMA-topologie
HPL efficiëntie versus theoretische piek
Node gezondheid en stille hardwarefoutdetectie
Wat je ontvangt:
Geschreven diagnose met ernstbeoordeling per bevinding
Exacte oplossing voor elk probleem inclusief commando's, vóór/na benchmarkcijfers
Prioriteitenlijst: wat eerst te fixen voor maximale impact
Wat ik van jou nodig heb: SSH-toegang tot login node, je cluster specificaties en 2 uur lage activiteit voor benchmarking.
Doorlooptijd: 24-48 uur nadat toegang is verleend.
Apparaat:
Server
Besturingssysteem:
Linux
