Ik diagnoseer en los je HPC-cluster prestatieproblemen op

Sommige informatie is automatisch vertaald.

India

Ik spreek Engels
Als HPC Solutions Architect heb ik zeven HPC-systemen geconfigureerd in heel India, waarbij ik geavanceerde hardware en software integreer voor veeleisende computationele taken. Ik ben gespecialiseerd...
Over deze dienst

De meeste HPC-clusters draaien op 30-40% van hun daadwerkelijke capaciteit.


Niet omdat de hardware verkeerd is. Omdat de configuratie nooit is afgestemd op de daadwerkelijke workload.


Ik heb dit exacte probleem vastgesteld bij onderzoeksinstituten, AI-labs en engineeringteams. De oplossingen liggen bijna altijd in software en configuratie, niet in hardware.


Wat de audit omvat:


Gaten in Slurm-configuratie (DefMemPerCPU, cgroup, fairshare)

InfiniBand fabric gezondheid en link snelheid validatie

Opslagdoorvoer (Lustre/BeeGFS/NFS stripe configuratie)

MPI procesbinding en NUMA-topologie

HPL efficiëntie versus theoretische piek

Node gezondheid en stille hardwarefoutdetectie


Wat je ontvangt:


Geschreven diagnose met ernstbeoordeling per bevinding

Exacte oplossing voor elk probleem inclusief commando's, vóór/na benchmarkcijfers

Prioriteitenlijst: wat eerst te fixen voor maximale impact


Wat ik van jou nodig heb: SSH-toegang tot login node, je cluster specificaties en 2 uur lage activiteit voor benchmarking.


Doorlooptijd: 24-48 uur nadat toegang is verleend.

Apparaat:

Server

Besturingssysteem:

Linux

Andere IT en ondersteuning diensten die ik aanbied

Gerelateerde tags