Ik ontwerp professionele grafana dashboards voor kubernetes, linux en hpc
High Performance Computing HPC en Linux Systems Engineer
Over deze dienst
Over deze dienst
Optimaliseer je infrastructuur! Krijg bedrijfsgerichte zichtbaarheid met aangepaste Grafana dashboards ontworpen door een AI & HPC Expert.
In AI en High-Performance Computing draait alles om prestaties. Ik bouw geavanceerde observability stacks voor complexe omgevingen. Of je nu een AI training cluster beheert, Kubernetes (K8s), of een Linux HPC systeem, ik bied de real-time inzichten die je nodig hebt.
Wat ik aanbied:
- HPC & AI Monitoring: Diepe metrics voor GPU gebruik (NVIDIA/AMD), Slurm jobs, en InfiniBand.
- Kubernetes observability: Volledige monitoring voor K8s (GKE, EKS, AKS) met focus op resource gezondheid en schaalbaarheid.
- Linux expertise: Gedetailleerde dashboards voor CPU, RAM, Disk I/O en netwerk throughput.
- Intelligente alerts: Instellen van Slack- of e-mailalerts om knelpunten vroegtijdig te detecteren.
- Geavanceerde PromQL: Expert Prometheus queries voor snelle data visualisatie.
Waarom voor mij kiezen?
AI Specialist: Ik begrijp LLM training en AI inference workloads. HPC prestaties: Dashboards geoptimaliseerd voor enorme datapunten. Moderne technologie: Expert in Prometheus, Loki en OpenTelemetry.
Laten we je ruwe metrics omzetten in bruikbare prestaties vandaag nog!
Cloudprovider:
Overige
Expertise:
Installatie
•
Backup
•
Ontwikkeling
•
Configuratie
•
Prestaties
Mijn portfolio
Veelgestelde vragen
Automatische vertaling
Kun je GPU-gebruik monitoren voor AI model training?
Ja! Ik ben gespecialiseerd in het volgen van NVIDIA en AMD GPU metrics, inclusief geheugen gebruik, temperatuur en stroomverbruik. Dit is essentieel voor het optimaliseren van AI training clusters en het zorgen dat je hardware efficiënt draait.
Welke databronnen ondersteun je?
Ik werk met een breed scala aan data bronnen, waaronder Prometheus, VictoriaMetrics, InfluxDB, Loki (voor logs) en cloud-native tools zoals AWS CloudWatch en Google Stackdriver. Ik kan ook aangepaste AI/ML metric exporters integreren.
Kun je alerts instellen voor Slack of e-mail?
Absoluut. Ik configureer slimme alertregels zodat je direct wordt gewaarschuwd bij hoge CPU/GPU belasting, pod crashes in Kubernetes of job falingen in je HPC cluster. Ik kan ook on-call routing instellen.
Ondersteun je HPC schedulers zoals Slurm?
Ja. Ik kan dashboards bouwen die Slurm job queues, node beschikbaarheid en partition gezondheid visualiseren. Dit geeft HPC beheerders en onderzoekers een duidelijk overzicht van de benutting van hun cluster.
Moet ik de server voor Grafana zelf leveren?
Ik kan werken met je bestaande setup of je helpen een nieuwe instantie te implementeren op AWS, GCP, Azure of Bare Metal. Ik ondersteun ook Grafana Cloud als je voor een beheerde oplossing kiest.

