Ik bouw end-to-end gcp data pipelines met pubsub, kafka en dataform
Over deze dienst
Een modern data platform vereist robuuste ingestie en zorgvuldig gemodelleerde analytics. Als een Google Cloud Certified Data Engineer bouw ik end-to-end systemen die dataintegriteit garanderen van bron tot dashboard.
Ik engineer high-volume event-driven pipelines met strikte at-least-once levering, terwijl ik gecentraliseerde BigQuery-modellen ontwerp die verschillende tabellen van meer dan 19 bedrijfsafdelingen samenbrengen.
Wat ik voor jou kan doen:
- Real-time ingestie: Ontwerp veilige systemen met Apache Kafka en GCP Pub/Sub in Java Spring Boot.
- Serverless verwerking: Ontwerp losgekoppelde microservices via Cloud Run om grote datasets te transformeren.
- Dimensiemodellering: Transformeer ruwe BigQuery-data in Star Schemas met Dataform, gebruikmakend van SCD Type 2 en 4.
- Orkestratie: Orkestreer multi-stage ELT-workflows via Cloud Composer (Airflow) om Dataform-taken te automatiseren.
Technologieën die ik gebruik: GCP Pub/Sub, Kafka, BigQuery, Dataform, Java (Spring Boot), Cloud Run, Airflow en Terraform.
Waarom voor mij kiezen? Je krijgt een gecertificeerde cloud expert die robuuste data quality frameworks implementeert, foutmeldingen logt naar persistente foutentabellen zodat je analytics betrouwbaar blijven.
Laten we eerst even overleggen voordat je bestelt, zodat we de scope goed afstemmen!
Veelgestelde vragen
Automatische vertaling
Hoe ga je om met het verschil tussen streaming data en batch modellering?
Ik gebruik een moderne aanpak waarbij Pub/Sub en Cloud Run de real-time ingestie afhandelen, waarbij de data veilig in ruwe BigQuery-tabellen wordt geladen. Vervolgens plan ik Dataform via Cloud Composer (Airflow) om die ruwe data periodiek schoon te maken, testen en te modelleren tot zakelijke gereed curated tabellen.
Kun je garanderen dat geen streaming berichten verloren gaan?
Ja. Ik ontwerp systemen met strikte at-least-once leveringsgaranties, gebruikmakend van robuuste retry-logica en tussentijdse objectopslag om volledige fouttolerantie te waarborgen.
Gebruik je Dataform of dbt voor de BigQuery modellering?
Ik raad Dataform sterk aan voor native GCP stacks, omdat het volledig beheerd wordt binnen BigQuery en perfect integreert met Cloud Composer. Ik ben echter vaardig in beide tools, afhankelijk van jouw omgeving.
Hoe zorg je dat de gemodelleerde data accuraat is?
Ik implementeer een robuust data quality framework binnen Dataform om assertion failures vast te leggen. Elke validatiefout wordt automatisch doorgestuurd naar een persistent BigQuery foutentabel voor review.

