Ik bouw een real-time data lakehouse pipeline
Python developer, FastAPI, Web scraping, AI automation, Data engineering
Over deze dienst
Wil je een real-time data pipeline bouwen die je data warehouse altijd up-to-date houdt zonder handmatige ETL jobs?
Ik ontwerp en lever een volledig geautomatiseerde, end-to-end data lakehouse pipeline die elke verandering in je database vastlegt op het moment dat het gebeurt, het door Kafka streamt en het als querybare Delta Lake tabellen landt, allemaal gecoördineerd en gemonitord door Apache Airflow.
Wat je krijgt:
- Live CDC van je MySQL database (geen downtime, geen handmatige exports)
- Schaalbare stream processing met Apache Spark
- S3-compatibele Delta Lake opslag (MinIO) query met Trino of Spark SQL
- Airflow DAG voor automatische health checks en pipeline monitoring
- Volledig Dockerized runs op je server of cloud VM
- Setup gids en documentatie inbegrepen
Perfect voor startups, data teams en bedrijven die betrouwbare, real-time data beschikbaarheid nodig hebben zonder complexe infrastructuur vanaf nul te beheren.
Mijn portfolio
Veelgestelde vragen
Automatische vertaling
Welke informatie heb je nodig om aan de slag te gaan?
Ik heb details nodig over je bron database (type, versie, grootte), je voorkeursopslag en je server/cloud omgeving. Als je het niet zeker weet, kan een gratis discovery call helpen om het in kaart te brengen.
Kun je verbinden met mijn bestaande database zonder downtime?
Ja. Met CDC (Change Data Capture) via Debezium leest de pipeline je MySQL binary log — geen locks, geen downtime, geen impact op je lopende applicatie.
Wat levert de pipeline in real time op?
Elke INSERT, UPDATE en DELETE in je bron database wordt direct vastgelegd en binnen seconden in Delta Lake tabellen op MinIO (S3-compatibel) opgeslagen — querybaar via Spark SQL of Trino.
Heb ik cloud infrastructuur nodig of draait dit on-premise?
Beide. De volledige stack draait op Docker Compose — je kunt het op je lokale server, een cloud VM (AWS EC2, GCP, Azure) of elke Linux machine met 8GB+ RAM deployen.
Kun je schema wijzigingen in mijn bron database verwerken?
Ja. De pipeline is ontworpen met schema evolutie in gedachten. Ik configureer Debezium en Spark zodat nieuwe kolommen en type wijzigingen soepel worden afgehandeld zonder de pipeline te breken.
Zet je een NDA ondertekenen als mijn data gevoelig is?
Absoluut. Ik ben bereid een NDA te ondertekenen voordat het project start.
Bieden jullie ondersteuning na de bevalling?
Ja — 7 dagen (Basic), 14 dagen (Standard), 30 dagen (Premium) voor bug fixes en deployment issues.

