Laat me je helpen om rommelige data om te zetten in snelle, gestructureerde en betrouwbare pipelines.
- Neem contact met me op voordat je een bestelling plaatst om je use case te bespreken.
Ik bied professionele data engineering diensten aan met Apache Spark (PySpark), Hive en Sqoop, gespecialiseerd in:
- PySpark ETL pipelines Data schoonmaken, transformeren en verrijken
- Hive optimalisatie Efficiënte partitionering, bucketing en query tuning
- Sqoop scripts Data importeren/exporteren tussen RDBMS en Hadoop
- Job optimalisatie Prestaties verbeteren en uitvoeringstijd verkorten
- Aangepaste data ingestion pipelines Gestructureerd voor batchverwerking of planning
- Schema ontwerp & data format conversie Avro, Parquet, ORC
Wat ik lever:
- PySpark scripts met modulaire en schone code
- HiveQL scripts met geoptimaliseerde queries
- Sqoop commando's voor efficiënte dataoverdracht
- Documentatie (op aanvraag)
- Ondersteuning bij deployment en debugging
Waarom voor mij kiezen?
- Meer dan 7 jaar ervaring in Big Data ecosysteem
- Ervaring op productie-niveau met Spark op grote datasets
- Schone, herbruikbare code met inline comments
- Op tijd leveren & duidelijke communicatie
Extra's (Beschikbaar in Premium plannen):
- Planning ondersteuning (Oozie)
- Unit tests & logging integratie
- Code refactoring en prestatie review van jobs