Ik schrijf pyspark jobs voor zowel batch- als streaming data
Over deze dienst
Ben je op zoek naar een ervaren Data Engineer om je data processing, ETL-pijplijnen en data lake-architectuur te stroomlijnen? Zoek niet verder! Ik heb uitgebreide expertise in het bouwen van robuuste oplossingen met PySpark, EMR, Apache Hive en zelfs Apache Hudi. Met een sterke achtergrond in batch- en streaming data processing ben ik hier om je data workflows te optimaliseren voor efficiëntie en nauwkeurigheid.
Diensten die ik aanbied:
PySpark ETL Jobs:
Transformeer, maak schoon en verwerk je data efficiënt met PySpark. Ik maak aangepaste ETL-pijplijnen die zijn afgestemd op jouw specifieke data-eisen, voor resultaten van hoge kwaliteit.
Batch & Streaming Jobs:
Of het nu gaat om het verwerken van data in bulk of het omgaan met real-time streams, ik ontwerp en implementeer zowel batch- als streaming jobs volgens de beste industry practices.
EMR Expertise:
Maak gebruik van de kracht van Amazon Elastic MapReduce (EMR) voor gedistribueerde data processing. Ik creëer EMR-clusters, optimaliseer job-uitvoering en stem prestaties af.
Andere:
Ik kan je job integreren met Apache Hive en kan zelfs mijn expertise inzetten in Apache Hudi. Ook kan ik je data dumpen op Amazon S3 als je werkt aan een DataLake.
Ik kijk ernaar uit om met je samen te werken. Proost!
Expertise:
Big data
•
Gegevensmanipulatie
•
etl
•
Transformatie
•
SQL
•
NoSQL
Technologie:
Apache Hadoop
•
apache vonk
•
Excel
•
Python
•
SQL
•
NoSQL
