Ik bouw spark ETL-pijplijnen voor batchverwerking en big data-workflows
Schaalbare oplossingen, schone code en duidelijke communicatie
Over deze dienst
Ik ontwerp en ontwikkel schaalbare Spark ETL-pijplijnen voor batch data verwerking, transformatie en workflows met grote volumes.
Deze dienst is ideaal voor bedrijven die data willen verwerken uit bestanden, databases, APIs of andere gestructureerde bronnen op een betrouwbare en onderhoudsvriendelijke manier. Of je nu een nieuwe batch-pijplijn vanaf nul nodig hebt of verbeteringen aan een bestaande taak, ik help je een schone en productiegerichte oplossing te bouwen.
Ik richt me op praktische data engineering-resultaten zoals ingestie, transformatie, validatie, aggregatie en levering in analytics-klare datasets of downstream systemen.
Wat deze dienst kan omvatten
- Spark of PySpark ETL-pijplijn ontwikkeling
- batchverwerking voor grote datasets
- gegevensinvoer uit CSV, JSON, Parquet, APIs en databases
- gegevensopschoning, normalisatie en transformatie
- joins, aggregaties, filtering en verrijkingslogica
- output naar bestanden, data warehouses of databases
- optimalisatie en refactoring van bestaande Spark-taken
- gestructureerde logging en onderhoudsvriendelijke codeorganisatie
- basisdocumentatie en overdrachtsondersteuning
Technologie:
apache vonk
•
BigQuery
•
Python
•
Scala
•
SQL
•
Apache Airflow
Veelgestelde vragen
Automatische vertaling
Kun je werken met een bestaande Spark-codebasis?
Ja. Ik kan een bestaande Spark-pijplijn verbeteren, refactoren, debuggen of uitbreiden.
Kan dit PySpark omvatten?
Ja. PySpark wordt volledig ondersteund.
Kun je helpen met prestatieverbeteringen?
Ja. Als je huidige taak traag is of moeilijk te onderhouden, kan ik de structuur van de pijplijn en het verwerkingsproces optimaliseren.
Behandel je ook volledige deployment?
Deze dienst richt zich vooral op ontwikkeling, maar deploymentondersteuning kan besproken worden afhankelijk van de omgeving.
