Ik bouw AI agents web scraping bots en data extractie pipelines in Python


Over deze dienst
Automatische vertaling
Voor wie dit is
- Oprichters en operationeel leiders die terugkerende data nodig hebben (prijsmonitoring, leadverrijking, marktonderzoek)
- Onderzoekers en analisten die gestructureerde data ophalen van openbare websites of PDF's
- ML- en AI-teams die trainingsdata verzamelen
- Agencies waarvan klanten vragen om "haal dit voor ons op" en die een betrouwbare onderaannemer nodig hebben
Wat ik bouw
- Web scrapers in Python (Scrapy, BeautifulSoup, Playwright) of Node (Playwright, Puppeteer)
- AI-gestuurde parsing met OpenAI of Claude zodat ongestructureerde pagina's worden omgezet in getypte JSON, niet in regex-spaghetti
- Terugkerende data pipelines met planning, deduplicatie, wijzigingsdetectie en waarschuwingen
- PDF-, document- en OCR-extractie wanneer de data niet op een webpagina staat
Stack
Python, JavaScript, TypeScript, Scrapy, BeautifulSoup, Playwright, Puppeteer, Selenium, requests, httpx, Pandas, OpenAI
API, Anthropic Claude API, functie-aanroepen en gestructureerde outputs, PostgreSQL, MongoDB, Supabase, Airtable, Google
Sheets
Maak kennis met Hamza Khan
Experienced Full Stack AI Developer
- Afkomstig uitPakistan
- Lid sindsfeb 2020
- Gem. reactietijd6 uur
- Laatste levering1 jaar
Talen
Engels, Hindi, Italiaans, Frans
Automatische vertaling
Mijn portfolio
Andere Software development diensten die ik aanbied
Veelgestelde vragen
Automatische vertaling
Wat is het verschil tussen reguliere scraping en "AI-gestuurde extractie"?
Reguliere scraping gebruikt CSS/XPath selectors die breken zodra een site de layout wijzigt. AI-gestuurde extractie gebruikt Claude of GPT om de pagina te lezen zoals een mens dat zou doen en gestructureerde JSON terug te geven volgens jouw schema. Het is veerkrachtiger, kan rommelige layouts aan en laat je semantische velden extraheren.
Blijft de scraper werken nadat de website wordt bijgewerkt?
AI-gestuurde extracties zijn bestand tegen de meeste layoutwijzigingen. Selector-gebaseerde scrapers niet — als de HTML van de site wordt herschreven, heeft de scraper onderhoud nodig. De Premium tier bevat 14 dagen gratis fixes; daarna bied ik een onderhoudsretainer aan.
Welke sites kun je scrapen?
Openbare websites waarvan de Terms of Service geautomatiseerde toegang toestaan, of waar de data expliciet openbaar is (productcatalogi, vastgoedvermeldingen, overheidsdata, nieuws, openbare profielen op professionele sites met duidelijke scraping policies, enz.). Tijdens de scope call bespreek ik je target.
