Ik fix AI agents, debug llm apps, AI evals, llm observability
Top Rated
Gescreend door Fiverr Pro
Ahmed J is geselecteerd door het team van Fiverr Pro vanwege diens expertise.
Over deze dienst
Automatische vertaling
Je LLM app/ AI agent werkt perfect in testen. Maar echte gebruikers vinden hallucinaties, gebroken tool calls en inconsistente outputs. Je past één probleem aan, verschijnt er een ander. Je kunt niet bijhouden.
De oplossing is niet meer vibe checks. Het zijn evals: gestructureerde AI-evaluaties + observability. Met evals test je systematisch elke variabele, prompt, tools, modellen, ketens zodat failures niet willekeurig zijn, maar voorspelbaar en oplosbaar.
Ik zet op:
- Foutenlogs & eval harness Log elke prompt tool call response & vang problemen voordat gebruikers dat doen
- LLM judges + code checks binaire pass/fail signalen gevalideerd tegen menselijke data.
- Observability & alerts traces, latency/kosten dashboards, driftdetectie.
- Root-cause clustering remediatie playbooks om echt te fixen wat kapotgaat.
- Volgende productversie wordt getraind op echte problemen
Het resultaat: een betrouwbare, productieklare agent waarop je kunt vertrouwen.
Laten we je AI-product stabiel, schaalbaar en klaar voor echte gebruikers maken.
Maak kennis met Ahmed J
AI Agents, LLM Ops, Context Eng, Evals and Custom Software Dev Agency
Top Rated
Ahmed J maakt deel uit van de Fiverr Pro-catalogus en is zorgvuldig uitgekozen door het Fiverr Pro-team vanwege zijn of haar vaardigheden en expertise.
Gescreend voor
AI-development
Software development
- Afkomstig uitVerenigde Staten
- Lid sindsapr 2020
- Gem. reactietijd1 uur
- Laatste levering4 maanden
Talen
Arabisch, Engels, Frans, Duits
Automatische vertaling
Mijn portfolio
Andere AI-development diensten die ik aanbied
Veelgestelde vragen
Automatische vertaling
Wat lever je precies?
Een complete evaluatie-infrastructuur: offline test suites (bugs vangen voor lancering), online monitoring (live prestaties volgen), scoring logica (kwaliteit automatisch meten), en een productie feedback loop die echte gebruikersfouten omzet in betere testcases.
Waarom heb ik dit nodig—is het AI-model niet al goed genoeg?
Modellen falen stilletjes. Evals vangen hallucinaties, PII-lekken, kostenpieken en edge-case failures voordat gebruikers ze zien. Je levert veiliger en sneller op.
Vermindert dit echt hallucinaties, of meet je ze alleen?
Beide. Verwacht een vermindering van 30–70% in kritieke failures zodra we guardrails + evaluation gates inzetten. We lossen problemen op, niet alleen rapporteren ze.
Welke AI stacks ondersteund je?
OpenAI, Claude, Qwen, OpenRouter, LangChain, LangGraph, LlamaIndex, custom agents—plus OpenTelemetry-stijl, Weights and Biases, Braintrust.dev tracing voor debugging.
Hoe verschilt dit van gewoon 'je prompts testen'?
Moderne AI-systemen zijn niet alleen prompts—ze zijn agents met tools, meerstaps redenering en dynamische context. We evalueren het hele systeem: je prompts, tooldefinities, tooloutputs, datakwaliteit en agentgedrag. Daar leven 80%+ van je tokens (en problemen).
Hoe weet je of de evals echt werken?
Drie tekenen: (1) Je kunt nieuwe AI-modellen in minder dan 24 uur met vertrouwen lanceren. (2) Klachten van gebruikers worden direct testcases. (3) Je gebruikt evals offensief—om te voorspellen welke functies werken bij betere modellen, niet alleen defensief om regressies te vangen.
Welke metrics track je echt?
Getrouwheid (volgt het instructies?), feitelijkheid (is het correct?), taakvoltooiing (Heeft het de taak voltooid?), volledigheid (Miss je iets?), toxiciteit, PII-lekken, latency, kosten per taak, en regressiedetectie tussen versies.
Hoe krijg je 'ground truth' om tegen te testen?
Drie bronnen: (1) Gecureerde gold-standard voorbeelden van je domeinexperts. (2) Synthetische testcases die we genereren voor edge cases. (3) Echte productie logs—vooral failures—teruggekoppeld in de test suite. De beste datasets zijn levend, niet statisch.
Hoe handel je scoring—code of AI judges?
Beide. Code-gebaseerde scoring voor duidelijke regels (Heeft het het juiste veld geëxtraheerd? Heeft het de juiste API aangeroepen?). LLM-als-een-judge voor genuanceerde kwaliteit (Is deze samenvatting nuttig? Is de toon passend?). We combineren benaderingen op basis van wat je meet.
Wat is de snelste manier om ROI te zien?
Week 1: Vang een kritieke bug voor lancering (voorkomt escalatie door klant). Maand 1: Verlaag debuggingtijd met 40%+ met tracegrafieken die precies laten zien waar agents falen. Maand 3: Lanceer nieuwe modelupdates in dagen in plaats van weken, en wees sneller dan de concurrentie.
3 reviews van deze dienst
| (3) | ||
| (0) | ||
| (0) | ||
| (0) | ||
| (0) |
Specificering van de beoordeling
- Communicatieniveau van de freelancer
- Kwaliteit van de levering
- Waarde van de levering
Sorteer op
L 
lucabisacchi
Terugkerende klant

Verenigd Koninkrijk
Ahmed and Ali were easy to work with. They understood the task from the beginning and helped me set up custom scorers, prepare the test sets, and evaluate my AI product fairly quickly. Much appreciated!
US$ 800-US$ 1.000
Prijs
7 dagen
Looptijd
A Reactie van de freelancer
Nuttig?C 
carolgaus
Terugkerende klant

Spanje
I really appreciated the insights Ahmed shared with me. The insights have been super helpful. I was a bit confused about the topic of AI Evals and LLM observability, but he seems to have mastered it. We'll definitely keep doing business together!
US$ 200-US$ 400
Prijs
9 dagen
Looptijd
Nuttig?L 
lukegoogleads
Terugkerende klant

Kroatië
AI Health Studio’s team was very diligent in fixing my app. Every interaction was professional and genuinely helpful throughout the entire process.
US$ 400-US$ 600
Prijs
5 dagen
Looptijd
Nuttig?
3 reviews van deze dienst
| (3) | ||
| (0) | ||
| (0) | ||
| (0) | ||
| (0) |
Specificering van de beoordeling
- Communicatieniveau van de freelancer
- Kwaliteit van de levering
- Waarde van de levering
Sorteer op
L 
lucabisacchi
Terugkerende klant

Verenigd Koninkrijk
Ahmed and Ali were easy to work with. They understood the task from the beginning and helped me set up custom scorers, prepare the test sets, and evaluate my AI product fairly quickly. Much appreciated!
US$ 800-US$ 1.000
Prijs
7 dagen
Looptijd
A Reactie van de freelancer
Nuttig?C 
carolgaus
Terugkerende klant

Spanje
I really appreciated the insights Ahmed shared with me. The insights have been super helpful. I was a bit confused about the topic of AI Evals and LLM observability, but he seems to have mastered it. We'll definitely keep doing business together!
US$ 200-US$ 400
Prijs
9 dagen
Looptijd
Nuttig?L 
lukegoogleads
Terugkerende klant

Kroatië
AI Health Studio’s team was very diligent in fixing my app. Every interaction was professional and genuinely helpful throughout the entire process.
US$ 400-US$ 600
Prijs
5 dagen
Looptijd
Nuttig?
