Ik test je llm chatbot op jailbreaks, datalekken en onveilig gedrag


Over deze dienst
Automatische vertaling
LLM Gedrags- & Veiligheidstesten door een QA Lead
Ik ben een QA Lead (6+ jaar) die systematisch testontwerp toepast op AI. Ik maak testsets die laten zien waar je LLM-gestuurde bot onveilig gedrag vertoont of zijn eigen regels breekt, jailbreaks, prompt injectie, prompt leaks, hallucinaties, weigeringen, en datalekrisico's.
Hoe het werkt:
- Je deelt je system prompt + hoe de bot wordt gebruikt
- Ik breng de risicogebieden in kaart die specifiek zijn voor jouw use-case
- Ik bouw de testcases (verwacht gedrag + ernst + reden)
- Je ontvangt JSONL + CSV + een leesbaar rapport dat klaar is voor je eval harness
Premium: Ik voer de tests ook uit op jouw model en lever een rapport met bevindingen, inclusief input, verwachte versus daadwerkelijke output, en ernst.
Wat ik niet doe: Ik oordeel niet over feitelijke of domeinnauwkeurigheid (juridisch, medisch, etc.), dat vereist een subject-matter expert. Ik test gedrag, veiligheid en instructievolging.
Wil je een grote of doorlopende set? Stuur me een bericht voor een aangepaste offerte. Geschreven in GMT+7. Neem contact op voordat je bestelt.
Maak kennis met Vladislav Boev
Senior QA Lead and Test Architect
- Afkomstig uitVietnam
- Lid sindsjun 2026
- Gem. reactietijd1 uur
Talen
Russisch, Engels
Automatische vertaling
Veelgestelde vragen
Automatische vertaling
Controleer je of de antwoorden van mijn bot feitelijk correct zijn?
Nee — ik test gedrag, veiligheid en instructievolging (breekt het regels, lekt het data, wordt het gebroken). Oordeel over feitelijke of domeinnauwkeurigheid (juridisch, medisch, etc.) vereist een subject-matter expert. Ik laat je vooraf weten of dat nodig is.
Wat heb je van mij nodig om te beginnen?
Je system prompt (de instructies die je aan het model geeft) en een korte beschrijving van hoe de bot wordt gebruikt. Voor Premium runs: API-toegang tot jouw model, of jij voert mijn testcases uit en stuurt de outputs terug.
Welke modellen ondersteun je?
Elke tekstgebaseerde LLM of chatbot (GPT, Claude, Gemini, Llama, open-source, fine-tuned). Ik test gedrag op promptniveau, dus het onderliggende model maakt niet uit.
Kun je juridische, medische of financiële bots testen?
Ik kan hun veiligheid en gedrag volgens regels testen (bijvoorbeeld dat ze geen advies geven dat ze niet mogen geven), maar niet of hun domeinantwoorden correct zijn. Voor risicovolle domeinen beperk ik me tot gedrag/veiligheid en maak dat duidelijk.
Ik heb een grote of terugkerende testset nodig — kun je dat doen?
Ja. De pakketten dekken gerichte sets; voor grote volumes of doorlopende tests, stuur me een bericht voordat je bestelt en ik stuur een aangepaste offerte.

