Ik voer grote taalmodel projecten uit
Machine learning, kwantitatieve financiën, data
Over deze dienst
Ik train maatwerk taalmodellen van nul af of pas open-weight LLMs aan op jouw data. Ik bouw GPT-achtige transformer modellen vanaf nul met PyTorch, variërend van kleine 10M parameters demo's tot 50M parameters modellen. Ook pas ik bestaande modellen zoals Llama, Phi-3 en Mistral aan op jouw dataset met behulp van LoRA/QLoRA.
Wat je krijgt:
- Volledig getrainde modelgewichten en tokenizer afgestemd op jouw data
- Complete broncode met commentaar voor training en inferentie
- Tekstgeneratiescript + setup-instructies
- Trainingslogs, verliescurves en voorbeeldoutputs
- Volledige commerciële rechten
Ik verzorg data preprocessing, tokenizer training, modelarchitectuur en training pipeline. Jij levert je tekstdataset aan in .txt, .csv of PDF formaat of ik gebruik open source data van HuggingFace, Kaggle en anderen.
Belangrijk: modellen onder de 50M parameters zijn bedoeld voor demo's, educatief gebruik en het leren van jouw specifieke data stijl. Ze laten zien hoe LLMs werken, maar hebben geen brede kennis zoals ChatGPT.
Expertise:
Representatieleren
•
Voorspellende analyse
•
Overige
Frameworks:
Scikit-learn
•
keras
•
PyTorch
•
Panda
Datatype:
Tekst
Programmeertaal:
Python
•
SQL
•
Colab
•
NoSQL
Mijn portfolio
Andere Data science en ML diensten die ik aanbied
Veelgestelde vragen
Automatische vertaling
Wat krijg ik precies?
Je krijgt: 1) getrainde modelgewichten .safetensors 2) aangepaste tokenizer 3) volledige Python-broncode voor training + inferentie 4) Requirements.txt en setup-gids 5) trainingslogs met verlies/perplexiteit grafieken 6) voorbeeldtekstgeneraties 7) volledige commerciële rechten.
Lever je de trainingsdata?
Als je een aangepaste dataset hebt, kun je die aanleveren. Ik verzorg het schoonmaken, formatteren, tokeniseren en trainen. Geaccepteerde formaten: .txt, .csv, .json of PDF. Maar als je dat niet hebt, gebruik ik, afhankelijk van jouw keuze, open source data van websites zoals HuggingFace, Kaggle en anderen om ons model te trainen.
Zal mijn 10M of 50M model lijken op ChatGPT?
Nee. Modellen onder de 100M parameters zijn voor demo’s, proof-of-concepts en het leren van specifieke stijlen/patronen uit jouw data. Ze genereren tekst in jouw domeinstijl, maar hebben geen brede kennis, redeneervermogen of instructievolging zoals ChatGPT. Daarvoor heb je 7B+ modellen nodig met enorme datasets.
Hoeveel data moet ik aanleveren?
Voor 10M modellen: 10MB-100MB tekst. Voor 50M modellen: 50MB-500MB tekst. Meer data = betere resultaten. 1MB ≈ 200k tokens. Als je het niet zeker weet, stuur me je dataset en ik controleer of die voldoende is voordat we beginnen.
