Ik voer grote taalmodel projecten uit

Sommige informatie is automatisch vertaald.

India

Ik spreek Marathi, Hindi, Engels

Machine learning, kwantitatieve financiën, data

Hoi, ik ben Aniket! Ik ben gespecialiseerd in Machine Learning, Deep Learning en Computer Vision, en bied deskundige oplossingen voor complexe AI-taken. Mijn expertise omvat: Core AI: Het trainen van...

Lees meer

Over deze dienst

Ik train maatwerk taalmodellen van nul af of pas open-weight LLMs aan op jouw data. Ik bouw GPT-achtige transformer modellen vanaf nul met PyTorch, variërend van kleine 10M parameters demo's tot 50M parameters modellen. Ook pas ik bestaande modellen zoals Llama, Phi-3 en Mistral aan op jouw dataset met behulp van LoRA/QLoRA.

Wat je krijgt:

Volledig getrainde modelgewichten en tokenizer afgestemd op jouw data
Complete broncode met commentaar voor training en inferentie
Tekstgeneratiescript + setup-instructies
Trainingslogs, verliescurves en voorbeeldoutputs
Volledige commerciële rechten

Ik verzorg data preprocessing, tokenizer training, modelarchitectuur en training pipeline. Jij levert je tekstdataset aan in .txt, .csv of PDF formaat of ik gebruik open source data van HuggingFace, Kaggle en anderen.

Belangrijk: modellen onder de 50M parameters zijn bedoeld voor demo's, educatief gebruik en het leren van jouw specifieke data stijl. Ze laten zien hoe LLMs werken, maar hebben geen brede kennis zoals ChatGPT.

Lees meer

Volledig scherm

Expertise:

Representatieleren

•

Voorspellende analyse

•

Overige

Frameworks:

Scikit-learn

•

keras

•

PyTorch

•

Panda

Datatype:

Tekst

Programmeertaal:

Python

•

SQL

•

Colab

•

NoSQL

Tools:

Jupyter-notitieboek

•

opencv

•

OpenNN

•

tensorflow

•

Excel

•

Colab

+1 meer

Mijn portfolio

Andere Data science en ML diensten die ik aanbied

Machine learning
Vanaf US$ 100

Veelgestelde vragen

Automatische vertaling

Wat krijg ik precies?

Je krijgt: 1) getrainde modelgewichten .safetensors 2) aangepaste tokenizer 3) volledige Python-broncode voor training + inferentie 4) Requirements.txt en setup-gids 5) trainingslogs met verlies/perplexiteit grafieken 6) voorbeeldtekstgeneraties 7) volledige commerciële rechten.

Lever je de trainingsdata?

Als je een aangepaste dataset hebt, kun je die aanleveren. Ik verzorg het schoonmaken, formatteren, tokeniseren en trainen. Geaccepteerde formaten: .txt, .csv, .json of PDF. Maar als je dat niet hebt, gebruik ik, afhankelijk van jouw keuze, open source data van websites zoals HuggingFace, Kaggle en anderen om ons model te trainen.

Zal mijn 10M of 50M model lijken op ChatGPT?

Nee. Modellen onder de 100M parameters zijn voor demo’s, proof-of-concepts en het leren van specifieke stijlen/patronen uit jouw data. Ze genereren tekst in jouw domeinstijl, maar hebben geen brede kennis, redeneervermogen of instructievolging zoals ChatGPT. Daarvoor heb je 7B+ modellen nodig met enorme datasets.

Hoeveel data moet ik aanleveren?

Voor 10M modellen: 10MB-100MB tekst. Voor 50M modellen: 50MB-500MB tekst. Meer data = betere resultaten. 1MB ≈ 200k tokens. Als je het niet zeker weet, stuur me je dataset en ik controleer of die voldoende is voordat we beginnen.

Moet je creativiteit worden ingezet?

Op zoek naar een tech-expert?

Klaar om consumenten te bereiken en te converteren?

Op zoek naar schrijvers?

Laat je bedrijf slimmer draaien

Wat is inbegrepen