Ik maak private, on device ai desktop applicaties


Level 2
Over deze dienst
Automatische vertaling
Jouw klanten willen niet dat je hun data naar ChatGPT stuurt. Ik begrijp het. Ik bouw een Windows desktop applicatie die een echte LLM Phi-3, Llama 3, Mistral, Qwen of Gemma volledig op de machine van de gebruiker laat draaien
Geen cloud. Geen API-sleutels. Geen datalekken. Geen terugkerende OpenAI kosten. Geen GDPR hoofdpijn. Geen HIPAA zorgen.
Ik ben een senior Windows ontwikkelaar (13+ jaar) die momenteel werkt aan hardware debugging tools bij een wereldwijd siliciumbedrijf. Ik begrijp ONNX Runtime, DirectML, GPU/NPU versnelling, en hoe je een model van 24 GB binnen een MSIX of Inno Setup installer krijgt zonder dat het kapot gaat.
Perfect voor:
- Juridische kantoren die vertrouwelijke klantgegevens verwerken
- Gezondheidszorg providers (HIPAA-gebonden)
- Financiële adviseurs en accountants
- Defensie en overheidscontractors (ITAR, CMMC)
- HR tools met werknemers PII
- Elk team dat gebonden is aan GDPR, SOC 2 of interne data residency regels
- Bedrijven in regio's met slechte internetverbinding
Technische stack: C# / WPF/ WinUI, ONNX Runtime GenAI, llama.cpp, Microsoft.ML.OnnxRuntime, DirectML, Semantic Kernel (lokaal modus), LiteDB voor vector opslag, MSIX / Inno Setup packaging
Hardware vereisten waar ik je mee help plannen: ik adviseer minimale specificaties voor jouw eindgebruikers op basis van de modelgrootte
Maak kennis met Shashank
Windows Desktop Developer C Sharp, C plus plus , Python , WPF, XAML, AI
Level 2
- Afkomstig uitIndia
- Lid sindsjan 2018
- Gem. reactietijd1 uur
- Laatste levering4 weken
Talen
Engels, Duits, Portugees, Frans
Automatische vertaling
Mijn portfolio
Veelgestelde vragen
Automatische vertaling
Hoe goed zijn lokale modellen vergeleken met GPT-4
Eerlijk gezegd niet overal zo goed — maar verrassend dicht bij voor veel taken. Phi-3-mini en Llama 3 8B behandelen Q&A, samenvatting, extractie en opstellen heel goed. Voor taken die brede wereldkennis of complex redeneren vereisen, blijven cloud modellen de beste keuze.
Hoe groot is de uiteindelijke installer
Tussen 2 GB en 8 GB, afhankelijk van het model. Ik gebruik installers die het model downloaden bij de eerste start, als je een kleinere initiële download wilt.
Werkt dit op een laptop van 5 jaar oud
Ja, met een kleiner model (Phi-3-mini, 3.8B parameters) op CPU — langzamer, misschien 3–6 tokens per seconde. Voor real-time reacties worden 16 GB RAM en een moderne CPU aanbevolen.
Kan het de NPU op nieuwere Copilot+ pc's gebruiken
Ja. ONNX Runtime met DirectML kan de NPU op Qualcomm Snapdragon X en nieuwere Intel / AMD NPUs gebruiken voor veel snellere inferentie met lager energieverbruik.
Wat als ik het model later wil updaten?
De standaard- en premium-pakketten bevatten een mechanism om het model te wisselen, zodat jij (of je gebruikers) een nieuwere of andere model kunnen plaatsen zonder een nieuwe installer te hoeven maken.
Doe je aan fine-tuning
Fine-tuning is een aparte opdracht. Voor de meeste gebruiksgevallen levert RAG (retrieving from your own documents) hetzelfde praktische resultaat op zonder de kosten en complexiteit van fine-tuning. Ik adviseer eerlijk welke je nodig hebt.
Kan je een HIPAA BAA ondertekenen?
Ik onderteken geen BAAs als solo freelancer, maar je app zelf kan HIPAA-compliant zijn door ontwerp — precies wat ik bouw. Ik leg het verschil uit in ons eerste gesprek.
Hoe zit het met commerciële licenties van de modellen?
Ik gebruik alleen modellen met permissieve licenties (Phi-3 MIT, Llama 3 met Meta's commerciële licentie, Mistral Apache 2.0, Qwen). Ik geef licentie-implicaties aan voordat we definitief bepalen welk model we gebruiken.

