Ik focus op deep learning agent multi agent rag memory

Sommige informatie is automatisch vertaald.

China

Ik spreek Engels

AI ontwikkelaar en onderzoeker

Ik ben een AI-ingenieur en onderzoeker gespecialiseerd in deep learning, large language models, multimodale AI, diffusion modellen, Mamba-gebaseerde architecturen, Agentic AI, reinforcement learning, ...
Over deze dienst

## Innovatief ontwerp en verbeteringsrichtlijnen voor agentic RL en LLM reinforcement learning


 LLMs evolueren geleidelijk van enkelvoudige Q&A-machines naar agentic systemen die herhaaldelijk kunnen interacteren

 tussen redeneren en gebruik van externe tools in multi-turn settings. Van Search-R1 tot ToolRL en SkyRL, moeten modellen nu

 niet alleen denken, maar ook zoeken, berekenen, API's aanroepen en zichzelf continu verbeteren via RL over meerdere stappen.


 ## 1. Innovatieve ontwerpverbeteringen voor agentic RL-algoritmen


 ### 1.1 Hiërarchische reinforcement learning architectuur


 Een hiërarchisch besluitvormingsmechanisme verdeelt de beslissingen van een agent in drie niveaus: de strategische laag voor taak

 decompositie, de tactische laag voor toolselectie, en de uitvoeringslaag voor concrete operaties. Elke laag

 hanteert een andere RL-beleid.


 Automatische sub-doel ontdekking stelt agents in staat om herbruikbare tussenliggende sub-doelen te identificeren tijdens training en een

 vaardighedensbibliotheek op te bouwen.


 Geautomatiseerd curriculum leren benadrukt het mogelijk maken dat agents autonoom vorderen van eenvoudige taken naar complexe taken

 zonder handmatig ontworpen curricula.


 ### 1.2 Multimodale omgeving interactie

Programmeertaal:

Python

JavaScript

LISP

Pytorch

TypeScript

AI model frameworks en tools:

Hugging Face Transformers

Datatype:

Tekst

Afbeeldingen

Tabular Data

AI engine:

GPT

Gerelateerde tags