Szántó Zsolt
honlapja
Fõoldal
Oktatás
Magamról
Biblia: Richard S. Sutton and Andrew G. Barto - Reinforcement Learning
HuggingFace RL kurzus
1. óra - Bevezetés
Előadás
2. óra - Alapfogalmak
Előadás
Mesterséges intelligencia bevezetés
Gymnasium használat
3. óra - Q-tanulás
Előadás
Multi-armed bandit, Acsai Gergely példája
4. óra - Mélytanulás
Előadás
- Farkas Richárd
olvasóleckéje
alapján
Gyakorló notebook - egyszerű neurális háló - Acsai Gergely
Gyakorló notebook - képek osztályozása - Acsai Gergely
5. óra - Mély Q-tanulás
Előadás
Gyakorló notebook
6. óra - Policy alapú módszerek
Előadás
Gyakorló notebook 1 - neurális háló szerkesztése
Gyakorló notebook 2 - párhuzamos futtatás
Gyakorló notebook 3 - egyedi jutalom
Gyakorló notebook 3 - egyedi jutalom - megoldás
7. óra - Actor-critic módszerek
Előadás
Kötprog információk
Kötprog gyakorló notebook
Kötprog feladat beadás notebook
8. óra - PPO, RLHF
PPO diasor
Megerősítéses tanulás keretrendszerek PPO-val:
Stable-Baselines3
,
PPO példa
CleanRL
,
PPO példa
Sample Factory
,
PPO példa
TorchRL
,
PPO példa
Unity ML
,
PPO példa
RLHF diasor
Instrukció tanulás példa
RLHF implementáció
AplhaGO - Cicero
9. óra - Több ágenses rendszerek
Több ágenses rendszerek diasor
Több ágenses rendszerek notebook
Kompetitív rendszerek: AplhaGO - Cicero
Kötprog: Agent osztály részletes használata
10. óra - Összefoglalás
Összefoglalás