Szántó Zsolt oldala

Szántó Zsolt

honlapja

Biblia: Richard S. Sutton and Andrew G. Barto - Reinforcement Learning
HuggingFace RL kurzus

1. óra - Bevezetés

Előadás

2. óra - Alapfogalmak

Előadás
Mesterséges intelligencia bevezetés
Gymnasium használat

3. óra - Q-tanulás

Előadás
Multi-armed bandit, Acsai Gergely példája

4. óra - Mélytanulás

Előadás - Farkas Richárd olvasóleckéje alapján
Gyakorló notebook - egyszerű neurális háló - Acsai Gergely
Gyakorló notebook - képek osztályozása - Acsai Gergely

5. óra - Mély Q-tanulás

Előadás
Gyakorló notebook

6. óra - Policy alapú módszerek

Előadás
Gyakorló notebook 1 - neurális háló szerkesztése
Gyakorló notebook 2 - párhuzamos futtatás
Gyakorló notebook 3 - egyedi jutalom
Gyakorló notebook 3 - egyedi jutalom - megoldás

7. óra - Actor-critic módszerek

Előadás
Kötprog információk
Kötprog gyakorló notebook
Kötprog feladat beadás notebook

8. óra - PPO, RLHF

PPO diasor

Megerősítéses tanulás keretrendszerek PPO-val:
Stable-Baselines3, PPO példa
CleanRL, PPO példa
Sample Factory, PPO példa
TorchRL, PPO példa
Unity ML, PPO példa

RLHF diasor
Instrukció tanulás példa
RLHF implementáció

AplhaGO - Cicero

9. óra - Több ágenses rendszerek

Több ágenses rendszerek diasor
Több ágenses rendszerek notebook

Kompetitív rendszerek: AplhaGO - Cicero

Kötprog: Agent osztály részletes használata

10. óra - Összefoglalás

Összefoglalás