반응형

DQN
1. 더 깊은 네트워크
2. experience replay
데이터를 버퍼에 모았다가 랜덤 샘플링해서 학습
3. 두 개의 네트워크(train main)로 한쪽을 고정하고 학습 후 고정된 쪽 update
https://github.com/hunkim/ReinforcementZeroToAll

hunkim/ReinforcementZeroToAll
Contribute to hunkim/ReinforcementZeroToAll development by creating an account on GitHub.
github.com

반응형
'머신러닝' 카테고리의 다른 글
문서 요약 summarize, summarizer, summarizing (0) | 2022.11.23 |
---|---|
강화학습 - RND (Exploration by Random Network Distillation) (0) | 2021.01.20 |
강화학습3 - Temporal Difference Learning (0) | 2021.01.17 |
강화학습2 - 몬테카를로 방법 (0) | 2021.01.16 |
강화학습 (0) | 2021.01.15 |