반응형

DQN

1. 더 깊은 네트워크

2. experience replay

데이터를 버퍼에 모았다가 랜덤 샘플링해서 학습

3. 두 개의 네트워크(train main)로 한쪽을 고정하고 학습 후 고정된 쪽 update


https://youtu.be/S1Y9eys2bdg

 

https://youtu.be/Fbf9YUyDFww

 

https://youtu.be/ByB49iDMiZE

 


https://github.com/hunkim/ReinforcementZeroToAll

 

hunkim/ReinforcementZeroToAll

Contribute to hunkim/ReinforcementZeroToAll development by creating an account on GitHub.

github.com


 

반응형

+ Recent posts