본문 바로가기

[NIPS 2013] Playing Atari with Deep Reinforcement Learning (심층 강화학습으로 아타리 게임하기)


Playing Atari with Deep Reinforcement Learning (심층 강화학습으로 아타리 게임하기)

Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller

DeepMind Technologies


요약

강화학습을 이용해 직접 고차원의 감각 신호로부터 제어 정책(control policies)을 성공적으로 학습하는 최초의 심층 강화학습 모델을 소개합니다. 이 모델은 변형된 Q-learning 방식으로 학습된 convolutional neural network(CNN)이며, 입력은 픽셀(raw pixel)이고 출력은 미래의 보상을 평가하는 가치함수(a value funtion)입니다. 이 방식을 아키텍쳐 혹은 학습 알고리즘의 변화없이 일곱 가지의 Atari 2600 게임에 적용합니다. 그리고 그 중 여섯 개의 게임에서는 이전의 모든 접근 방식에 비해 나은 결과를 얻었고, 세 개의 게임에서는 전문가(인간)를 능가하는 것을 확인했습니다.


그림 1. 다섯 가지 Atari 2600 게임의 스크린샷. (왼쪽부터 오른쪽으로) Pong, Breakout, Space Invaders, Seaquest, Beam Rider.


Deep Q-learning 알고리즘.


표 1. 위의 표는 고정된 스텝 횟수 동안 $ \epsilon = 0.05 $로 $ \epsilon $-greedy 정책을 수행하는 다양한 학습 방식에 대해 평균 총점을 비교한다. 아래의 표는 HNeat와 DQN에 대해 최고의 성능을 보이는 에피소드의 결과를 나타낸다. DQN이 $ \epsilon = 0.05 $로 $ \epsilon $-greedy 정책을 사용하는 반면, HNeat는 결정론적인 정책을 수행해서 항상 같은 점수를 얻는다.


결론

이 논문에서 강화학습을 위한 새로운 딥러닝 모델을 소개하고, 픽셀 그대로를 입력으로 사용해서 Atari 2600 컴퓨터 게임을 위한 어려운 제어 정책을 마스터하는 능력을 입증하였습니다. 또한 강화학습을 위한 심층 네트워크의 훈련을 용이하게 하기 위해 확률적 미니배치 업데이트와 experience replay memory를 결합한 온라인 Q-network의 변형 방식을 소개합니다. 우리의 이 접근 방식은 아키텍쳐와 하이퍼파라미터들(hyperparameters)의 조절없이도 테스트한 일곱 개 중 여섯 개의 게임에서 최신의 결과를 보여주었습니다.


참고문헌

V. Mnih et al., "Playing Atari with Deep Reinforcement Learning", NIPS Deep Learning Workshop, 2013.