Playing Atari with Deep Reinforcement Learning

Fist deep learning model using reinforcement learning
- Successfully learn control policies directly
- From high-dimensional sensory input
CNN model trained on a variant of Q-learning
- Input : raw pixel, output: a value function estimating future reward
Applied seven Atari 2600 games (no adjustment)
- Outperforms ALL previous approaches on six games
- Surpasses a human expert on three games

Learning directly from high dimensional sensory input
Most successful RL relies on hand-crafted features
많은 사람들이 high dimensional sensory를 direct로 받고 싶었으나 이루어지지 않고 있었음. 대부분의 강화학습은 사람들이 만들어낸 feature로 진행하고 확장성이 떨어지는 단점이 있다.

Most DL requires hand labeled training data
- RL must learn from a scalar reward signal
- Reward signal is often sparse, noisy, and delayed
- delay between actions and resulting rewards can be thousand time steps
Most DL assumes data samples are independent
- RL encounters sequences of highly correlated states

Q-networks
- Represent value function by Q-network with weights w
- $Q(s, a, w) \approx Q^* (s, a) $
- w를 가지고 있는 Q가 optimal한 Q를 닮아가도록 만드는게 목표
Q-learning
- Optimal Q-values should obey Bellman equation
  - $Q^*(s,a)= E_{s’} [r + \gamma \underset{a’}\max Q(s’,a’)^\ast \mid s,a] $
- Treat right -hand side $r + \gamma \underset{a’}\max Q(s’,a’,w) $
- Minimize MSE loss by stochastic gradient descent
  - $I = (r + \gamma \underset{a’}\max Q(s’,a’,w) - Q(s,a,w))^2 $
    - $ y를 r+ \gamma \underset{a’}\max Q(s’,a’,w), \hat{y}은 Q(s,a,w)로 해서 LOSS function을 구한다 $
    - r은 진짜값 Q(s,a,w)는 랜덤한 값

End-to-end learning of values Q(s,a) from pixels s
input state s is stack of raw pixels from last 4 frames
Output is Q(s,a) for 18 joystick/button positions
Reward is change in score for that step
최근에 나오는 네트워크에 비해서 깊지는 않다
partially observable state 화면 하나만 보여주면 왼쪽으로 움직이는지 오른쪽으로 움직이는지 알 수 없는 것을 방지하기 위해서 화면을 4개를 동시에 사용. 액션은 화면 네번에 한번.
state를 x(sequence)라고 생각하면 된다 화면 4개

추천시스템 함수