티스토리 뷰

학업

ACER: Sample Efficient Actor-Critic With Experience Replay

기리이이이이인 2019. 6. 18. 00:00

ACER: Sample Efficient Actor-Critic With Experience Replay

제목에서도 볼 수 있듯이, 딥마인드에서 나온 Sample Efficient Actor-Critic With Experience Replay 는 Actor-Critic method에 Experience Replay를 접목시켜 데이터 효율성을 높인 새로운 강화학습 알고리즘을 제안하는 논문입니다. A3C의 off-policy 버전이라고 생각하셔도 됩니다.

논문 내용을 요약하면 다음과 같습니다.

Experience Replay를 도입해서 Sample efficiency를 향상시켰다.
Experience Replay를 사용하기 위해 그래디언트 계산에 off-policy correction을 추가했다. Importance sampling을 사용할 것인데 그냥 사용하면 bounded 되지 않은 importance weight 값이 여러번 곱해져 variance가 너무 커질 수 있으니, Off-policy Actor-Critic 에서 소개된 근사식을 사용해 그래디언트를 계산한다.
$g^{marg} = \mathbb{E}_{x_t \sim \beta, a_t \sim \mu} [\rho_t \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)]$
$Q^\pi$ $\lambda$ ) $Q^\pi$ 를 추정한다.
$\rho_t$ 도 너무 커질 수 있으니 clipping 해준다. 그런데 bias term을 적절히 추가해 식(1)에 대해 unbiased estimator임을 유지시킨다.
TRPO를 적용시키는데, 업데이트 후 policy가 현재 policy가 아닌 이때까지 policy의 moving average와 멀어지지 않게 적용시킨다. 단 policy parameter space가 아니라 최종 distribution의 statistics의 space에 대해 적용한다.

※ Action space가 continuous 한 경우 몇가지 다른 점이 생기는데, 이는 나중에 다루도록 하겠습니다.

그럼 이제 각 부분을 차례대로 자세히 살펴보겠습니다. 지금은 요약문이 잘 이해되지 않더라도 설명을 보고 나면 이해하기 훨씬 쉬워질 것입니다!

Gradient Estimation

Policy Gradient 기반의 강화학습 알고리즘의 목표는 policy의 성능을 증가시키는 방향의 그래디언트를 구해 policy를 업데이트하는 것입니다. 보통 성능은 (discounted) 보상의 합으로 정의됩니다.

$\pi_\theta(a|x)$ $\theta$ $\pi$ $x$ 일 때 행동 a를 취할 확률로 정의했을 때, Policy Gradient Theorem에 따르면 성능을 올리기 위해선

g = \mathbb{E}_{x_{0:\infty},a_{0:\infty}}[\sum_{t\ge0}A^\pi(x_t, a_t)\nabla_\theta \log \pi_\theta (a_t|x_t)]

$g$ $\theta$ $g$ $A^\pi$ $r_t + \gamma V^\pi (x_{t+1})-V^\pi(x_t))$ ) 중 아무 것이나 넣어도 성립합니다. 다만 어떤 걸 선택하느냐에 따라 function approximation을 사용했을 때 bias와 variance에서 정도의 차이가 생기게 됩니다.

이제 그래디언트 계산식을 off-policy에 맞게 수정해봅시다. 위의 그래디언트 계산식은 데이터를 생성하는 behavior policy와 학습이 진행되는 대상인 target policy가 일치할 때만 target policy의 성능을 증가시키는 방향의 그래디언트임이 보장되는데, behavior policy가 target policy와 다를 때도 계산된 그래디언트가 target policy의 성능을 증가시키는 방향의 그래디언트가 되게 계산식을 수정한다는 뜻입니다.

On-policy 알고리즘을 Off-policy로 만들기 가장 쉬운 방법은 importance sampling을 사용하는 것입니다.

$\pi$ $\mu$ $\rho_t = \frac{\pi(a_t|x_t)}{\mu (a_t|x_t)}$ 로 정의한 후

\hat{g}^{imp}=(\prod_{t=0}^k\rho_t)\sum_{t=0}^k (\sum_{i=0}^k \gamma^i r_{t+i})\nabla_\theta \log\pi_\theta(a_t|x_t )

$\hat{g}^{imp}$ $\hat{g}^{imp}$ 의 기댓값은 원래 구하려고 했던 그래디언트의 기댓값과 동일합니다.이는 각 trajectory에 대한 그래디언트를 계산할 때, behavior policy에서 뽑힌 trajectory가 target policy에서 발생했을 확률을 곱해 보정하는 것으로 이해할 수 있습니다.

$\pi$ $\mu$ $\rho_t$ $\rho_t$ $\rho_t$ 의 값을 임의로 clipping 등을 적용해 범위를 제한시키면 bias가 너무 커져 학습이 제대로 진행되지 않습니다.

대신 요약문에서도 언급했듯이, Off-policy Actor-Critic 에서 소개된 그래디언트 근사식을 사용하면 이런 문제를 우회할 수 있습니다.

g^{marg} = \mathbb{E}_{x_t \sim \beta, a_t \sim \mu} [\rho_t \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)]

$Q_\pi(x_t, a_t)$ $\theta$ 에 대한 그래디언트 계산 대상이 아닙니다.

$\rho_t$ $r_t$ $Q^\pi$ 를 필요로 하는 것을 알 수 있습니다.

$R_t^\lambda = r_t + (1-\lambda)\gamma V(x_{t+1})+\lambda \gamma \rho_{t+1} R_{t+1}^\lambda$ $Q^\pi$ $\rho_t$ $Q^\pi$ 를 계산합니다.

Q function Estimation

Safe and Efficient Off-Policy Reinforcement Learning $\lambda$ $Q$ $\rho = \frac{\pi(a_t|x_t)}{\mu(a_t|x_t)}$ $\rho = \lambda \min(1, \frac{\pi(a_t|x_t)}{\mu(a_t|x_t)})$ $\pi, \mu$ $Q(\lambda$ $\lambda = 1$ 로 사용합니다.

$Q$ 함수를 업데이트하는 경우 target value는 아래와 같이 계산됩니다.

Q^{ret}(x_t, a_t) = r_t + \gamma \bar{\rho}_{t+1}[Q^{ret}(x_{t+1}, a_{t+1}) - Q(x_{t+1}, a_{t+1})] + \gamma V(x_{t+1})

$Q^{ret}$ $x_0$ $x_k$ $x_k$ $Q^{ret}(x_k, a_k) = 0$ $Q^{ret}(x_k, a_k) = V(x_k)$ ¹ 로 초기값을 주고 재귀적으로 나머지 상태에 대해 계산하면 됩니다.

$Q$ $\theta_v$ $Q_{\theta_v}$ 를 업데이트하기 위해선

$Q$ $Q_{\theta_v}$ $Q^{ret}$ 를 계산한 다음
$Q_{\theta_v}가$ $Q^{ret}$ 에 가까워지게 MSE를 사용해 업데이트하면 됩니다.

$(Q^{ret}(x_t, a_t) - Q_{\theta_v}(x_t, a_t) \nabla_{\theta_v} Q_{\theta_v} (x_t, a_t))$ 을 따라 업데이트를 진행하는 것입니다.

$Q^\pi$ 값으로 사용되어 bias도 상당히 줄여줍니다.

Importance Weight Truncation with Bias Correction

$\rho_t$ $Q$ 함수 학습에 사용하는 weight를 대상으로 진행한 것입니다. 이 문단에서 다루는 importance weight는 gradient estimation에 사용되는 weight를 말합니다.

² $\bar{\rho_t} = \min (c, \rho_t)$ 라고 정의한 뒤, 그래디언트 계산식을 아래와 같이 두 항으로 나눠주면 됩니다.

g^{marg} = \mathbb{E}_{x_t \sim \beta, a_t \sim \mu} [\rho_t \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)] \\ =\mathbb{E}_{x_t \sim \beta}[\mathbb{E}_{a_t \sim \mu}[\bar\rho_t \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)] + \mathbb{E}_{a \sim \pi}[[\frac{\rho_t(a)-c}{\rho_t(a)}]_+ \nabla_\theta \log \pi_\theta(a|x_t)Q^\pi(x_t, a)]]

$c > \rho_t$ 인 경우 위의 식에서 오른쪽 항은 0이 되므로 식 (4)와 식 (6)은 동일합니다.

$c \le \rho_t$ 인 경우도 살펴보겠습니다.

\mathbb{E}_{x_t \sim \beta, a_t \sim \mu} [\rho_t \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)] \\ \\ = \mathbb{E}_{x_t \sim \beta}[ \mathbb{E}_{a_t \sim \mu} [(\rho_t-c+c) \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)]] \\ = \mathbb{E}_{x_t \sim \beta}[ \mathbb{E}_{a_t \sim \mu} [c \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)]] + \mathbb{E}_{x_t \sim \beta}[ \mathbb{E}_{a_t \sim \mu} [(\rho_t-c) \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)]]

$c \le \rho_t$ $\bar{\rho_t} = c$ 이기 때문에 식 (7)의 왼쪽 항은 식 (6)의 왼쪽 항과 동일합니다.

이제 식 (7)의 오른쪽 항과 식 (6)의 오른쪽 항이 같음을 보이겠습니다.

\mathbb{E}_{a_t \sim \mu} [(\rho_t-c) \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^\pi(x_t, a_t)] \\ = \mathbb{E}_{a \sim \mu} [(\frac{\pi(a|x_t)}{\mu(a|x_t)}-c) \nabla_{\theta}\log \pi_\theta (a|x_t)Q^\pi(x_t, a)] \\ = \sum_{a \in \mathbb{A}} \mu(a|x_t)[(\frac{\pi(a|x_t)}{\mu(a|x_t)}-c) \nabla_{\theta}\log \pi_\theta (a|x_t)Q^\pi(x_t, a)] \\ = \sum_{a \in \mathbb{A}}\frac{\pi(a|x_t)}{\pi(a|x_t)} \mu(a|x_t)[(\frac{\pi(a|x_t)}{\mu(a|x_t)}-c) \nabla_{\theta}\log \pi_\theta (a|x_t)Q^\pi(x_t, a)] \\ = \mathbb{E}_{a\sim\pi} \frac{ \mu(a|x_t)}{\pi(a|x_t)}[(\frac{\pi(a|x_t)}{\mu(a|x_t)}-c) \nabla_{\theta}\log \pi_\theta (a|x_t)Q^\pi(x_t, a)] \\ = \mathbb{E}_{a\sim\pi} \frac{ 1}{\rho_t(a)}[(\rho_t(a)-c) \nabla_{\theta}\log \pi_\theta (a|x_t)Q^\pi(x_t, a)]

$c > \rho_t$ $\pi(a|x_t)$ $\mu$ $\pi$ 에 대한 기댓값으로 바꾸니 식 (6)과 식 (7)이 같음을 볼 수 있었습니다.

$\bar{\rho_t}$ $c$ $\frac{\rho_t(a)-c}{\rho_t(a)}$ $\mu$ $\pi$ $a$ $Q, \pi$ $a$ $\pi$ $Q$ 또한 뉴럴넷으로 근사해두었기 때문에 별도의 샘플링 없이 식 (6)을 사용할 수 있습니다.

$Q$ $Q^{ret}$ $Q^{ret}$ $Q_{\theta_v}$ 로 값을 사용하게 됩니다.

\hat{g}^{marg} = \mathbb{E}_{x_t \sim \beta}[\mathbb{E}_{a_t \sim \mu}[\bar\rho_t \nabla_{\theta}\log \pi_\theta (a_t|x_t)Q^{ret}(x_t, a_t)] + \mathbb{E}_{a \sim \pi}[[\frac{\rho_t(a)-c}{\rho_t(a)}]_+ \nabla_\theta \log \pi_\theta(a|x_t)Q_{\theta_v}(x_t, a)]]

$V$ $Q_{\theta_v}$ $\pi$ $V_{\theta_v}$ 를 계산해 사용할 수 있습니다.

최종 식은 다음과 같습니다.

\hat{g}^{acer} = \mathbb{E}_{x_t \sim \beta}[\mathbb{E}_{a_t \sim \mu}[\bar\rho_t \nabla_{\theta}\log \pi_\theta (a_t|x_t)(Q^{ret}(x_t, a_t)-V_{\theta_v})] \\ + \mathbb{E}_{a \sim \pi}[[\frac{\rho_t(a)-c}{\rho_t(a)}]_+ \nabla_\theta \log \pi_\theta(a|x_t)(Q_{\theta_v}(x_t, a)-V_{\theta_v})]]

Efficient TRPO

TRPO $\theta$ $\theta$ 의 변화가 작다고 해서 최종적으로 계산된 행동 별 확률값의 차이도 작다는 보장이 없기 때문에 parameter space에서의 변화량이 아니라 policy space의 변화량을 직접적으로 제약하는 방식입니다.

$\theta$ 에 대해 업데이트 직전과 직후 policy 값의 차이를 제약하는 방식으로 적용합니다. 그런데 ACER에서는 특이하게도 업데이트 직후의 policy가 직전 policy가 아닌 이때까지의 moving average parameter의 policy와 차이나지 않게 제약합니다.

$\theta$ $\phi_\theta$ $\theta$ $x$ $\theta$ $\phi_\theta$ $\phi_\theta(x)$ $f$ 를 만들게 됩니다.

$\theta$ $\phi_\theta$ $x$ $\phi_\theta(x)$ $\pi$ $f$ $x$ $\phi_\theta$ $f$ $\pi$ 로 계산되게 됩니다.

$\theta$ $\phi_\theta$ $\theta$ $\theta$ $\pi$ $\phi_\theta$ $\theta$ $\phi_\theta$ 는 많아봤자 가능한 행동 개수의 몇 배이기 때문에 큰 이득을 볼 수 있습니다. Section의 제목에 efficient가 들어가는 이유도 이 때문입니다.

$\hat{g}^{acer}$ $\theta$ $\phi_\theta$ 에 대해 그래디언트를 계산한 결과입니다.

\underset{z}{minimize} \space\space\space \frac{1}{2} |\hat{g}^{acer}-z|^2 \\ subject\space to \space\space\space\nabla_{\phi_\theta(x_t) }D_{KL}[f(\cdot|\phi_{\theta_a}(x_t)) ||f(\cdot|\phi_{\theta}(x_t))]^Tz \le \delta

$k = \nabla_{\phi_\theta(x_t) }D_{KL}[f(\cdot|\phi_{\theta_a}(x_t)) ||f(\cdot|\phi_{\theta}(x_t))]$ $k$ $\hat{g}^{acer}$ $z$ $\hat{g}^{acer}$ $k$ $z$ $\hat{g}^{acer}$ 에서 KL Divergence를 늘리는 성분을 제거한 그래디언트가 됩니다.

$z$ $z$ 에 대한 일차부등식이기 때문에 해당 최적화 문제는 Quadratic Progamming이 됩니다. 즉 KKT 조건을 만족하기 때문에 다음과 같이 쉽게 해를 찾을 수 있습니다.

z^* = \hat{g}^{acer} - \max \{0, \frac{k^T\hat{g}^{acer}-\delta}{|k|_2^2}\}k

$\hat{g}^{acer}$ $z^*$ $\theta$ 를 업데이트하면 됩니다.

$\theta$ $\phi_\theta$ $J$ $\theta$ $\frac{\partial{J}}{\partial \theta}$ $\frac{\partial J}{\partial\theta} = \frac{\partial J}{\partial \phi_\theta} \cdot \frac{\partial \phi_\theta}{\partial\theta}$ $\frac{\partial J}{\partial \phi_\theta}$ $\theta$ $\theta$ 의 변화량에 얼마나 민감하고 얼마나 바뀌는지는 완벽히 통제할 수 없게 됩니다. 다만 이를 사용하지 않는 경우 계산량이 너무 크기 때문에 사용하는 편이 훨씬 이득이게 됩니다.

구현

일반적인 딥러닝 알고리즘과 달리 ACER는 그래디언트를 직접 구하고 수정한 뒤 적용하기 때문에 처음 접하는 경우 구현이 까다로울 수 있습니다. 여기서는 헷갈리거나 고민하기 쉬운 몇몇 부분만 짚어 보겠습니다.

$Q^{ret}$ $Q^{ret}$ $Q^{ret}$ 를 계산하는 경로 자체는 최적화 대상이 아니기 때문에 PyTorch의 detach 함수나 with no_grad() 구문, 또는 TensorFlow의 stop_gradient 함수 등으로 그래디언트 계산을 위한 computational graph에서 제외시켜야 합니다.

또한 계산하는 그래디언트가 목표 함수를 감소시키는 방향이 아니라 증가시키는 방향이기 때문에, 라이브러리에서 기본 제공하는 optimizer를 사용하는 경우 그래디언트에 -1을 곱해서 넘겨줘야 합니다. 보통 loss 함수에 대해 그래디언트를 계산하고 loss 함수를 감소시키는 방향으로 적용시켜야 하기 때문에 주어진 그래디언트의 반대 방향으로 파라미터를 업데이트하기 때문입니다.

주의할 점은 성능 함수를 최대화시키는 방향의 그래디언트를 계산한 후 TRPO를 적용하기 전에 -1을 먼저 곱한 뒤, TRPO를 적용한 후 바로 optimizer에 넘겨줘야 한다는 점입니다. 이 순서를 지켜야 적용되는 그래디언트에서 KL Divergence를 증가시키는 성분을 제거되기 때문입니다.

그리고 주어진 output에 대한 특정 input의 그래디언트를 구할 일이 많은데, PyTorch의 torch.autograd.grad 함수를 사용하거나 TensorFlow의 tf.gradients 함수로 구할 수 있습니다. 이를 잘 활용하면 배치 단위로 그래디언트를 구할 수 있는데, statistics 자체도 각 샘플마다 값이 나오기 때문에 배치 단위의 statistics에 대한 배치 단위의 목표값의 그래디언트를 구하면 GPU를 최대한 활용하며 반복문 없이 그래디언트를 구할 수 있게 됩니다.

$\mathbb{E}_{a \sim \pi}$ 항 내의 그래디언트를 구하는 것입니다. 한 샘플 당 여러 행동에 대해 그래디언트를 각각 구한 다음, 행동값에 따라 다른 후처리를 해준 뒤 더해야 하기 때문입니다. 한 파라미터를 사용해 계산한 여러 output이 있을 때, 여러 output의 해당 파라미터에 대한 그래디언트를 동시에 계산하면 각 output에 대한 그래디언트가 나오는 것이 아니라 그래디언트의 합이 나오기 때문입니다.

그런데 여기서 우리가 사용하는 후처리는 전부 곱셈 뿐이므로, 행동에 따라 다른 곱해야 하는 factor 들을 미리 구해두고, 해당 factor 들에는 그래디언트가 흐르지 않게 처리한 뒤 미리 곱한 뒤 각 output에 대한 그래디언트를 구하면 각 행동에 대해 그래디언트를 구한 후 후처리를 해 더한 것과 같은 결과를 얻을 수 있습니다.

$a$ $s$ $x$ 를 파라미터라고 두면

$\sum_{a \in A} [g(a|s) * \frac{df(a|s)}{dx}]$ 을 구해야 하는데,

$\frac{df(·|s)}{dx}$ $\frac{df(a|s)}{dx}$ $\sum_{a \in A} [\frac{df(a|s)}{dx}]$ $a$ 에 따라 서로 다른 후처리를 할 수 없는 것입니다.

torch.autograd.grad $\frac{df(a|s)}{dx}$ $g(a|s)$ 을 곱한 것을 다 더하는 식으로 계산해야 합니다.

$\frac{dg(a|s)}{dx} = 0$ $\frac{d(g(a|s) * f(a|s))}{dx} = g(a|s) * \frac{df(a|s)}{dx}$ 이므로

$h(a|s) = g(a|s) * f(a|s)$ 로 정의하면

$\frac{dh(·|s)}{dx} = \sum_{a \in A} [\frac{dh(a|s)}{dx}] = \sum_{a \in A} [\frac{d(g(a|s) * f(a|s))}{dx}] = \sum_{a \in A} [g(a|s) * \frac{df(a|s)}{dx}]$ 가 성립해 배치 단위 연산이 가능해지게 됩니다. 실제로 OpenAI의 baselines 구현도 이 방식을 사용하고 있습니다.

1 여기서

$V$ 는 이미 가지고 있는

$Q$ 함수와 각 행동을 선택할 확률

$\pi$ 를 알고 있기 때문에 직접 기댓값을 계산해 얻을 수 있습니다. 대신 continuous action space인 경우 다른 방식을 사용해야 합니다.↩

2 즉 계산된 그래디언트의 기댓값은 식 (4)로 계산했을 때의 기댓값과 같으면서, 계산 중간에 사용되는 importance weight 값 자체는 일정 범위를 벗어나지 않게 식을 변형할 수 있습니다.↩

저작자표시

'학업' 카테고리의 다른 글

시스템 디자인 (0)	2022.04.03
원소 추가, 삭제, 중간값 찾기 쿼리 (0)	2020.09.08
Pairwise / Triplet Loss (3)	2018.09.12
Squeeze-and-Excitation Networks (0)	2018.08.13
Batch Normalization (0)	2018.01.23

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

wwiiiii GitHub

TAG more

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

기리이이이인

티스토리 뷰