Deep Q NetworkDQN은 구글 딥마인드에서 발표한 논문 Playing Atari with Deep Reinforcement Learning과 Human-level control through deep reinforcement learning에서 제시된 강화학습 알고리즘으로, 기존 Q-learning 알고리즘의 Q(action-value) 함수를 딥러닝으로 근사하는 알고리즘이다. 이 알고리즘이 중요한 이유는 딥러닝을 강화학습에 적용하는 것을 어렵게 하는 여러 문제를 (필자가 아는 한 최초로) 해결했기 때문이다. 어려운 점의 대표적인 예시로는성공적인 딥러닝을 위해선 예쁘게 가공된 대규모의 데이터 셋이 필요한데, 강화학습은 input에 대응되는 정답을 명확히 알 수 없을 뿐더러 delay가 있고 no..
MAB Multi-Armed Bandit Problem 1. 개요 Multi-Armed Bandit(MAB) problem이란 강화 학습에서 다루는 분야 중 하나로, 여러 선택지가 주어지고 각 선택지는 특정한 확률 분포를 따르는 보상을 돌려준다고 할 때 어떤 선택지를 고르는 것이 이득인지 판단하는 문제이다. 가장 쉬운 예로는 웹사이트의 광고 자리에 어떤 회사의 광고를 노출시켜야 사람들이 많이 클릭해 수익을 최대한 얻을 수 있을지 판단하는 것이 있다. 각 선택지를 arm, iii번째 arm의 보상의 기댓값을 θiθ_iθi, iii번째 arm의 보상이 따르는 확률 분포를 PiP_iPi라고 쓰자. 통상적으로 각 arm은 같은 모양의 확률 분포를 가진다고 가정하므로 PiP_iPi=P(θi)P(θ_i )P(..
Batch Normalization 이 글은 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift을 읽고 정리한 것이다. 네트워크 학습에 많이 쓰이는 SGD의 경우 각 파라미터의 기울기가 앞쪽 레이어에 의존하기 때문에 조그마한 변화도 네트워크가 깊을 경우 증폭되는 경향이 있다. 또 각 레이어에 들어오는 input은 다른 레이어의 출력이고, 이는 각 층의 파라미터 값에 영향을 받기 때문에 학습이 진행됨에 따라 input의 distribution도 바뀌게 된다. 이에 따라 레이어가 계속해서 변화에 적응해야 하기 때문에 학습 속도가 느려지게 된다. 또한 saturation problem이라는게 있는..
- Total
- Today
- Yesterday
- 우분투 윈도우 멀티부팅
- grub 윈도우 인식
- 우분투
- DMV
- boot-repair
- 미국면허
- 윈도우 7
- 레드우드시티
- grub window ubuntu
- 캘리포니아
- grub 우분투 인식
- 우분투 14.04
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |