MAB Multi-Armed Bandit Problem 1. 개요 Multi-Armed Bandit(MAB) problem이란 강화 학습에서 다루는 분야 중 하나로, 여러 선택지가 주어지고 각 선택지는 특정한 확률 분포를 따르는 보상을 돌려준다고 할 때 어떤 선택지를 고르는 것이 이득인지 판단하는 문제이다. 가장 쉬운 예로는 웹사이트의 광고 자리에 어떤 회사의 광고를 노출시켜야 사람들이 많이 클릭해 수익을 최대한 얻을 수 있을지 판단하는 것이 있다. 각 선택지를 arm, iii번째 arm의 보상의 기댓값을 θiθ_iθi, iii번째 arm의 보상이 따르는 확률 분포를 PiP_iPi라고 쓰자. 통상적으로 각 arm은 같은 모양의 확률 분포를 가진다고 가정하므로 PiP_iPi=P(θi)P(θ_i )P(..
Batch Normalization 이 글은 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift을 읽고 정리한 것이다. 네트워크 학습에 많이 쓰이는 SGD의 경우 각 파라미터의 기울기가 앞쪽 레이어에 의존하기 때문에 조그마한 변화도 네트워크가 깊을 경우 증폭되는 경향이 있다. 또 각 레이어에 들어오는 input은 다른 레이어의 출력이고, 이는 각 층의 파라미터 값에 영향을 받기 때문에 학습이 진행됨에 따라 input의 distribution도 바뀌게 된다. 이에 따라 레이어가 계속해서 변화에 적응해야 하기 때문에 학습 속도가 느려지게 된다. 또한 saturation problem이라는게 있는..
새 키보드랑 새 노트북이랑 돈이 생긴 기념으로 모니터를 하나 샀다!!기숙사 책상이 좁아서 크기는 24인치로 정했고, 브랜드는 알파스캔이랑 벤큐 중에 고르기로 했다.책상이 낮아서 필요한 틸트 기능이랑, 왠지 눈에 좋을 것 같은 플리커 프리/블루라이트 차단/눈부심 방지 옵션을 고르고 검색하니까 순서대로1. 알파스캔 AOC 2477 IPS MHL+DP 무결점2. 알파스캔 2400 ADS MHL 무결점3. 알파스캔 24NB77PR IPS 시력보호 무결점4. 알파스캔 AOC 2490 IPS DP 무결점가 나온다. 베스트 셀러인 1번이랑 이름에 시력보호가 들어가는 3번 중에 고민하고 있었는데, 그냥 쿠팡에 한번 검색해봤더니 3번을 다나와 최저가보다 싼 166,690원(지금 검색해보니까 185,220원이라고 나온다)..
- Total
- Today
- Yesterday
- Caymus
- grub 윈도우 인식
- 와이너리
- hendry
- 케이머스
- boot-repair
- 우분투 14.04
- grub window ubuntu
- 우분투
- 미국면허
- 나파
- grub 우분투 인식
- 윈도우 7
- DMV
- 우분투 윈도우 멀티부팅
- 나파밸리
- 캘리포니아
- 헨드리
- 레드우드시티
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |