본문 바로가기
반응형

머신러닝22

Batch Normalization 2 & Well - Known Models & Recurrent Neural Network Normalization - 정규화 되지 않은 데이터는 원하는 값을 찾는데에 X, Y 축이 다른 분포를 가지지 때문에 각각의 반영이 다르게됨. - 정규화가 된 데이터는 같은 분포를 가지기에 원하는 값을 빨리 도출함. Batch Normalization - 배치는 샘플들의 묶음. - 한 레이어를 통과했을때 같이 존재하는 샘플들을 평균내는것. - 한 배치에 들어있는 한 픽셀의 평균값 - x = sample (ex : MNIST = 28*28 이미지. 이미지 하나당 차원 = 784, ) - 각 픽셀당 표준편차. - 위 두 식은 이미지와 차원이 같음. - 위 두 식은 배치마다 새로운 값들이 형성이됨 - 정규화 식. - 정규화 식에 새로운 Distribution으로 변경. - 베타, 감마를 통해 학습시키는 식. .. 2021. 4. 28.
Batch Normalization & Overfitting & HyperParameter Batch Normalization - 각각의 layer 마다 평균과 표준편차를 다시 구한다. - BN을 적용한다면, W1 후의 Layer의 입력값이 균등하지 않아도, 균등하게 해주는 역할을 함. - 초기값 W에 따른 여러 그래프 - 초기값을 잘못 설정한 W라도 BN를 통해 옳바른 값을 찾아가는것을 볼 수 있음. Overfitting 분류문제 - Training Set에 과하게 학습되는것. - 제한된 데이터에만 정확하게 맞는것을 의미함. - Model의 Parameter 개수가 많을때와 Data가 적을때 이 현상이 일어난다. - 추가적으로 Underfit 이란, 데이터의 특성을 완전히 잡아내지 못한것을 의미한다. Overffting 방지법 Regularization - Loss 함수에 새로운 항을 붙인다.. 2021. 4. 23.
Initialization 2 Weight의 초기값을 설정해 주는 것이다. 각 가중치들의 편차와 초기값들, 활성함수에 따라서 Update 값이 달라진다. 예를들어 위의 활성함수는 높은 초기값을 가진다면, 미분을 해도 값의 변화가 미미하게 된다. 시그모이드에서 값들의 표준편차가 1인경우 미분값들이 작기 때문에 값들의 학습이 되지 않은 것을 볼 수 있다. 시그모이드에서 값들의 표준편차가 0.01인 경우 미분값들이 매우 밀접하게 붙어있기 때문에 모든 레이어의 값이 동일하고, NN의 표현력을 제한하게 된다. 시그모이드에서 Xavier 초깃값 표준편차가 0.01인 경우 전부 0으로 수렴하고 있음. Xavier 초깃값을 사용한 경우 레이어마다 분포도가 다르기 때문에, 각 레이어 마다 특징들이 달라질 수 있음. He 초깃값을 사용한 경우 전부 균.. 2021. 4. 22.
Optimizer 2 Optimizer란? 기본적으로 Weight updates를 하는 도구. - loss를 줄이는 방향으로 updates. Adaptive Gradient 방식 α : Learning rate h : 기존의 h에 새로운 미분값을 더해줌. h가 커질수록 Learning rate는 작아짐. - 큰 러닝레이트는 필요한 값에 도달하지 못하고 반복하는 특징을 가지고 있음 - 러닝레이트가 갈수록 줄어든다면 값을 찾기 쉽다는 것에서 착안된 방법. RMSProp 방식 - 이동 평균으로 구하는 방식 - 기존(ph)이 크면, 기존것이 더 많이 반영, 새로운 것이 크다면 새로운것이 더 많이 반영되게 되어진 방식. Adam 방식 - AdaGrad + Momentum 방식이다. 2D 차원에서의 각 방식별 비교 - 2D에서는 Ada.. 2021. 4. 21.
반응형