[DL] 과적합과 규제 (Overfitting, Regularization)

728x90

모델이 학습 데이터에 지나치게 최적화되어, 새로운 데이터(일반화)에 대한 예측 성능이 떨어지는 현상

과적합을 극복하기 위해 다양한 규제 기법을 사용

일반화 오류를 줄이려는 의도를 가지고 학습 알고리즘을 수정하는 방법

티호노프의 규제 기법

$$ J_{regularized}(\theta) = J(\theta) + \lambda R(\theta)$$

$ J_{regularized}(\theta) $ : 규제를 적용한 목적함수

$J(\theta)$ : 목적함수

$\lambda$ : 규제를 얼마나 유지할 것인가

$R(\theta) $ : 규제항

1. 가중치 벌칙

패널티를 주어 더이상 fitting 금지

$J_{regularized}(\theta) = J(\theta) + \lambda R(\theta)$

규제항을 두어 loss가 남아있게 함

큰 가중치에 벌칙을 가해 작은 가중치를 유지하려고 주로 L2놈이나 L1놈을 사용

L2 놈
모든 가중치 w들의 제곱합을 비용 함수에 추가

$ J_{regularized}(\theta) = J(\theta) + \lambda \left\| \theta\right\|^2_2$

$\bigtriangledown J_{regularized}(\theta) = \bigtriangledown J(\theta) + 2\lambda \theta $

매개변수 갱신시,
$\theta = \theta - p \bigtriangledown J_{regularized}(\theta) $
$\theta = \theta -p( \bigtriangledown J(\theta) + 2\lambda \theta) $
$\theta = (1-2p\lambda )\theta -p \bigtriangledown J(\theta) $

예를 들어, (1−2pλ)=0.95라면, 는 5%만큼 줄어듬
$\to $ 가중치의 크기를 감쇠시키는 효과
L1 놈
가중치 w들의 절대값 합계를 비용 함수에 추가

$J_{regularized}(\theta) = J(\theta) + \lambda \left\| \theta\right\|^1_1$

$ \bigtriangledown J_{regularized}(\theta) = \bigtriangledown J(\theta) + \lambda sign(\theta)$
$\to$ \theta는 상수이기 때문에 미분하게 되면 부호만 남게 됨

매개변수 갱신시,
$\theta = \theta - p \bigtriangledown J_{regularized}(\theta) $
$\theta = \theta -p( \bigtriangledown J(\theta) + \lambda sign(\theta)) $
$\theta = \theta -p \bigtriangledown J(\theta) -p\lambda sign(\theta) $

2. 드롭아웃

입력층과 은닉층의 노드 중, 일정 비율을 임의로 선택해 제거 $\to$ 남은 부분만 학습

test 단계에서는 사용하지 않음

불린 배열을 사용해 제거 여부 결정

입력층 제거 비율 : 0.2

은닉층 제거 비율 : 0.5

3. Early Stopping

검증 집합의 오류가 최저인 점에서 학습을 멈춤

4. Data Augmentation

데이터를 인위적으로 변형하여 확대

728x90

[DL] 다양한 Convolution 알아보기, Depthwise/Pointwise/Separable/Grouped/Deformable 등등 (0)	2025.02.06
[DL] 기울기 소실과 폭주 (Gradient Vanishing, Exploding) (0)	2024.12.13
[DL] 합성곱 신경망(CNN), 합성곱과 풀링 (0)	2024.12.12
[DL] LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit) 알아보기 (0)	2024.12.12
[DL] 순환 신경망(Recurrent Neural Network, RNN) (0)	2024.12.10

hiiiiiiiiii