본문 바로가기
728x90

전공/딥러닝12

[리뷰] AST: Audio Spectrogram Transformer 21년도 Interspeech에서 accept된 논문으로, 오디오 분류 Task에서 convolution-free를 실현한 모델 논문 링크 AST: Audio Spectrogram TransformerAbstract지난 10년 동안, E2E audio classification models의 주요 구성 요소로 CNN이 주로 사용됨그러나, long-range global context를 잘 포착하지 못하는 문제가 있었음그 점을 보완하기 위해 CNN에 Self-attention을 추가한 하이브리드 모델이 등장그러나 CNN에 대한 의존이 정말 필요한 것인지, 순수한 attention 기반 모델도 좋은 성능을 낼 수 있는지 연구함 AST를 다양한 오디오 분류 벤치마크에서 평가했으며,AudioSet에서는 0.48.. 2025. 4. 15.
[DL] CNN 기반 모델 (LeNet/AlexNet/ZFNet/VGGNet/GoogLeNet/ResNet/ DenseNet/SENet/EfficientNet/ConvNeXt/MobileNet) 1. LeNet (1998)Yann LeCun이 제안한 최초의 CNN 모델손글씨 숫자 인식(MNIST) 문제 해결을 위해 개발합성곱(Convolution) + 풀링(Pooling) 구조 최초 도입구조:입력 → 합성곱 → 풀링 → 합성곱 → 풀링 → 완전연결층(FC) → 출력Filter size : 5x5stride : 1Pooling : 2x2 average poolingActivation function:대부분의 unit이 sigmoid를 사용.F6에서는 tanh를 사용.최종적인 output layer인 F7에서는 RBF (Euclidian Radia basis function unit)을 사용loss function : MSE성능:✅ MNIST 데이터셋에서 약 99% 정확도 달성2. AlexNet (.. 2025. 3. 21.
[DL] 오토인코더(Auto-Encoder)와 종류 Auto-Encoder정답이 없는 비지도 학습입력과 출력의 크기가 같으며, 중간으로 갈 수록 차원이 줄어드는 형태1. Auto-Encoder의 구조입력이 들어왔을 때, 그 입력 데이터를 최대한 압축시킨 후에 특징을 추출하여 다시 본래의 입력 형태로 복원시킴   데이터를 압축하는 부분을 Encoder 복원하는 부분을 Decoder압축 과정에서 추출한 의미 있는 데이터 Z를 latent vector  손실함수는 입력과 재구성(출력)의 차이를 가지고 계산즉, x를 얼마나 복원하였는지가 중요  2. 비지도 학습의 Auto-Encoder데이터 그 자체에 숨겨져 있는 패턴을 발견하는 것이 목표 Auto Encoder가 출력하는 latent vector를 미리 알 수 없음모델이 알아서 latent vector를 찾.. 2025. 2. 6.
[DL] 다양한 Convolution 알아보기, Depthwise/Pointwise/Separable/Grouped/Deformable 등등 다양한 Convolution 다양한 종류의 Convolution은 딥러닝 모델 경량화에 주로 쓰인다고 함 왜 그렇냐?? 기존 2차원 컨볼루션의 문제점 연산량이 크다.input 채널 수 X width X height X 필터 개수 X (필터 크기) $^2$ Dead Channels필터(커널)가 특정 입력 패턴에만 반응하게 되면, 일부 필터는 죽은 채널 (Dead Channels)이 되어버림 Low Correlation between Channels 각 채널이 독립적으로 특징을 학습하지만, 이로 인해 채널 간 정보가 제대로 공유되지 않는 문제가 발생따라서, 훨씬 효율적인 방법으로 딥러닝을 사용할 수 있는 다양한 Convolution이 나오게 되었음Dilated Convolution  컨볼루션 필터(커널)에서.. 2025. 2. 6.
[DL] 기울기 소실과 폭주 (Gradient Vanishing, Exploding) ✅Gradient Vanishing 깊은 인공 신경망을 학습하다보면 역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작아지는 현상이 발생 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않으면 결국 최적의 모델을 찾을 수 없게 됨 ✅Gradient Exploding기울기가 점차 커지더니 가중치들이 비정상적으로 큰 값이 되면서 결국 발산 기울기 소실과 폭주를 막는 방법 1. 시그모이드 대신 ReLU를 사용할 것 이전에 로지스틱 회귀의 시그모이드 함수를 배우면서 입력의 절대값이 클 경우에 시그모이드 함수의 출력값이 0 또는 1에 수렴하면서 기울기가 0에 가까워진다고 배움  결국, 역전파 과정에서 전파시킬 기울기가 점차 사라져 입력층 방향으로 갈 수록 제대로 역전파가 되지 .. 2024. 12. 13.
[DL] 과적합과 규제 (Overfitting, Regularization) 과적합이란? 모델이 학습 데이터에 지나치게 최적화되어, 새로운 데이터(일반화)에 대한 예측 성능이 떨어지는 현상 모델이 너무 복잡한 상황데이터가 적을 경우 과적합을 극복하기 위해 다양한 규제 기법을 사용 규제일반화 오류를 줄이려는 의도를 가지고 학습 알고리즘을 수정하는 방법 티호노프의 규제 기법 $$ J_{regularized}(\theta) = J(\theta) + \lambda R(\theta)$$ $ J_{regularized}(\theta) $ : 규제를 적용한 목적함수$J(\theta)$ : 목적함수$\lambda$ : 규제를 얼마나 유지할 것인가$R(\theta) $ : 규제항 명시적 규제 : 가중치 벌칙, 드롭아웃$\to $ 목적함수나 신경망 구조를 직접 수정암시적 규제 : Early Sto.. 2024. 12. 12.
728x90