Processing math: 100%
본문 바로가기
728x90

딥러닝37

[리뷰] AST: Audio Spectrogram Transformer 21년도 Interspeech에서 accept된 논문으로, 오디오 분류 Task에서 convolution-free를 실현한 모델 논문 링크 AST: Audio Spectrogram TransformerAbstract지난 10년 동안, E2E audio classification models의 주요 구성 요소로 CNN이 주로 사용됨그러나, long-range global context를 잘 포착하지 못하는 문제가 있었음그 점을 보완하기 위해 CNN에 Self-attention을 추가한 하이브리드 모델이 등장그러나 CNN에 대한 의존이 정말 필요한 것인지, 순수한 attention 기반 모델도 좋은 성능을 낼 수 있는지 연구함 AST를 다양한 오디오 분류 벤치마크에서 평가했으며,AudioSet에서는 0.48.. 2025. 4. 15.
[AI 수학] 인공지능 수학 - 7. 우도(likelihood)란? (최대가능도/음의 로그 우도) 우도, likelihood우도란?내가 관측한 데이터가, 이 모델에서 얼마나 그럴듯한가? 를 나타내는 값 쉽게 말하자면 주사위를 던졌는데 6이 나옴내가 가진 모델은 공정한 주사위 모델 (숫자 각각의 확률 1/6)이 모델에서 6이 나올 확률은? P(x=6|)=16 👉 이게 바로 우도 즉, 관측값 x=6이 나왔을 때, 그게 모델로부터 나올 가능성을 의미    그럼 확률과 우도는 어떻게 다를까? 개념무엇에 대한 함수?설명확률 (Probability) 데이터 x에 대한 함수모델이 고정되어 있을 때, 특정 데이터가 나올 확률우도 (Likelihood) 모델 파라미터 θ에 대한 함수데이터를 고정하고, 그 데이터가 얼마나 모델에 잘 맞는지 평가  .. 2025. 4. 8.
[AI 수학] 인공지능 수학 - 5. 고유값과 고유 벡터, 고윳값 분해 인공지능을 위한 기초수학 교재를 통해 공부한 내용을 서술하였습니다.고윳값, 고유벡터, 고윳값 분해 📌 행렬의 선형 변환이란?더보기행렬 A는 벡터에 작용하는 선형 변환입니다.즉, 어떤 벡터 v에 행렬 A를 곱하면 새로운 벡터가 됩니다: Av ➡️ 예를 들어, A가 다음과 같은 2×2 행렬이라고 해볼게요.A=[2112]벡터 [xy]에 대해 행렬 A의 변환은: $$ Av = [2112][xy] = \begin.. 2025. 3. 17.
[리뷰] Mamba: Linear-Time Sequence Modeling with Selective State Spaces Mamba란?기존 Transformer과 RNN이 가진 연산량 문제와 길이 의존성 문제를 해결하는 새로운 모델 State Space Model(SSM)에 기반하여 만들어진 딥러닝 모델 ➡️ Self-Attention 없이 Transformer 수준의 성능을 달성하면서도 연산 속도 및 메모리 사용량을 개선한 것이 특징 ✅ 기존 Transformer는 어떤 문제를 가지고 있을까? 먼저, 트랜스포머는 최고의 성능을 가지는 시퀀스 모델. 입력 값이 무엇이든 시퀀스의 이전 토큰을 참고할 수 있어서 그 표현을 도출 가능 또한, Attention 매커니즘을 활용하여 복잡한 문맥 정보를 효과적으로 학습할 수 있음  하지만, Transformer 구조에는 몇 가지 치명적인 한계점이 존재 복잡도가 입력 길이에 대해 이차 .. 2025. 3. 16.
[리뷰] Tacotron2 알아보기 + 논문 리뷰 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS 바로가기  Tacotron2는 2018년 구글에서 발표한 새로운 TTS 모델 기존의 TTS 시스템은 복잡한 전처리 및 음성 합성 과정이 필요했지만,Tacotron 2는 이를 딥러닝 기반으로 통합해 자연스러운 음성을 생성 ➡️ Tacotron 2의 주요 특징:문자(character) 입력 → 음성 출력까지 엔드투엔드(End-to-End) 학습 가능Mel Spectrogram을 중간 단계로 사용WaveNet 기반 Vocoder 사용 → 고품질 음성 생성 가능 AbstractTacotron2는 character embedding을 mel-spectrogram으로 매핑하는 r.. 2025. 3. 13.
[신호처리] 6. Mel-Filter Bank/MFCC (Mel-Frequency Cepstral Coefficient) MFCC란? 음성 인식과 관련해 불필요한 정보는 버리고 중요한 특질만 남긴 피처(feature)인간의 말소리 인식에 중요한 특질들이 추출된 결과  입력 음성을 짧은 구간(대개 25ms 내외)으로 나눔 쪼개진 음성을 frame이라고 함 프레임 각각에 푸리에 변환(Fourier Transform)을 실시 해당 구간 음성에 담긴 주파수 정보를 추출 모든 프레임 각각에 푸리에 변환을 실시한 결과를 스펙트럼(spectrum)이라고 함 스펙트럼에 사람의 말소리 인식에 민감한 주파수 영역대는 세밀하게 보고 나머지 영역대는 상대적으로 덜 촘촘히 분석하는 필터(Mel Filter Bank)를 적용 멜 스펙트럼(Mel Spectrum) 이후 로그를 취한 것이 바로 로그 멜 스펙트럼(log-.. 2025. 2. 24.
728x90