본문 바로가기
728x90

머신러닝36

[리뷰] AST: Audio Spectrogram Transformer 21년도 Interspeech에서 accept된 논문으로, 오디오 분류 Task에서 convolution-free를 실현한 모델 논문 링크 AST: Audio Spectrogram TransformerAbstract지난 10년 동안, E2E audio classification models의 주요 구성 요소로 CNN이 주로 사용됨그러나, long-range global context를 잘 포착하지 못하는 문제가 있었음그 점을 보완하기 위해 CNN에 Self-attention을 추가한 하이브리드 모델이 등장그러나 CNN에 대한 의존이 정말 필요한 것인지, 순수한 attention 기반 모델도 좋은 성능을 낼 수 있는지 연구함 AST를 다양한 오디오 분류 벤치마크에서 평가했으며,AudioSet에서는 0.48.. 2025. 4. 15.
[AI 수학] 인공지능 수학 - 7. 우도(likelihood)란? (최대가능도/음의 로그 우도) 우도, likelihood우도란?내가 관측한 데이터가, 이 모델에서 얼마나 그럴듯한가? 를 나타내는 값 쉽게 말하자면 주사위를 던졌는데 6이 나옴내가 가진 모델은 공정한 주사위 모델 (숫자 각각의 확률 1/6)이 모델에서 6이 나올 확률은? $$P(x = 6 | 공정한 주사위) = \frac{1}{6}$$ 👉 이게 바로 우도 즉, 관측값 $x = 6$이 나왔을 때, 그게 모델로부터 나올 가능성을 의미    그럼 확률과 우도는 어떻게 다를까? 개념무엇에 대한 함수?설명확률 (Probability) 데이터 $x$에 대한 함수모델이 고정되어 있을 때, 특정 데이터가 나올 확률우도 (Likelihood) 모델 파라미터 $\theta$에 대한 함수데이터를 고정하고, 그 데이터가 얼마나 모델에 잘 맞는지 평가  .. 2025. 4. 8.
[AI 수학] 인공지능 수학 - 5. 고유값과 고유 벡터, 고윳값 분해 인공지능을 위한 기초수학 교재를 통해 공부한 내용을 서술하였습니다.고윳값, 고유벡터, 고윳값 분해 📌 행렬의 선형 변환이란?더보기행렬 A는 벡터에 작용하는 선형 변환입니다.즉, 어떤 벡터 $v$에 행렬 A를 곱하면 새로운 벡터가 됩니다: $$Av$$ ➡️ 예를 들어, A가 다음과 같은 $2 \times 2$ 행렬이라고 해볼게요.$$ A = \begin{bmatrix} 2 & 1 \\ 1 & 2 \\ \end{bmatrix}$$벡터 $\begin{bmatrix} x \\ y \end{bmatrix}$에 대해 행렬 A의 변환은: $$ Av = \begin{bmatrix} 2 & 1 \\ 1 & 2 \\ \end{bmatrix}\begin{bmatrix} x \\ y \end{bmatrix} = \begin.. 2025. 3. 17.
[리뷰] Mamba: Linear-Time Sequence Modeling with Selective State Spaces Mamba란?기존 Transformer과 RNN이 가진 연산량 문제와 길이 의존성 문제를 해결하는 새로운 모델 State Space Model(SSM)에 기반하여 만들어진 딥러닝 모델 ➡️ Self-Attention 없이 Transformer 수준의 성능을 달성하면서도 연산 속도 및 메모리 사용량을 개선한 것이 특징 ✅ 기존 Transformer는 어떤 문제를 가지고 있을까? 먼저, 트랜스포머는 최고의 성능을 가지는 시퀀스 모델. 입력 값이 무엇이든 시퀀스의 이전 토큰을 참고할 수 있어서 그 표현을 도출 가능 또한, Attention 매커니즘을 활용하여 복잡한 문맥 정보를 효과적으로 학습할 수 있음  하지만, Transformer 구조에는 몇 가지 치명적인 한계점이 존재 복잡도가 입력 길이에 대해 이차 .. 2025. 3. 16.
[신호처리] 6. Mel-Filter Bank/MFCC (Mel-Frequency Cepstral Coefficient) MFCC란? 음성 인식과 관련해 불필요한 정보는 버리고 중요한 특질만 남긴 피처(feature)인간의 말소리 인식에 중요한 특질들이 추출된 결과  입력 음성을 짧은 구간(대개 25ms 내외)으로 나눔 $\to$ 쪼개진 음성을 frame이라고 함 프레임 각각에 푸리에 변환(Fourier Transform)을 실시 $\to$ 해당 구간 음성에 담긴 주파수 정보를 추출 모든 프레임 각각에 푸리에 변환을 실시한 결과를 스펙트럼(spectrum)이라고 함 스펙트럼에 사람의 말소리 인식에 민감한 주파수 영역대는 세밀하게 보고 나머지 영역대는 상대적으로 덜 촘촘히 분석하는 필터(Mel Filter Bank)를 적용 $\to$ 멜 스펙트럼(Mel Spectrum) 이후 로그를 취한 것이 바로 로그 멜 스펙트럼(log-.. 2025. 2. 24.
[파이토치] 파이토치로 Mel-Spectrogram 생성해보기 PyTorch의 torchaudio.transforms를 사용하여 오디오 파일에서 Mel-Spectrogram을 생성하는 방법 1. 필요 라이브러리 설치아래 명령어로 설치pip install torchaudio2. 기본적인 Mel-Spectrogram 생성 코드import torchaudioimport torchaudio.transforms as transformsimport torchimport matplotlib.pyplot as plt# 1️⃣ 오디오 파일 로드waveform, sample_rate = torchaudio.load("example.wav") # 파일 경로 입력# 2️⃣ Mel-Spectrogram 변환기 정의mel_transform = transforms.MelSpectrogram.. 2025. 2. 20.
728x90