728x90 음성인식8 [리뷰] AST: Audio Spectrogram Transformer 21년도 Interspeech에서 accept된 논문으로, 오디오 분류 Task에서 convolution-free를 실현한 모델 논문 링크 AST: Audio Spectrogram TransformerAbstract지난 10년 동안, E2E audio classification models의 주요 구성 요소로 CNN이 주로 사용됨그러나, long-range global context를 잘 포착하지 못하는 문제가 있었음그 점을 보완하기 위해 CNN에 Self-attention을 추가한 하이브리드 모델이 등장그러나 CNN에 대한 의존이 정말 필요한 것인지, 순수한 attention 기반 모델도 좋은 성능을 낼 수 있는지 연구함 AST를 다양한 오디오 분류 벤치마크에서 평가했으며,AudioSet에서는 0.48.. 2025. 4. 15. [리뷰] Tacotron2 알아보기 + 논문 리뷰 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS 바로가기 Tacotron2는 2018년 구글에서 발표한 새로운 TTS 모델 기존의 TTS 시스템은 복잡한 전처리 및 음성 합성 과정이 필요했지만,Tacotron 2는 이를 딥러닝 기반으로 통합해 자연스러운 음성을 생성 ➡️ Tacotron 2의 주요 특징:문자(character) 입력 → 음성 출력까지 엔드투엔드(End-to-End) 학습 가능Mel Spectrogram을 중간 단계로 사용WaveNet 기반 Vocoder 사용 → 고품질 음성 생성 가능 AbstractTacotron2는 character embedding을 mel-spectrogram으로 매핑하는 r.. 2025. 3. 13. [신호처리] 6. Mel-Filter Bank/MFCC (Mel-Frequency Cepstral Coefficient) MFCC란? 음성 인식과 관련해 불필요한 정보는 버리고 중요한 특질만 남긴 피처(feature)인간의 말소리 인식에 중요한 특질들이 추출된 결과 입력 음성을 짧은 구간(대개 25ms 내외)으로 나눔 $\to$ 쪼개진 음성을 frame이라고 함 프레임 각각에 푸리에 변환(Fourier Transform)을 실시 $\to$ 해당 구간 음성에 담긴 주파수 정보를 추출 모든 프레임 각각에 푸리에 변환을 실시한 결과를 스펙트럼(spectrum)이라고 함 스펙트럼에 사람의 말소리 인식에 민감한 주파수 영역대는 세밀하게 보고 나머지 영역대는 상대적으로 덜 촘촘히 분석하는 필터(Mel Filter Bank)를 적용 $\to$ 멜 스펙트럼(Mel Spectrum) 이후 로그를 취한 것이 바로 로그 멜 스펙트럼(log-.. 2025. 2. 24. [파이토치] 파이토치로 Mel-Spectrogram 생성해보기 PyTorch의 torchaudio.transforms를 사용하여 오디오 파일에서 Mel-Spectrogram을 생성하는 방법 1. 필요 라이브러리 설치아래 명령어로 설치pip install torchaudio2. 기본적인 Mel-Spectrogram 생성 코드import torchaudioimport torchaudio.transforms as transformsimport torchimport matplotlib.pyplot as plt# 1️⃣ 오디오 파일 로드waveform, sample_rate = torchaudio.load("example.wav") # 파일 경로 입력# 2️⃣ Mel-Spectrogram 변환기 정의mel_transform = transforms.MelSpectrogram.. 2025. 2. 20. [리뷰] Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding 하이퍼커넥트 AI Lab에서 발표한 논문으로, Interspeech 2020에 실려있음이 논문에선 제한된 데이터만을 가지고 학습 가능한 TTS 시스템을 연구함 TTS 연구에서 가장 활발하게 사용되고 있는 Tacotron2 모델을 베이스로 연구하였다고 함 Attentron 모델은 attention을 활용하여 따라하고자 하는 화자의 특징에 대한 정보를 스펙트로그램으로부터 직접 가져와 사용 Abstract적은 양의 데이터만으로도 화자를 복제할 수 있는 few-shot TTS 시스템을 개발Attentron이라는 few-shot TTS 모델을 제안 Attentron은 두 개의 특수한 인코더를 가지고 있는데,fine-grained EncoderAttention을 사용하여 가변 길이의 스타일 정보 추출coarse-.. 2025. 2. 20. [신호처리] 5. STFT/FFT, Spectrogram/Mel-Spectrogram이란? 음성처리를 할 때, feature로 Spectrogram을 자주 사용하게 됨 왜 자주 사용하는지와 어떻게 신호를 Spectrogram으로 바꿔서 사용하는지 알아보자!! Fast Fourier Transform, FFT고속 푸리에 변환이전 푸리에변환 포스팅에서 DFT-이산푸리에변환을 통해 주로 푸리에 변환을 한다고 언급 고속 푸리에 변환은 DFT를 빠르게 계산하는 하나의 알고리즘 단순 DFT는 계산량이 $O(n^2)$이라 고속 푸리에 변환 $O(n logn)$이 훨씬 효율적 이 과정을 통해 시간으로 분석할 때보다 훨씬 더 많은 정보 즉, linearity, resoulution, robustness 등을 알 수 있음 Short Time Fourier Transform, STFT 데이터에서 시간에 대해 .. 2025. 2. 2. 이전 1 2 다음 728x90