728x90 STT5 [리뷰] AST: Audio Spectrogram Transformer 21년도 Interspeech에서 accept된 논문으로, 오디오 분류 Task에서 convolution-free를 실현한 모델 논문 링크 AST: Audio Spectrogram TransformerAbstract지난 10년 동안, E2E audio classification models의 주요 구성 요소로 CNN이 주로 사용됨그러나, long-range global context를 잘 포착하지 못하는 문제가 있었음그 점을 보완하기 위해 CNN에 Self-attention을 추가한 하이브리드 모델이 등장그러나 CNN에 대한 의존이 정말 필요한 것인지, 순수한 attention 기반 모델도 좋은 성능을 낼 수 있는지 연구함 AST를 다양한 오디오 분류 벤치마크에서 평가했으며,AudioSet에서는 0.48.. 2025. 4. 15. [리뷰] Tacotron2 알아보기 + 논문 리뷰 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS 바로가기 Tacotron2는 2018년 구글에서 발표한 새로운 TTS 모델 기존의 TTS 시스템은 복잡한 전처리 및 음성 합성 과정이 필요했지만,Tacotron 2는 이를 딥러닝 기반으로 통합해 자연스러운 음성을 생성 ➡️ Tacotron 2의 주요 특징:문자(character) 입력 → 음성 출력까지 엔드투엔드(End-to-End) 학습 가능Mel Spectrogram을 중간 단계로 사용WaveNet 기반 Vocoder 사용 → 고품질 음성 생성 가능 AbstractTacotron2는 character embedding을 mel-spectrogram으로 매핑하는 r.. 2025. 3. 13. [신호처리] 6. Mel-Filter Bank/MFCC (Mel-Frequency Cepstral Coefficient) MFCC란? 음성 인식과 관련해 불필요한 정보는 버리고 중요한 특질만 남긴 피처(feature)인간의 말소리 인식에 중요한 특질들이 추출된 결과 입력 음성을 짧은 구간(대개 25ms 내외)으로 나눔 $\to$ 쪼개진 음성을 frame이라고 함 프레임 각각에 푸리에 변환(Fourier Transform)을 실시 $\to$ 해당 구간 음성에 담긴 주파수 정보를 추출 모든 프레임 각각에 푸리에 변환을 실시한 결과를 스펙트럼(spectrum)이라고 함 스펙트럼에 사람의 말소리 인식에 민감한 주파수 영역대는 세밀하게 보고 나머지 영역대는 상대적으로 덜 촘촘히 분석하는 필터(Mel Filter Bank)를 적용 $\to$ 멜 스펙트럼(Mel Spectrum) 이후 로그를 취한 것이 바로 로그 멜 스펙트럼(log-.. 2025. 2. 24. [리뷰] Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding 하이퍼커넥트 AI Lab에서 발표한 논문으로, Interspeech 2020에 실려있음이 논문에선 제한된 데이터만을 가지고 학습 가능한 TTS 시스템을 연구함 TTS 연구에서 가장 활발하게 사용되고 있는 Tacotron2 모델을 베이스로 연구하였다고 함 Attentron 모델은 attention을 활용하여 따라하고자 하는 화자의 특징에 대한 정보를 스펙트로그램으로부터 직접 가져와 사용 Abstract적은 양의 데이터만으로도 화자를 복제할 수 있는 few-shot TTS 시스템을 개발Attentron이라는 few-shot TTS 모델을 제안 Attentron은 두 개의 특수한 인코더를 가지고 있는데,fine-grained EncoderAttention을 사용하여 가변 길이의 스타일 정보 추출coarse-.. 2025. 2. 20. [신호처리] 4. 푸리에 변환, 고속 푸리에 변환, 나이퀴스트 주파수 소리 파형만을 보고 어떤 소리가 표현되는 지 아는 것은 어려움그러나 직접 음성 파일을 들어보았을 때 누구나 음의 차이를 인지할 수 있음이 차이는 어디에서 오는 걸까? 기저막은 달팽이 관에 도달한 진동을 주파수별 진동으로 분해하여 진동의 크기를 직접 뇌신경에 전달사람은 이와 같은 방법으로 음색 차이를 인지 가능이 매커니즘을 흉내 내어 기계도 주파수 별로 분해가 가능하게 됨 푸리에 변환(Fourier Transform)시간 영역의 신호를 주파수 도메인에서 분석 가능 푸리에 정리 "모든 주기적인 신호는 주파수가 다른 삼각함수 조합으로 표현할 수 있다"연속 푸리에 변환 (Continuous Fourier Transform)연속치인 시간 신호를 연속치인 주파수 축으로 분해 이산 시간 푸리에 변환 (Discret.. 2025. 1. 8. 이전 1 다음 728x90