728x90 논문3 [리뷰] Mamba: Linear-Time Sequence Modeling with Selective State Spaces Mamba란?기존 Transformer과 RNN이 가진 연산량 문제와 길이 의존성 문제를 해결하는 새로운 모델 State Space Model(SSM)에 기반하여 만들어진 딥러닝 모델 ➡️ Self-Attention 없이 Transformer 수준의 성능을 달성하면서도 연산 속도 및 메모리 사용량을 개선한 것이 특징 ✅ 기존 Transformer는 어떤 문제를 가지고 있을까? 먼저, 트랜스포머는 최고의 성능을 가지는 시퀀스 모델. 입력 값이 무엇이든 시퀀스의 이전 토큰을 참고할 수 있어서 그 표현을 도출 가능 또한, Attention 매커니즘을 활용하여 복잡한 문맥 정보를 효과적으로 학습할 수 있음 하지만, Transformer 구조에는 몇 가지 치명적인 한계점이 존재 복잡도가 입력 길이에 대해 이차 .. 2025. 3. 16. [리뷰] Tacotron2 알아보기 + 논문 리뷰 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS 바로가기 Tacotron2는 2018년 구글에서 발표한 새로운 TTS 모델 기존의 TTS 시스템은 복잡한 전처리 및 음성 합성 과정이 필요했지만,Tacotron 2는 이를 딥러닝 기반으로 통합해 자연스러운 음성을 생성 ➡️ Tacotron 2의 주요 특징:문자(character) 입력 → 음성 출력까지 엔드투엔드(End-to-End) 학습 가능Mel Spectrogram을 중간 단계로 사용WaveNet 기반 Vocoder 사용 → 고품질 음성 생성 가능 AbstractTacotron2는 character embedding을 mel-spectrogram으로 매핑하는 r.. 2025. 3. 13. [리뷰] Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding 하이퍼커넥트 AI Lab에서 발표한 논문으로, Interspeech 2020에 실려있음이 논문에선 제한된 데이터만을 가지고 학습 가능한 TTS 시스템을 연구함 TTS 연구에서 가장 활발하게 사용되고 있는 Tacotron2 모델을 베이스로 연구하였다고 함 Attentron 모델은 attention을 활용하여 따라하고자 하는 화자의 특징에 대한 정보를 스펙트로그램으로부터 직접 가져와 사용 Abstract적은 양의 데이터만으로도 화자를 복제할 수 있는 few-shot TTS 시스템을 개발Attentron이라는 few-shot TTS 모델을 제안 Attentron은 두 개의 특수한 인코더를 가지고 있는데,fine-grained EncoderAttention을 사용하여 가변 길이의 스타일 정보 추출coarse-.. 2025. 2. 20. 이전 1 다음 728x90