728x90 파이썬25 [리뷰] Mamba: Linear-Time Sequence Modeling with Selective State Spaces Mamba란?기존 Transformer과 RNN이 가진 연산량 문제와 길이 의존성 문제를 해결하는 새로운 모델 State Space Model(SSM)에 기반하여 만들어진 딥러닝 모델 ➡️ Self-Attention 없이 Transformer 수준의 성능을 달성하면서도 연산 속도 및 메모리 사용량을 개선한 것이 특징 ✅ 기존 Transformer는 어떤 문제를 가지고 있을까? 먼저, 트랜스포머는 최고의 성능을 가지는 시퀀스 모델. 입력 값이 무엇이든 시퀀스의 이전 토큰을 참고할 수 있어서 그 표현을 도출 가능 또한, Attention 매커니즘을 활용하여 복잡한 문맥 정보를 효과적으로 학습할 수 있음 하지만, Transformer 구조에는 몇 가지 치명적인 한계점이 존재 복잡도가 입력 길이에 대해 이차 .. 2025. 3. 16. [리뷰] Tacotron2 알아보기 + 논문 리뷰 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS 바로가기 Tacotron2는 2018년 구글에서 발표한 새로운 TTS 모델 기존의 TTS 시스템은 복잡한 전처리 및 음성 합성 과정이 필요했지만,Tacotron 2는 이를 딥러닝 기반으로 통합해 자연스러운 음성을 생성 ➡️ Tacotron 2의 주요 특징:문자(character) 입력 → 음성 출력까지 엔드투엔드(End-to-End) 학습 가능Mel Spectrogram을 중간 단계로 사용WaveNet 기반 Vocoder 사용 → 고품질 음성 생성 가능 AbstractTacotron2는 character embedding을 mel-spectrogram으로 매핑하는 r.. 2025. 3. 13. [파이토치] 파이토치로 Mel-Spectrogram 생성해보기 PyTorch의 torchaudio.transforms를 사용하여 오디오 파일에서 Mel-Spectrogram을 생성하는 방법 1. 필요 라이브러리 설치아래 명령어로 설치pip install torchaudio2. 기본적인 Mel-Spectrogram 생성 코드import torchaudioimport torchaudio.transforms as transformsimport torchimport matplotlib.pyplot as plt# 1️⃣ 오디오 파일 로드waveform, sample_rate = torchaudio.load("example.wav") # 파일 경로 입력# 2️⃣ Mel-Spectrogram 변환기 정의mel_transform = transforms.MelSpectrogram.. 2025. 2. 20. [DL] 오토인코더(Auto-Encoder)와 종류 Auto-Encoder정답이 없는 비지도 학습입력과 출력의 크기가 같으며, 중간으로 갈 수록 차원이 줄어드는 형태1. Auto-Encoder의 구조입력이 들어왔을 때, 그 입력 데이터를 최대한 압축시킨 후에 특징을 추출하여 다시 본래의 입력 형태로 복원시킴 데이터를 압축하는 부분을 Encoder 복원하는 부분을 Decoder압축 과정에서 추출한 의미 있는 데이터 Z를 latent vector 손실함수는 입력과 재구성(출력)의 차이를 가지고 계산즉, x를 얼마나 복원하였는지가 중요 2. 비지도 학습의 Auto-Encoder데이터 그 자체에 숨겨져 있는 패턴을 발견하는 것이 목표 Auto Encoder가 출력하는 latent vector를 미리 알 수 없음모델이 알아서 latent vector를 찾.. 2025. 2. 6. [DL] 다양한 Convolution 알아보기, Depthwise/Pointwise/Separable/Grouped/Deformable 등등 다양한 Convolution 다양한 종류의 Convolution은 딥러닝 모델 경량화에 주로 쓰인다고 함 왜 그렇냐?? 기존 2차원 컨볼루션의 문제점 연산량이 크다.input 채널 수 X width X height X 필터 개수 X (필터 크기) $^2$ Dead Channels필터(커널)가 특정 입력 패턴에만 반응하게 되면, 일부 필터는 죽은 채널 (Dead Channels)이 되어버림 Low Correlation between Channels 각 채널이 독립적으로 특징을 학습하지만, 이로 인해 채널 간 정보가 제대로 공유되지 않는 문제가 발생따라서, 훨씬 효율적인 방법으로 딥러닝을 사용할 수 있는 다양한 Convolution이 나오게 되었음Dilated Convolution 컨볼루션 필터(커널)에서.. 2025. 2. 6. [신호처리] 5. STFT/FFT, Spectrogram/Mel-Spectrogram이란? 음성처리를 할 때, feature로 Spectrogram을 자주 사용하게 됨 왜 자주 사용하는지와 어떻게 신호를 Spectrogram으로 바꿔서 사용하는지 알아보자!! Fast Fourier Transform, FFT고속 푸리에 변환이전 푸리에변환 포스팅에서 DFT-이산푸리에변환을 통해 주로 푸리에 변환을 한다고 언급 고속 푸리에 변환은 DFT를 빠르게 계산하는 하나의 알고리즘 단순 DFT는 계산량이 $O(n^2)$이라 고속 푸리에 변환 $O(n logn)$이 훨씬 효율적 이 과정을 통해 시간으로 분석할 때보다 훨씬 더 많은 정보 즉, linearity, resoulution, robustness 등을 알 수 있음 Short Time Fourier Transform, STFT 데이터에서 시간에 대해 .. 2025. 2. 2. 이전 1 2 3 4 5 다음 728x90