Posts
HW Space
Cancel

Abstract SV2TTS로도 불리는 본 논문은 Speaker verification을 Multi-Speaker에 활용한 TTS 모델이다. 또한 학습되지 않은 화자의 음성을 몇 초만의 오디오로 비슷하게 표현해낼 수 있는 voice cloning도 제안하고 있다. 이 모델은 기존의 2개 학습 과정을 수행하는 것과 다르게, 3개 독립적인 학...

Abstract 지난 10년간 CNN이 Audio Classification Task에서 오디오를 관련 라벨에 바로 매핑할 수 있다는 장점 덕분에 필수적으로 활용되어왔다. 그런데 최근 long range context를 포착하기 위해 self-attention을 적용한 여러 CNN 모델이 제안되고 있다. 그러나 필자는 ...

Abstract FastSpeech2는 Fastspeech을 계승한 Non-Autoregressive 모델이며, Fastspeech의 단점을 개선했다. FastSpeech의 단점은 1) Teacher-student distillation이 너무 복잡하며, 2) teacher 모델로부터 duration 추출이 확실하지 않다. ...

Abstract 기존에 제안된 Tacotron은 concatenative, statistical parametric보다 자연스러운 음성 합성이 가능했으나, Autoregressive 구조로 이루어져 있어 inference 과정이 상당히 느리다. 또한 불완전한(발음 무시 등) 모습을 자주 보이기도 했으며, 속도와 운율 제어에 한계가 존재했다. Fa...

Abstract HiFi-GAN은 오디오가 sin파로 이루어진 점을 고려하여 주기적인 패턴을 모델링 하는 것에 집중하여 품질을 향상시켰다. 이 모델의 구조에서 특이한 점은 1개의 Generator와 2개의 Discriminator로 이루어진 것이다. 이 결과로 사람과 거의 유사한 수준의 음성을 생성하...

본 포스팅은 [Adapting TTS Models For New Speakers Using Transfer Learning] 논문에 대한 이해를 목적으로 작성 Abstract 새로운 speaker를 추가할 때 보통 몇시간 단위의 좋은 퀄리티의 음성 데이터를 필요로 한다. 보통 음성을 복제하기 위해, 적은 양의 새로운...

Research Purpose Unlabeled speech data와 적은 Labeled speech data로 충분히 음성인식기를 개발하기 위해 Self-supervised Learning 알고리즘 활용 자연어 처리에서 Transformer로 비약적인 발전을 이룬 것처럼 음성 인식 분야에서도 Transform...

1. Introduction 푸리에 변환은 푸리에 급수의 약점을 보완하기 위해 제안된 적분 변환이다. → 푸리에 급수에서 주기(T)를 무한대로 보내는 것 임의의 입력 신호를 다양한 파수를 갖는 주기함수들의 합으로 분해하여 표현한다. → \(sin, cos\)이 주기 함수이며, 고주파부터 저주파까지 많은 대역을 원본 신...

본 게시글은 towards data science 사이트에 Patrick Meyer가 작성한 ‘State Of The Art of Speech Synthesis at the End of May 2021’를 번역 및 정리한 글이다. https://hwrg.github.io/posts/2021-딥러닝-기반-음성-합성-총정리-1/ 이전 게시글에 이어서 ...

본 게시글은 towards data science 사이트에 Patrick Meyer가 작성한 ‘State Of The Art of Speech Synthesis at the End of May 2021’를 번역 및 정리한 글이다. 많은 내용을 담고 있어 2개의 게시글로 나눠 작성할 예정이다. 글의 출처는 다음과 같다. https://towar...