들어가면서

최근 3달 동안 해보고 싶은 공부를 하면서 모은 지식을 되새기고 공유할 겸 블로그를 쓰고자 한다.

딥러닝 기반의 음성합성(Text-to-Speech)에 대해 구글링하며 독학 했는데,

생각보다 스터디를 위한 자료 찾기가 쉽지 않았다. 그래서 이 분야를 처음 스터디하며 어려워 하는 사람들에게 작게나마 도움을 주고 싶다고 마음 먹게 되었다.

왜?

최근들어 딥러닝 기반 음성 합성에 관심을 가진 사람들이 많아지긴 했으나, 시장 규모가 작았던 만큼 관련 종사자가 적었다.

더구나 기술적으로 Frequency와 Spectrogram 등 신호처리 지식이 요구되며,

유행이 시작한지 얼마 되지 않아 자료가 부족한 것이라 생각이 든다.

극단적으로 1990년대, 2000년대 초반의 음성 연구 논문이 있는가 하면,

최근 2017년 구글의 Tacotron 모델 등장과 함께 딥러닝 기반의 음성 합성 모델 논문들이 쏟아지고 있는 상황이다. 구글과 엔비디아 같은 기업에서 진행한 연구를 통해 높은 수준의 기술을 우리가 자유롭게 확인할 수 있게 되었다.

그러나 신생 논문과 기술인 만큼 오픈소스와 다양한 의견 교류가 타 분야에 비해 현저히 적다.

딥러닝 기반의 음성 합성을 중점으로,

음성 합성의 근본 Encoder Attenton Decoder 구조의 Tacotron부터,

Mel-Spectrogram을 변환하여 더 좋은 음성을 생성해내는 Vocoder들을 리뷰할 예정이다.

Tacotron2, Parellel-Tacotron 등 기본적이고 성능 좋은 모델부터,

감정이 추가된 다양한 변형된 Tacotron들에 대해서 알아볼 예정이다.

다음으로, 생성된 Mel-Spectrogram을 더 자연스럽게 생성하는 모델인

Wavenet, Griffin-Lim, Waveglow, MelGAN에 대해 마찬가지로 필요에 따라 심층적으로 다루고자 한다.

추가로 스터디를 통해 알게된 Frequency를 위 음성 합성 모델에 대입해 예시로 제시하거나,

MFCC와 Spectrogram 등에 대해서도 관련해서도 작성하고자 한다.

MD를 처음 써보는 입장에서 간단히 인트로를 작성해 보았다.

갑자기 첫 글 올라가는 것보다 이 글을 보며 나중에 게을러졌을 때 조금 동기부여가 될 거란 마음에..

꾸준히 포스팅 해야겠다