Posts
HW Space
Cancel

Abstract 본 논문은 2017년 NIPS 학회에 발표된 Emotional Speech Synthesiszer 논문이다. 당시 Tacotron의 단점(exposure bias, attention alignment irregular 등)을 보완하면서, 감정 레이블을 반영하여 감정을 대입한 높은 수준의 완성도를 보이는...

들어가면서 흥미롭고 핵심적인 모델이라 논문을 읽고 번역하며 작성해 봤지만, 난이도가 높아 내용이 중구난방임을 양해 바란다. Flowtron은 제목의 내용과 같이 음성의 변형 및 스타일 변경을 자유롭게 제어하는 Autoregressive 생성 모델이다. 이는 Tacotron2를 개선한 모델로, Mel-spectrogram에서 합성을 진행한다. ...

들어가면서 Tacotron1이 오픈소스로 공개되면서 많은 사람들이 이를 활용한 서비스를 많이 개발했다. 충분히 좋은 성능으로 자연스러웠지만, 구글은 더 완벽한 성능을 위한 개발을 끊임없이 진행했다. 2018년 구글은 변경된 구조의 Tacotron과 Vocoder를 Griffin-Lim 대신 Wavenet을 적용한 모델, Tacotron2를 발표...

들어가면서 앞서 설명한 Tacotron과 Wavenet 두 모델을 기반으로 한 오픈소스로 Training을 해보았다. 코드는 깃허브에 올라온 오픈소스를 활용하여 진행했으며, 데이터는 한국어 데이터는 KSS, 영어 데이터는 LJSpeech를 활용했다. Training은 데스크탑에 있는 RTX2060 Super을 사용했고, Training 시간만...

들어가면서 이전 글에서 설명한 Tacotron은 Text Preprocessing(Embedding)부터 Encoder와 Decoder과정을 거쳐 Mel-Spectrogram을 예측해 생성하는 역할을 했다. 그 Mel-Spectrogram을 그대로 활용할 수도 있지만, 발화자의 특징을 더 부각시키기 위해 Vocoder를 뒤에 추가하여 Post Pr...

들어가면서 (출처: https://www.pinterest.com.au/pin/332210910020186329) 어느 순간 기계 목소리가 자연스러워졌음을 느낀 적 있을 것이다. 내 경우엔 느긋한 구글 Assistant의 목소리 때문인지 체감을 못했는데, 어찌되든 갑자기 부드럽게 음성을 제작할 수 있게 된 것엔 다 이유가 있었다. 대표...

들어가면서 최근 3달 동안 해보고 싶은 공부를 하면서 모은 지식을 되새기고 공유할 겸 블로그를 쓰고자 한다. 딥러닝 기반의 음성합성(Text-to-Speech)에 대해 구글링하며 독학 했는데, 생각보다 스터디를 위한 자료 찾기가 쉽지 않았다. 그래서 이 분야를 처음 스터디하며 어려워 하는 사람들에게 작게나마 도움을 주고 싶다고 마음 먹게 되었...