감정을 반영한 Tacotron 기반 음성합성 모델

Abstract 본 논문은 2017년 NIPS 학회에 발표된 Emotional Speech Synthesiszer 논문이다. 당시 Tacotron의 단점(exposure bias, attention alignment irregular 등)을 보완하면서, 감정 레이블을 반영하여 감정을 대입한 높은 수준의 완성도를 보이는...

Sep 28, 2021 2021-09-28T11:47:00+08:00

Flowtron - 음성변형 및 스타일 변경을 제어하는 음성합성 모델

들어가면서 흥미롭고 핵심적인 모델이라 논문을 읽고 번역하며 작성해 봤지만, 난이도가 높아 내용이 중구난방임을 양해 바란다. Flowtron은 제목의 내용과 같이 음성의 변형 및 스타일 변경을 자유롭게 제어하는 Autoregressive 생성 모델이다. 이는 Tacotron2를 개선한 모델로, Mel-spectrogram에서 합성을 진행한다. ...

Sep 13, 2021 2021-09-13T17:00:00+08:00

Tacotron2 - 업그레이드 된 구글의 음성합성 모델

들어가면서 Tacotron1이 오픈소스로 공개되면서 많은 사람들이 이를 활용한 서비스를 많이 개발했다. 충분히 좋은 성능으로 자연스러웠지만, 구글은 더 완벽한 성능을 위한 개발을 끊임없이 진행했다. 2018년 구글은 변경된 구조의 Tacotron과 Vocoder를 Griffin-Lim 대신 Wavenet을 적용한 모델, Tacotron2를 발표...

Aug 29, 2021 2021-08-29T17:00:00+08:00

Tacotron과 Wavenet 오픈소스 음성 합성 Training 결과 리뷰

들어가면서 앞서 설명한 Tacotron과 Wavenet 두 모델을 기반으로 한 오픈소스로 Training을 해보았다. 코드는 깃허브에 올라온 오픈소스를 활용하여 진행했으며, 데이터는 한국어 데이터는 KSS, 영어 데이터는 LJSpeech를 활용했다. Training은 데스크탑에 있는 RTX2060 Super을 사용했고, Training 시간만...

Oct 3, 2020 2020-10-03T17:00:00+08:00

Wavenet - 딥러닝 기반의 고성능 음성합성 Vocoder

들어가면서 이전 글에서 설명한 Tacotron은 Text Preprocessing(Embedding)부터 Encoder와 Decoder과정을 거쳐 Mel-Spectrogram을 예측해 생성하는 역할을 했다. 그 Mel-Spectrogram을 그대로 활용할 수도 있지만, 발화자의 특징을 더 부각시키기 위해 Vocoder를 뒤에 추가하여 Post Pr...

Sep 27, 2020 2020-09-27T17:00:00+08:00

Tacotron - 딥러닝 기반의 음성합성 시대를 알린 TTS 모델

들어가면서 (출처: https://www.pinterest.com.au/pin/332210910020186329) 어느 순간 기계 목소리가 자연스러워졌음을 느낀 적 있을 것이다. 내 경우엔 느긋한 구글 Assistant의 목소리 때문인지 체감을 못했는데, 어찌되든 갑자기 부드럽게 음성을 제작할 수 있게 된 것엔 다 이유가 있었다. 대표...

Sep 15, 2020 2020-09-15T17:00:00+08:00

깃허브 블로그 첫 포스팅 겸 방향성

들어가면서 최근 3달 동안 해보고 싶은 공부를 하면서 모은 지식을 되새기고 공유할 겸 블로그를 쓰고자 한다. 딥러닝 기반의 음성합성(Text-to-Speech)에 대해 구글링하며 독학 했는데, 생각보다 스터디를 위한 자료 찾기가 쉽지 않았다. 그래서 이 분야를 처음 스터디하며 어려워 하는 사람들에게 작게나마 도움을 주고 싶다고 마음 먹게 되었...

Sep 4, 2020 2020-09-04T02:10:00+08:00