Posts 2021 딥러닝 기반 음성 합성 총정리 - 2
Post
Cancel

2021 딥러닝 기반 음성 합성 총정리 - 2

본 게시글은 towards data science 사이트에 Patrick Meyer가 작성한
‘State Of The Art of Speech Synthesis at the End of May 2021’를 번역 및 정리한 글이다.

https://hwrg.github.io/posts/2021-딥러닝-기반-음성-합성-총정리-1/
이전 게시글에 이어서 모델 시스템 구조와 데이터셋, 학회, 측정 방법 등을 포함하고 있다.

마찬가지로 글의 출처는 다음과 같다.
https://towardsdatascience.com/state-of-the-art-of-speech-synthesis-at-the-end-of-may-2021-6ace4fd512f2

7. End-to-End Systems

End-to-end는 다른 모델처럼 두 단계에 걸쳐 음성이 생성되는 것이 아닌 하나의 모델로 음성 생성을 끝마치는 시스템을 의미한다.

1) Char2Vec

  • 2017년 2월 몬트리올 대학에서 Char2Vec을 발표했다.
    Char2Vec은 Bidirectional RNN, Attention RNN, SampleRNN(Vocoder)을 조합한 모델이다.

  • 이 End-to-End 모델은 직접 waveform sample을 학습할 수 있으며,
    중간에 mel-spectrogram을 거친 후 만들어질 필요가 없다.
    오직 input으로 사용된 데이터는 직접적으로 모델의 output이 된다.
    char2vec

  • Char2Vec은 Player와 Neural vocoder로 구성되어 있다.
    이 때, reader는 attention을 포함한 encoder-decoder이다.

2) Deep Voice, FastSpeech 2s

  • 2017년 2월 중국의 구글이라 불리는 바이두는 Deep Voice를 발표했다. Deep Voice는 작은 오디오 클립들과 녹음된 데이터셋(transcription)을 통해 학습을 진행한다.
  • 2020년 MS는 Mel-spectrogram을 생성하지 않고 스펙트럼을 생성하는 FastSpeech 2s를 발표했다. FastSpeech 2s는 Deep voice보다 조금 낮은 성능을 보인다.

3) End-to-End Review

  • 기존에 활용되던 End-to-End는 한 번에 이뤄지는 장점이 있지만, 음성 생성 측면에서는 유용하지 않았다.
    그래서 대부분 모델에서 grapheme-to-phoneme(문자소와 음소) 모델, 지속시간 예측 모델, mel-spectrogram 생성 모델 등으로 특징을 가지는 모델을 각각 설계하고, 마지막에 Vocoder를 따로 두어 특징(Mel-spectrogram)을 음성 파일로 변환한다.

  • 그러던 중 음성 합성 대회인 블리자드 챌린지 2020에서 최종 라운드에서 2개의 생성 공간 기반의 SPSS(Statistical Parametric Speech Synthesis)가 발표되며, 이 기술이 기존 고전적인 시스템을 누르고 대세가 될 것이라는 전망을 보여주었다.

  • 블리자드 2020에서 그외 다른 팀들 중 절반은 WaveRNN 또는 Wavenet Vocoder를 사용해 Seq-to-Seq 모델을 활용했으며, 절반은 DNN 등 비슷한 Vocoder를 기반의 모델을 활용했다고 한다.

8. Research Actors

  • 음성 합성 관련 최근 71편 논문 중 가장 많은 비중을 차지한 기관은 Web 기반의 회사(Google, Facebook, Naver, Baidu)이며, 그 다음으로 Tech 중심의 회사(Nvidia, NC Soft)가 비슷한 점유율을 지니고 있다. 마지막으로 대학의 경우 세 번째 순위로 상대적으로 적었다.

  • 국가의 경우, 1위는 미국(45%), 2위는 중국(25%), 3위는 한국(14%) 순서로 논문을 출간했다.
    그리고 북미와 아시아를 비교했을 때 놀랍게도 근소하게 아시아가 3%로 앞선다.

  • 구글의 자회사 DeepMind(EU)는 Wavenet, Tacotron, WaveRNN, GAN-TTS, EATS 등 13개의 논문을 발표하며 1위로 올랐고, 다음으로 DeepVoice와 ClariNet을 제안한 Baidu와 TransformerTTS와 FastSpeech를 제안한 MS가 공동 2위를 차지했다.

9. Find Datasets

1) LJ Speech

  • 가장 많은 모델 평가에서 활용되는 음성 데이터셋이다. 한 명의 화자가 짧은 지문을 읽어 13100개의 음성 데이터로 이루어져 있다.

2) LibriTTS

  • LibriTTS는 Heiga Zen이 google speech와 google brain의 도움을 받아 24kHz의 샘플링 속도로 영어 음성으로 만들어낸 585시간의 데이터셋이다.

3) Common Voice 6.1

  • 다국어로, 모질라에서 모든 사람들이 음성 인식에 대한 접근 권한을 허용하는 데이터베이스를 구축하기 위해 제작을 시작했다. 프랑스어 버전으로 682시간이 존재한다.

4) Blizzard Speech Data Base

  • 매년 열리는 블리자드 speech 챌린지 대회에 훈련할 수 있는 여러 음성 샘플을 제공한다.
    대회에 참여하는 사람에게만 데이터셋이 제공된다.

5) CMU-Arctic

  • Project Gutenberg 텍스트에 신중히 선택된 문장 1150개 로 구성되며, 저작권이 자유롭다.

이외에도 OpenSLR, 오디오북 등 다양한 데이터셋이 존재하지만, 모델에서 운율 또는 감정적인 측면에 대해 훈련시킬 수 있는 데이터셋을 찾는 것은 굉장히 어렵다.

10. Measure Quality

  • 음성 생성의 경우, 모델의 성능을 측정하기 위해 정형화된 테스트가 존재하지 않다.
    음성의 품질은 naturalness, robustness(단어를 잊어버리거나 중복 생성하는지), accuracy를 포함한 다양한 방면에서 평가가 진행된다.

  • 품질 테스트는 인간이 진행하며, 평가자에게 음성 frequency의 오디오 품질을 평가를 부탁하고, MOS(평균 의견 점수)를 통해 1점 ~ 5점으로 주관적인 판단을 맡긴다.
    measure_quality1

  • 또다른 방법으로 2011년부터 크라우드소싱 방식에 기반하여 잘 설명된 작업 방식으로 측정하는 방식이 알려졌다. 가장 잘 알려진 것은 크라우드모스로 불리는 프레임워크이며, Amazon Mechanical Tunk 사이트를 활용한다.

  • 대부분의 연구실에서는 위 원리를 활용해 알고리즘 평가를 진행하며, 각 모델에 대한 성능을 전반적으로 확인할 수 있다. 평가 결과는 스피커와 녹음 상태에 따라 크게 좌우된다.

    measure_quality2

11. Voice Conference

1) InterSpeech

  • InterSpeech는 1988년에 설립되었으며, 8월 말, 9월 초에 개최된다. InterSpeech를 개최하는 기관 ISCA(국제음성통신협회)의 목표는 음성통신의 과학기술과 관련된 모든 분야의 교류를 촉진하는 것이다.

2) ICASSP

  • ICASSP는 매년 6월에 개최된다. IEEE가 주관하는 학회이며, 음향, 음성 및 신호처리 관련 주제로 진행된다.

  • 그 외에 ICLR, ICML, Nerulips 등 머신러닝과 딥러닝 중심의 컨퍼런스에서도 음성 관련 논문이 게재된다.

12. Next Challenges

  • 딥러닝으로 비약적인 성능의 발전을 이뤄냈지만, 아직 많은 과제가 남아있다.
    대화 과정에서 상황에 맞는 억양과 휴식기간 없는 자연스러움이 중요하다.
    이를 충족하기 위해 음성 생성은 정확하고, 즉각적이어야 한다.
  • 생성 과정에서 사용자에게 정보를 받고, 음성을 제공하기까지 대부분 경우에서 생성이 끝날 때까지 기다려야 하는 경우가 많다. (변환할 전체 문장을 수신하기 때문)
  • 이런 점에서 최근 발표된 Non-AutoRegressive 모델은 여러 활동을 병렬 처리를 진행하여 몇 번의 음성 신호를 생산할 수 있어 기존의 모델을 능가하는 퍼포먼스를 보인다. 이들은 문장 길이에 상관없이 밀리초 단위로 생성된다. (Real-Time Factor)

1) Model Lightweight

  • 모바일 디바이스에서 음성 합성 기능이 적용될 때 경량화가 핵심이다.
    DeviceTTS(알리바바 20년 10월)는 150만개의 파라미터를 활용하여 1350만개의 파라미터를 활용하는 Tacotron과 비슷한 품질의 음성을 생성할 수 있다.

  • LightSpeech2(MS 21년 2월)는 FastSpeech2 기반으로 180만개 파라미터를 활용하는데, FastSpeech2의 2700만개의 파라미터 대비 큰 폭으로 절약한 것을 알 수 있다.

2) Emotional

  • 단조로운 음성 데이터셋에 지속시간과 리듬에 변화를 시스템에 나타내기 위한 음성 합성 Markup 언어가 있는데, 피치와 contour(윤곽), 지속시간, 볼륨 등 특성을 적용할 수 있다.
  • 최근 서울대와 SKT에서 공동으로 게재한 논문 ‘Expressive TTS using style tag’에서는 태그를 예상되는 운율 결정 기술을 활용하여 대체하여 적용했다.

3) Multi-speaker, Multi-style

  • Zero-shot TTS의 방식은 어떤 사람의 수 초의 음성만을 이용해 모델이 그대로 각색하는 내용을 담고 있다. 이는 음성 복제와 유사하다. 이와 관련해 ‘The Multi-speaker Multi-style Voice Cloning Challenge’라는 대회가 존재하는데, 이 대회는 한 음성을 동일한 언어 또는 타국 언어로 최대한 유사하게 복제해 내는 대회이다.

4) Voice clone

  • 21년 10월 기준 음성 합성 모델은 복제할 사람의 음성을 초단위로 학습하여 음성을 재현할 수 있다. 목소리를 잃은 사람도 생성을 위해 몇 분의 녹음만 있으면 가능한 일이다.

  • 물론 중요한 인물의 목소리를 취하여 사칭의 위험이 있다는 점에서 가장 중요한 다음 과제는 불법 음성 합성을 감지하는 시스템을 개발해내는 것이다.

13. Conclusion

  • 기계가 만들어낸 목소리가 우리 일상 속 자연스러운 목소리와 동일하다고 생각할 수준으로 발전했다. 그럼에도 아직 더 발전할 여지가 남아있으며, 12번 챌린지를 보더라도 아직 도전할 분야가 무궁무진하다. 특정 기업과 대학의 연구소들은 음성 합성의 미래를 보고 품질 저하 없이 생성 속도가 사람보다 빠르면서, 하나의 화자에서 여러 음성을 추출하는 등 끊임없이 연구하고 있다. 그만큼 산업 가치가 확실하다고 볼 수 있다.

  • 하나의 예로 구글이 2018년 5월 공개한 발표에서 인공지능 미용실 예약과 같은 시스템이 우리 삶에 자연스레 녹아들고, 또 이 기술을 통해 어떤 흥미로운 아이디어가 적용되어 우리 삶에 변화를 줄지 기대된다.

This post is licensed under CC BY 4.0 by the author.