출처: Selvas AI TTS 기술블로그 : https://tts.selvy.ai/2018/09/ai.html
음성합성 기술은 기계가 사람처럼 말하기를 원하는 인간의 바램으로부터 시작되었습니다. 지난 수십 년간 음성합성 기술은 많은 연구자들의 노력으로 획기적인 발전을 거듭해왔습니다. 특히, 최근의 딥러닝을 활용한 음성합성 기술은 인간이 말할 때의 억양이나 미세한 호흡까지도 잘 표현합니다. 이러한 기술의 발전은 자연스러운 음성을 만들어내는 것에 그치지 않고, 감정이나 개성을 표현하는 기술로 발전 하고 있습니다.
우리는 지난 몇 년간 딥러닝 기반의 음성합성 기술에 집중해왔으며 상용화를 위한 우리의 목표를 달성하게 해줄 여러 의미 있는 진전을 찾아내었습니다.
최근 우리가 주목한 것은 sequence-to-sequence 모델에 기반을 둔 구글의 Tacotron 입니다. Tacotron은 지금까지의 음성합성 기술중 가장 자연스러운 음성을 표현하는 훌륭한 기술입니다. 그러나 이것은 특정 단어를 합성하지 않는 생략(skip)문제, 특정 단어가 반복되는 반복(repetition) 문제를 안고 있습니다. 이러한 현상은 상용화를 목표로 할 때 매우 불안정한 요소가 됩니다. 우리는 이 문제를 해결하기 위하여 노력하였으며 새로운 알고리즘과 학습레시피를 고안하여 의미 있는 성과를 얻어 냈습니다.
특히, 생략과 반복이 phone sequence 확률 부족과 attention 메커니즘의 불안정성 때문이라는 것에 집중하여 Advanced Encoder와 Weighted Location Attention 알고리즘을 고안하였으며 약 20여 년간 축척된 음성합성 기술의 노하우와 접목하여 xVoice를 탄생시켰습니다
* Selvy deepTTS
셀바스AI의 Selvy deepTTS는 딥러닝 기술 기반의 음성합성 엔진 xVoice가 적용된 end-to-end 방식의 음성합성 솔루션입니다. Selvy deepTTS는 전통적인 방식의 음성합성기와 비교하여 보다 자연스러운 음성을 만들어내며, 특정인의 목소리와 발화스타일을 모방 할 수도 있습니다.
* Improving Naturalness
Selvy deepTTS는 사람이 발성할 때의 자연스러운 운율과 발음, 억양 등을 학습하여 자연스러운 음성을 생성합니다. 두 음절 사이의 연음, 문장 내에서의 쉼, 발성하는 동안의 작은 호흡 등을 사람처럼 자연스럽게 표현합니다.
* Human-like Expressive Speech
보다 자연스럽고 감성적인 느낌씨를 표현합니다.
* 개인화 TTS
xVoice는 단지 수분~수시간의 음성만으로도 그 사람의 목소리를 가진 음성합성기를 만들어 낼 수 있습니다. xVoice로 만들어진 음성합성기는 Selvy deepTTS에 탑재되어 실시간 음성합성 서비스에 활용 될 수도 있습니다.
* Overcome Skip/Repetition Problem
End-to-end 음성합성기술의 고질적인 문제였던 합성시 문장 일부분이 생략(skip)되거나 반복(repetition)되는 문제를 셀바스AI의 축적된 노하우(know-how)와 새로운 알고리즘을 고안하여 해결하였습니다.
* Real-Time Synthesis
실시간 음성 합성 기능을 제공합니다. 텍스트를 입력하고 실시간으로 음성을 생성할 수 있습니다. 텍스트를 입력하고 음성생성을 요청하여 청취하기까지의 과정이 텍스트의 길이에 상관없이 1초 이내에 이루어집니다.
1. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
SELVAS AI Inc.
Tel : 02-6190-7500 Fax : 02-2629-4586
서울특별시 금천구 가산디지털1로 19, 19~20층(가산동, 대륭테크노타운 18차)
19F Daerung Techno Town 18th,19, Gasan digital 1ro, Geumcheon-gu, SEOUL KOREA
deepTTS
딥러닝 기반 음성합성기 개발 발표
AI연구 1팀 박태훈(Wayne)
wayne.t.park@selvas.com
2. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Table of Contents
Selvy deepTTS 솔루션 개발
개요
주요 기술
솔루션
Future work
3. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
4. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
자체 개발 딥러닝 기반 음성합성 기술
구글의 Tacotron 메커니즘 기반 + New Idea = xVoice
5. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
딥러닝 기반 음성합성 솔루션
xVoice 기술이 탑재된 Sever/Client 기반 음성합성 솔루션
6. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 6
deepTTS
딥러닝 기반의 음성합성 기술 확장
USS(Unit selection TTS)
HTS(HMM based TTS)
Selvy TTS
Selvy deepTTS
7. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 7
deepTTS
딥러닝 기반의 음성합성 기술 확장
USS(Unit selection TTS)
HTS(HMM based TTS)
Deep Learning based
TTS – End to End
Selvy TTS
+
Selvy deepTTS
8. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Why
딥러닝 기반 음성합성?
9. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 9
deepTTS
Data
Traditional TTS
vs
Selvy deepTTS
30 시간~
Selvy deepTTS
수분~수십시간
The more, the better
10. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 10
deepTTS
Naturalness & Expressiveness
Traditional TTS
vs
Selvy deepTTSSelvy deepTTS
11. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 11
deepTTS
Dev. Efficiency
Traditional TTS
vs
Selvy deepTTSSelvy deepTTS
12. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 12
deepTTS
Why 딥러닝 기반 음성합성?
소량의 녹음데이터
• 셀럽 목소리 제작 가능
• 개인화서비스에 적용
자연성 우수/감정표현 가능
• AI 서비스(챗봇/인공지능 스피커)에 적합
개발기간/비용 단축
• 다양한 보이스 제작이 가능
• 게임캐릭터/고객 맞춤형 보이스 확장(키즈/남,여/연령별 등)
13. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 13
deepTTS
딥러닝 기반 TTS 기술동향
•DNN-TTS 기술의 태동 (Google/Microsoft/Univ. of Edinburgh)
•음성 파라메터의 통계모델 예측
1세대
2013
•DNN-TTS의 고도화
•음성 파라메터 예측
2세대
2015
•End-to-End : 수집 데이터의 annotation 이 불필요
•빅데이터 수집과 자동학습으로 진화가 가능한 구조. (구글/바이두)
3세대
2016~
14. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 14
deepTTS
2018 xVoice 개발 방향
•DNN-TTS연구의 시작 (Google/Microsoft/Univ. of Edinburgh)
•음성 파라메터의 통계모델을 예측
1세대
2013
•DNN-TTS의 고도화
•음성 파라메터의 직접 예측
2세대
2015
•end-to-end : 수집 데이터의 annotation 이 불필요
•빅데이터 수집과 자동학습으로 진화가 가능한 구조. (구글/바이두)
3세대
2016~
End-to-End3세대
15. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Why
End-to-End?
16. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 16
deepTTS
언어처리/운율 모델
End to End
Text
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성
Multi-stage TTS - Synthesizer
언어처리, 운율모델, G2P 등의 요소 기술에 대한 전문 지식과 각
요소 기술의 최적화가 필요
17. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 17
deepTTS
End to End
Text
언어처리/운율 모델 불필요
( no feature engineering )
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성
End-to-End TTS - Synthesizer
18. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 18
deepTTS
End to End
Text
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성모델
End-to-End TTS - Synthesizer
각 단계별 전문지식 불필요
단계별 engineering effort 경감
에러 수렴에 유리
19. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 19
deepTTS
End to End
전사
레이블
경계
Annotation
녹음
음원
녹음대본
데이터 녹음 및 가공
30~40시간 데이터 기준 5~6 개월 소요
Multi-stage TTS – Data engineering
DB 개발
Linguistic feature
Acoustic feature
DNN or HMM TTS
USS
20. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 20
deepTTS
End to End
녹음
음원
녹음대본
End-to-End TTS – Data engineering
<text, audio> 학습
보이스개발을 위한 feature engineering 비용 경감
보이스개발 비용 감소
데이터 녹음 및 검수,제작
10시간 데이터 기준 1개월~2개월 소요
21. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
End-to-End
기술동향과 xVoice
22. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 22
deepTTS
End to End
End-to-End 음성합성 기술 관련 연구동향
WaveNet Vocoder2016.9
Generative model for generating raw audio / Neural vocoder
DeepMind
Tacotron12017.3
End-to-End + Griffin Lim
Google
Tacotron22017.12
New End-to-End + WaveNet
Google
Style modeling & Prosody Transfer2018.3
Baseline Tacotron1 + style embedding
Google
23. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 23
deepTTS
End to End
우리의 개발 방향과 범위
WaveNet2016.9
Generative model for generating raw audio / Neural vocoder
DeepMind
Tacotron12017.3
End-to-End + Griffin Lim
Google
Tacotron22017.12
New End-to-End + WaveNet
Google
2018
Tacotron 1&2 based + Our New Idea
상용화 목표 / 알고리즘 개발
음질, 응답속도개선
F/U
xVoicedeepTTS
2019
+ Parallel WaveNet – 음향품질 개선
+ 감정표현
xVoice2deepTTS
24. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 24
deepTTS
End to End
상용화를 위한 최대 난제 2가지
• Skip/Repetition
• 발음 삭제 또는 반복 현상
• 원인
• 데이터 부족으로 인한 phone sequence 출현 확률 문제
• Attention mecanism의 불안정성
• 해결방법
• 데이터를 충분히 많이 확보하거나, robust attention
mechanism 알고리즘 개발
• Performance
• T1 : xRT 1.5
• T2 WaveNet : xRT 10.0
참고) xRT 1.0 : 1초 합성을 위해 1초의 response time
참고) Parallel WaveNet – xRT 0.05 – P100 GPU 사용
skip
당국과 건설업체들은 비래염분 피해의 심각성을 간과한 채 내염처리
를 소홀히 하고 있어 곳곳에서 피해가 나타나고 있다.
repeat
25. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
26. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 26
deepTTS
Selvy deepTTS 시연영상 – Google Duplex 패러디
27. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 27
deepTTS
Selvy deepTTS - xVoice
xVoice of basic mechanism with 4 module
Text Analyzer
3 Conv Layers
Bi-directional LSTM
Weighted Location
sensitive attention
2 layer pre-net
GRU Cell
Projection
GRU Cell
GRU Cell
projection
EOS detect
sequence error
detect
Post network(CBHG)
G-L reconstruction
Mel-spectrogram
ㅅ ㅔ ㄹ ㅂ ㅏ ㅅ ㅡ
Waveform (Voice)
1.Encoder 2.Attention
3.Decoder
4.Vocoder
28. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 28
deepTTS
Selvy deepTTS - xVoice
xVoice of basic mechanism with 4 module
Input
sequence
wave
Advanced
Encoder
Weighted
Location
Attention
Vocoder
Decoder
29. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 29
deepTTS
상용화를 위한 난제 극복
• Weighted Location Attention 알고리즘 개발
• Robust Attention 알고리즘 개발
• Robust Move forward 실현
• Attention masking 알고리즘 개발
• Robust Move forward 실현
• Transfering learning receipe 개발
• curriculum learning
• relay transfer learning
• Data Augmentation
• Audio data augmentation : 대화체/의문문 강화
• Text data augmentation : 띄어쓰기 강화
• Advanced Encoder
• Text analyzer 개발
• Mini-batch 개선
• Sorted & Grouped shuffling Mini-batch
• Prevent overfitting
• 엔진개발
• Vocoder 속도개선
• API개발 (기존 USS 제품 API와 호환)
• 멀티채널
• xRT 0.7 미만
30. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 30
deepTTS
기존합성기와의 자연성 비교
서울특별시 강남구 날씨 입니다. 구름이 많이 낀 하늘이에요. 하지만 아직
비 소식은 없습니다. 현재 기온은 17도이며, 당일 최고 21도, 최저 14도 입
니다. 미세먼지 수치는 보통 입니다.
대통령은 공화국의 국가원수입니다.
외국에 대하여 국가를 대표하고 행정권의 수반이 되는 최고의 통치권자
를 의미합니다.
날씨
위키
어떤 음악을 들려드릴까요?
분위기 있는 음악을 준비했어요.
BTS의 봄날 들려드릴께요.
뮤직
USS 유진 DNN 유진 하나
31. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 31
deepTTS
자연스럽고 감성적인 간투어 표현
음, 가능한지 확인해볼께요.
저, 잘 못 알아 들었습니다. 다시 말씀해주세요
네? 다시 말씀해주시겠어요?
가지 간투어 개발 – 음, 네, 네?, 아 네, 저”
간투어는 강한 감성을 제공
추후 간투어 확장 / 표현 강도 제어 예정( 예 - 음. 음.. 음…….)
32. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 32
deepTTS
개인화 TTS
<Text,Audio>
개인화 보이스 음성수집
Transfer
Learning
Pre-trained
Seed model
합성
개인화 보이스 모델
수분~수시간의 음성 데이터만으로 그 사람의 목소리를 가진 합성기를 만들수 있습니다.
33. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 33
deepTTS
개인화 TTS 상용 서비스 적용 프로세스
Engine
Engine
(모델 학습/생성) 모델 (엔진탑재용)
API
(합성요청/TN/결과
처리)
Text
보이스모델 로드
모델 Encoder
(암호화)
Trainer
Generator
(데이터 전처리/훈련
데이터 생성)
Data feeder
(데이터 분류/Batch
control)
Trainer
(모델 학습/생성)
검증
(Synthesizer/Web.
App demo)
Y
N
재훈련
보이스모델
• Trainer
• DNN TTS 시스템
34. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 34
deepTTS
동화책 – 다람쥐와 도토리 中
개인화 TTS – 캐릭터(산타 ver.)
이미 그 깊은 숲속에는 많은 너구리들이 살고 있었어요.
"숲속의 도토리는 다 임자가 있어.
어디서 굴러먹던 놈이 와 함부로 손을 대는 거야?"
깊은 숲속의 너구리들은 아주 차가운 표정으로 그렇게 말했어요.
이 다람쥐는 닥쳐올 겨울이 걱정되었습니다.
생각다 못한 다람쥐는 너구리들에게 이렇게 말했지요.
"도토리를 주워 드릴게요.
대신 그것을 조금만 제게 나누어 주시지 않겠어요?"
너구리들은 그러마고 이내 고개를 끄덕였습니다.
35. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 35
deepTTS
개인화 TTS – 유명인(정해인 ver.)
드라마 대사 中
거짓말같다. 이렇게 예쁜 사람이 내 앞에 있다니.
내가 먼저 잡으려고 했는데.
남녀사이에 타이밍이 얼마나 중요한지 모르는거지.
그러니까 겁먹지 말고, 울지 말고 조금만 기다려요.
원래 연애라는게 내가 해도 되는 걸 굳이 상대방이 해주는 겁니다.
36. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 36
deepTTS
개인화 TTS – 유명인(이병헌 ver.)
소설책 – 크리스마스 선물 中
이런 엉망진창인 비유 따위는 잊어버리라. 그녀는 짐의 선물을 찾아 가
게마다 샅샅이 뒤지고 다녔다. 그녀가 마침내 그것을 찾아냈다.
그것은 분명 다른 누구도 아닌, 짐을 위한 물건이었다.
그녀가 가게마다 다 헤집고 다녔지만, 다른 어떤 가게에도 그런 물건은
없었다. 그것은 단순하고 품위 있는 디자인의 백금 시계줄이었다.
겉만 번지르르한 보석장식을 동원하지 않고, 재료 자체만으로 물건의
가치를 제대로 보여주었다. 품질 좋은 물건은 늘 그런 법이다.
37. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 37
deepTTS
개인화 TTS
화자 훈련 데이터 원본 샘플 합성 샘플
50대 남성 20분
40대 여성 50분
20대 남성 50분
20대 여성 50분
Santa 4시간 40분
Morgan 20분
38. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
39. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 39
deepTTS
Selvy deepTTS 특징
자연스럽고 유창한 합성음
• 숫자, 날짜, 시간 형식 등을 읽을 수 있는 텍스트 정규화 지원
• SSML 지원 – 숫자, 날짜, 시간형식의 발음지침 직접 지정
서비스 시스템 환경 지원
• 서버급 운영체제 지원 : Linux (Ubuntu)
최적의 운영환경 지원
• 다양한 Client 환경 지원 : Windows, Android, iOS, Web, (Embedded Linux)
• Client 개발 언어 지원 : C, C#, Java, COM, PHP, .NET 등
• 다채널 서비스에 대한 안정적 운용 보장
주요 지원기능
• VXML 형태의 Voice Control Tag 일부 지원
• 볼륨/스피드/피치 조정 기능 지원
• Audio Mixing 지원 : 생성된 합성음에 배경음악을 넣어주는 기능
• Web Based Server Monitoring/Handling 지원
SDK 지원
• SDK 매뉴얼
• 개발용 샘플소스
• 라이선스 정책
• 파일라이선스 지원
40. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Thank you