딥러닝 음성합성기 개발 - 셀바스AI

Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
SELVAS AI Inc.
Tel : 02-6190-7500 Fax : 02-2629-4586
서울특별시 금천구 가산디지털1로 19, 19~20층(가산동, 대륭테크노타운 18차)
19F Daerung Techno Town 18th,19, Gasan digital 1ro, Geumcheon-gu, SEOUL KOREA
deepTTS
딥러닝 기반 음성합성기 개발 발표
AI연구 1팀 박태훈(Wayne)
wayne.t.park@selvas.com

Table of Contents
Selvy deepTTS 솔루션 개발
개요
주요 기술
솔루션
Future work

Selvy deepTTS
xVoice

Selvy deepTTS
xVoice
자체 개발 딥러닝 기반 음성합성 기술
구글의 Tacotron 메커니즘 기반 + New Idea = xVoice

Selvy deepTTS
xVoice
딥러닝 기반 음성합성 솔루션
xVoice 기술이 탑재된 Sever/Client 기반 음성합성 솔루션

Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 6
deepTTS
딥러닝 기반의 음성합성 기술 확장
USS(Unit selection TTS)
HTS(HMM based TTS)
Selvy TTS
Selvy deepTTS

deepTTS
딥러닝 기반의 음성합성 기술 확장
USS(Unit selection TTS)
HTS(HMM based TTS)
Deep Learning based
TTS – End to End
Selvy TTS
+
Selvy deepTTS

Why
딥러닝 기반 음성합성?

deepTTS
Data
Traditional TTS
vs
Selvy deepTTS
30 시간~
Selvy deepTTS
수분~수십시간
The more, the better

deepTTS
Naturalness & Expressiveness
Traditional TTS
vs
Selvy deepTTSSelvy deepTTS

deepTTS
Dev. Efficiency
Traditional TTS
vs
Selvy deepTTSSelvy deepTTS

deepTTS
Why 딥러닝 기반 음성합성?
소량의 녹음데이터
• 셀럽 목소리 제작 가능
• 개인화서비스에 적용
자연성 우수/감정표현 가능
• AI 서비스(챗봇/인공지능 스피커)에 적합
개발기간/비용 단축
• 다양한 보이스 제작이 가능
• 게임캐릭터/고객 맞춤형 보이스 확장(키즈/남,여/연령별 등)

deepTTS
딥러닝 기반 TTS 기술동향
•DNN-TTS 기술의 태동 (Google/Microsoft/Univ. of Edinburgh)
•음성 파라메터의 통계모델 예측
1세대
2013
•DNN-TTS의 고도화
•음성 파라메터 예측
2세대
2015
•End-to-End : 수집 데이터의 annotation 이 불필요
•빅데이터 수집과 자동학습으로 진화가 가능한 구조. (구글/바이두)
3세대
2016~

deepTTS
2018 xVoice 개발 방향
•DNN-TTS연구의 시작 (Google/Microsoft/Univ. of Edinburgh)
•음성 파라메터의 통계모델을 예측
1세대
2013
•DNN-TTS의 고도화
•음성 파라메터의 직접 예측
2세대
2015
•end-to-end : 수집 데이터의 annotation 이 불필요
•빅데이터 수집과 자동학습으로 진화가 가능한 구조. (구글/바이두)
3세대
2016~
End-to-End3세대

Why
End-to-End?

deepTTS
언어처리/운율 모델
End to End
Text
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성
Multi-stage TTS - Synthesizer
언어처리, 운율모델, G2P 등의 요소 기술에 대한 전문 지식과 각
요소 기술의 최적화가 필요

deepTTS
End to End
Text
언어처리/운율 모델 불필요
( no feature engineering )
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성
End-to-End TTS - Synthesizer

deepTTS
End to End
Text
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성모델
End-to-End TTS - Synthesizer
각 단계별 전문지식 불필요
단계별 engineering effort 경감
에러 수렴에 유리

deepTTS
End to End
전사
레이블
경계
Annotation
녹음
음원
녹음대본
데이터 녹음 및 가공
30~40시간 데이터 기준 5~6 개월 소요
Multi-stage TTS – Data engineering
DB 개발
Linguistic feature
Acoustic feature
DNN or HMM TTS
USS

deepTTS
End to End
녹음
음원
녹음대본
End-to-End TTS – Data engineering
<text, audio> 학습
보이스개발을 위한 feature engineering 비용 경감
보이스개발 비용 감소
데이터 녹음 및 검수,제작
10시간 데이터 기준 1개월~2개월 소요

End-to-End
기술동향과 xVoice

deepTTS
End to End
End-to-End 음성합성 기술 관련 연구동향
WaveNet Vocoder2016.9
Generative model for generating raw audio / Neural vocoder
DeepMind
Tacotron12017.3
End-to-End + Griffin Lim
Google
Tacotron22017.12
New End-to-End + WaveNet
Google
Style modeling & Prosody Transfer2018.3
Baseline Tacotron1 + style embedding
Google

deepTTS
End to End
우리의 개발 방향과 범위
WaveNet2016.9
Generative model for generating raw audio / Neural vocoder
DeepMind
Tacotron12017.3
End-to-End + Griffin Lim
Google
Tacotron22017.12
New End-to-End + WaveNet
Google
2018
Tacotron 1&2 based + Our New Idea
상용화 목표 / 알고리즘 개발
음질, 응답속도개선
F/U
xVoicedeepTTS
2019
+ Parallel WaveNet – 음향품질 개선
+ 감정표현
xVoice2deepTTS

deepTTS
End to End
상용화를 위한 최대 난제 2가지
• Skip/Repetition
• 발음 삭제 또는 반복 현상
• 원인
• 데이터 부족으로 인한 phone sequence 출현 확률 문제
• Attention mecanism의 불안정성
• 해결방법
• 데이터를 충분히 많이 확보하거나, robust attention
mechanism 알고리즘 개발
• Performance
• T1 : xRT 1.5
• T2 WaveNet : xRT 10.0
참고) xRT 1.0 : 1초 합성을 위해 1초의 response time
참고) Parallel WaveNet – xRT 0.05 – P100 GPU 사용
skip
당국과 건설업체들은 비래염분 피해의 심각성을 간과한 채 내염처리
를 소홀히 하고 있어 곳곳에서 피해가 나타나고 있다.
repeat

deepTTS
Selvy deepTTS 시연영상 – Google Duplex 패러디

deepTTS
Selvy deepTTS - xVoice
xVoice of basic mechanism with 4 module
Text Analyzer
3 Conv Layers
Bi-directional LSTM
Weighted Location
sensitive attention
2 layer pre-net
GRU Cell
Projection
GRU Cell
GRU Cell
projection
EOS detect
sequence error
detect
Post network(CBHG)
G-L reconstruction
Mel-spectrogram
ㅅ ㅔ ㄹ ㅂ ㅏ ㅅ ㅡ
Waveform (Voice)
1.Encoder 2.Attention
3.Decoder
4.Vocoder

deepTTS
Selvy deepTTS - xVoice
xVoice of basic mechanism with 4 module
Input
sequence
wave
Advanced
Encoder
Weighted
Location
Attention
Vocoder
Decoder

deepTTS
상용화를 위한 난제 극복
• Weighted Location Attention 알고리즘 개발
• Robust Attention 알고리즘 개발
• Robust Move forward 실현
• Attention masking 알고리즘 개발
• Robust Move forward 실현
• Transfering learning receipe 개발
• curriculum learning
• relay transfer learning
• Data Augmentation
• Audio data augmentation : 대화체/의문문 강화
• Text data augmentation : 띄어쓰기 강화
• Advanced Encoder
• Text analyzer 개발
• Mini-batch 개선
• Sorted & Grouped shuffling Mini-batch
• Prevent overfitting
• 엔진개발
• Vocoder 속도개선
• API개발 (기존 USS 제품 API와 호환)
• 멀티채널
• xRT 0.7 미만

deepTTS
기존합성기와의 자연성 비교
서울특별시 강남구 날씨 입니다. 구름이 많이 낀 하늘이에요. 하지만 아직
비 소식은 없습니다. 현재 기온은 17도이며, 당일 최고 21도, 최저 14도 입
니다. 미세먼지 수치는 보통 입니다.
대통령은 공화국의 국가원수입니다.
외국에 대하여 국가를 대표하고 행정권의 수반이 되는 최고의 통치권자
를 의미합니다.
날씨
위키
어떤 음악을 들려드릴까요?
분위기 있는 음악을 준비했어요.
BTS의 봄날 들려드릴께요.
뮤직
USS 유진 DNN 유진 하나

deepTTS
자연스럽고 감성적인 간투어 표현
음, 가능한지 확인해볼께요.
저, 잘 못 알아 들었습니다. 다시 말씀해주세요
네? 다시 말씀해주시겠어요?
가지 간투어 개발 – 음, 네, 네?, 아 네, 저”
간투어는 강한 감성을 제공
추후 간투어 확장 / 표현 강도 제어 예정( 예 - 음. 음.. 음…….)

deepTTS
개인화 TTS
<Text,Audio>
개인화 보이스 음성수집
Transfer
Learning
Pre-trained
Seed model
합성
개인화 보이스 모델
수분~수시간의 음성 데이터만으로 그 사람의 목소리를 가진 합성기를 만들수 있습니다.

deepTTS
개인화 TTS 상용 서비스 적용 프로세스
Engine
Engine
(모델 학습/생성) 모델 (엔진탑재용)
API
(합성요청/TN/결과
처리)
Text
보이스모델 로드
모델 Encoder
(암호화)
Trainer
Generator
(데이터 전처리/훈련
데이터 생성)
Data feeder
(데이터 분류/Batch
control)
Trainer
(모델 학습/생성)
검증
(Synthesizer/Web.
App demo)
Y
N
재훈련
보이스모델
• Trainer
• DNN TTS 시스템

deepTTS
동화책 – 다람쥐와 도토리 中
개인화 TTS – 캐릭터(산타 ver.)
이미 그 깊은 숲속에는 많은 너구리들이 살고 있었어요.
"숲속의 도토리는 다 임자가 있어.
어디서 굴러먹던 놈이 와 함부로 손을 대는 거야?"
깊은 숲속의 너구리들은 아주 차가운 표정으로 그렇게 말했어요.
이 다람쥐는 닥쳐올 겨울이 걱정되었습니다.
생각다 못한 다람쥐는 너구리들에게 이렇게 말했지요.
"도토리를 주워 드릴게요.
대신 그것을 조금만 제게 나누어 주시지 않겠어요?"
너구리들은 그러마고 이내 고개를 끄덕였습니다.

deepTTS
개인화 TTS – 유명인(정해인 ver.)
드라마 대사 中
거짓말같다. 이렇게 예쁜 사람이 내 앞에 있다니.
내가 먼저 잡으려고 했는데.
남녀사이에 타이밍이 얼마나 중요한지 모르는거지.
그러니까 겁먹지 말고, 울지 말고 조금만 기다려요.
원래 연애라는게 내가 해도 되는 걸 굳이 상대방이 해주는 겁니다.

deepTTS
개인화 TTS – 유명인(이병헌 ver.)
소설책 – 크리스마스 선물 中
이런 엉망진창인 비유 따위는 잊어버리라. 그녀는 짐의 선물을 찾아 가
게마다 샅샅이 뒤지고 다녔다. 그녀가 마침내 그것을 찾아냈다.
그것은 분명 다른 누구도 아닌, 짐을 위한 물건이었다.
그녀가 가게마다 다 헤집고 다녔지만, 다른 어떤 가게에도 그런 물건은
없었다. 그것은 단순하고 품위 있는 디자인의 백금 시계줄이었다.
겉만 번지르르한 보석장식을 동원하지 않고, 재료 자체만으로 물건의
가치를 제대로 보여주었다. 품질 좋은 물건은 늘 그런 법이다.

deepTTS
개인화 TTS
화자 훈련 데이터 원본 샘플 합성 샘플
50대 남성 20분
40대 여성 50분
20대 남성 50분
20대 여성 50분
Santa 4시간 40분
Morgan 20분

deepTTS
Selvy deepTTS 특징
자연스럽고 유창한 합성음
• 숫자, 날짜, 시간 형식 등을 읽을 수 있는 텍스트 정규화 지원
• SSML 지원 – 숫자, 날짜, 시간형식의 발음지침 직접 지정
서비스 시스템 환경 지원
• 서버급 운영체제 지원 : Linux (Ubuntu)
최적의 운영환경 지원
• 다양한 Client 환경 지원 : Windows, Android, iOS, Web, (Embedded Linux)
• Client 개발 언어 지원 : C, C#, Java, COM, PHP, .NET 등
• 다채널 서비스에 대한 안정적 운용 보장
주요 지원기능
• VXML 형태의 Voice Control Tag 일부 지원
• 볼륨/스피드/피치 조정 기능 지원
• Audio Mixing 지원 : 생성된 합성음에 배경음악을 넣어주는 기능
• Web Based Server Monitoring/Handling 지원
SDK 지원
• SDK 매뉴얼
• 개발용 샘플소스
• 라이선스 정책
• 파일라이선스 지원

Thank you

딥러닝 음성합성기 개발 - 셀바스AI

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 딥러닝 음성합성기 개발 - 셀바스AI

Similar to 딥러닝 음성합성기 개발 - 셀바스AI (20)

딥러닝 음성합성기 개발 - 셀바스AI