SlideShare a Scribd company logo
1 of 40
Download to read offline
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
SELVAS AI Inc.
Tel : 02-6190-7500 Fax : 02-2629-4586
서울특별시 금천구 가산디지털1로 19, 19~20층(가산동, 대륭테크노타운 18차)
19F Daerung Techno Town 18th,19, Gasan digital 1ro, Geumcheon-gu, SEOUL KOREA
deepTTS
딥러닝 기반 음성합성기 개발 발표
AI연구 1팀 박태훈(Wayne)
wayne.t.park@selvas.com
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Table of Contents
Selvy deepTTS 솔루션 개발
개요
주요 기술
솔루션
Future work
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
자체 개발 딥러닝 기반 음성합성 기술
구글의 Tacotron 메커니즘 기반 + New Idea = xVoice
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
딥러닝 기반 음성합성 솔루션
xVoice 기술이 탑재된 Sever/Client 기반 음성합성 솔루션
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 6
deepTTS
딥러닝 기반의 음성합성 기술 확장
USS(Unit selection TTS)
HTS(HMM based TTS)
Selvy TTS
Selvy deepTTS
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 7
deepTTS
딥러닝 기반의 음성합성 기술 확장
USS(Unit selection TTS)
HTS(HMM based TTS)
Deep Learning based
TTS – End to End
Selvy TTS
+
Selvy deepTTS
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Why
딥러닝 기반 음성합성?
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 9
deepTTS
Data
Traditional TTS
vs
Selvy deepTTS
30 시간~
Selvy deepTTS
수분~수십시간
The more, the better
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 10
deepTTS
Naturalness & Expressiveness
Traditional TTS
vs
Selvy deepTTSSelvy deepTTS
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 11
deepTTS
Dev. Efficiency
Traditional TTS
vs
Selvy deepTTSSelvy deepTTS
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 12
deepTTS
Why 딥러닝 기반 음성합성?
소량의 녹음데이터
• 셀럽 목소리 제작 가능
• 개인화서비스에 적용
자연성 우수/감정표현 가능
• AI 서비스(챗봇/인공지능 스피커)에 적합
개발기간/비용 단축
• 다양한 보이스 제작이 가능
• 게임캐릭터/고객 맞춤형 보이스 확장(키즈/남,여/연령별 등)
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 13
deepTTS
딥러닝 기반 TTS 기술동향
•DNN-TTS 기술의 태동 (Google/Microsoft/Univ. of Edinburgh)
•음성 파라메터의 통계모델 예측
1세대
2013
•DNN-TTS의 고도화
•음성 파라메터 예측
2세대
2015
•End-to-End : 수집 데이터의 annotation 이 불필요
•빅데이터 수집과 자동학습으로 진화가 가능한 구조. (구글/바이두)
3세대
2016~
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 14
deepTTS
2018 xVoice 개발 방향
•DNN-TTS연구의 시작 (Google/Microsoft/Univ. of Edinburgh)
•음성 파라메터의 통계모델을 예측
1세대
2013
•DNN-TTS의 고도화
•음성 파라메터의 직접 예측
2세대
2015
•end-to-end : 수집 데이터의 annotation 이 불필요
•빅데이터 수집과 자동학습으로 진화가 가능한 구조. (구글/바이두)
3세대
2016~
End-to-End3세대
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Why
End-to-End?
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 16
deepTTS
언어처리/운율 모델
End to End
Text
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성
Multi-stage TTS - Synthesizer
언어처리, 운율모델, G2P 등의 요소 기술에 대한 전문 지식과 각
요소 기술의 최적화가 필요
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 17
deepTTS
End to End
Text
언어처리/운율 모델 불필요
( no feature engineering )
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성
End-to-End TTS - Synthesizer
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 18
deepTTS
End to End
Text
문장분석
품사태깅
구문분석
경계결정 발음변환 운율분석 음성모델
End-to-End TTS - Synthesizer
각 단계별 전문지식 불필요
단계별 engineering effort 경감
에러 수렴에 유리
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 19
deepTTS
End to End
전사
레이블
경계
Annotation
녹음
음원
녹음대본
데이터 녹음 및 가공
30~40시간 데이터 기준 5~6 개월 소요
Multi-stage TTS – Data engineering
DB 개발
Linguistic feature
Acoustic feature
DNN or HMM TTS
USS
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 20
deepTTS
End to End
녹음
음원
녹음대본
End-to-End TTS – Data engineering
<text, audio> 학습
보이스개발을 위한 feature engineering 비용 경감
보이스개발 비용 감소
데이터 녹음 및 검수,제작
10시간 데이터 기준 1개월~2개월 소요
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
End-to-End
기술동향과 xVoice
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 22
deepTTS
End to End
End-to-End 음성합성 기술 관련 연구동향
WaveNet Vocoder2016.9
Generative model for generating raw audio / Neural vocoder
DeepMind
Tacotron12017.3
End-to-End + Griffin Lim
Google
Tacotron22017.12
New End-to-End + WaveNet
Google
Style modeling & Prosody Transfer2018.3
Baseline Tacotron1 + style embedding
Google
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 23
deepTTS
End to End
우리의 개발 방향과 범위
WaveNet2016.9
Generative model for generating raw audio / Neural vocoder
DeepMind
Tacotron12017.3
End-to-End + Griffin Lim
Google
Tacotron22017.12
New End-to-End + WaveNet
Google
2018
Tacotron 1&2 based + Our New Idea
상용화 목표 / 알고리즘 개발
음질, 응답속도개선
F/U
xVoicedeepTTS
2019
+ Parallel WaveNet – 음향품질 개선
+ 감정표현
xVoice2deepTTS
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 24
deepTTS
End to End
상용화를 위한 최대 난제 2가지
• Skip/Repetition
• 발음 삭제 또는 반복 현상
• 원인
• 데이터 부족으로 인한 phone sequence 출현 확률 문제
• Attention mecanism의 불안정성
• 해결방법
• 데이터를 충분히 많이 확보하거나, robust attention
mechanism 알고리즘 개발
• Performance
• T1 : xRT 1.5
• T2 WaveNet : xRT 10.0
참고) xRT 1.0 : 1초 합성을 위해 1초의 response time
참고) Parallel WaveNet – xRT 0.05 – P100 GPU 사용
skip
당국과 건설업체들은 비래염분 피해의 심각성을 간과한 채 내염처리
를 소홀히 하고 있어 곳곳에서 피해가 나타나고 있다.
repeat
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 26
deepTTS
Selvy deepTTS 시연영상 – Google Duplex 패러디
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 27
deepTTS
Selvy deepTTS - xVoice
xVoice of basic mechanism with 4 module
Text Analyzer
3 Conv Layers
Bi-directional LSTM
Weighted Location
sensitive attention
2 layer pre-net
GRU Cell
Projection
GRU Cell
GRU Cell
projection
EOS detect
sequence error
detect
Post network(CBHG)
G-L reconstruction
Mel-spectrogram
ㅅ ㅔ ㄹ ㅂ ㅏ ㅅ ㅡ
Waveform (Voice)
1.Encoder 2.Attention
3.Decoder
4.Vocoder
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 28
deepTTS
Selvy deepTTS - xVoice
xVoice of basic mechanism with 4 module
Input
sequence
wave
Advanced
Encoder
Weighted
Location
Attention
Vocoder
Decoder
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 29
deepTTS
상용화를 위한 난제 극복
• Weighted Location Attention 알고리즘 개발
• Robust Attention 알고리즘 개발
• Robust Move forward 실현
• Attention masking 알고리즘 개발
• Robust Move forward 실현
• Transfering learning receipe 개발
• curriculum learning
• relay transfer learning
• Data Augmentation
• Audio data augmentation : 대화체/의문문 강화
• Text data augmentation : 띄어쓰기 강화
• Advanced Encoder
• Text analyzer 개발
• Mini-batch 개선
• Sorted & Grouped shuffling Mini-batch
• Prevent overfitting
• 엔진개발
• Vocoder 속도개선
• API개발 (기존 USS 제품 API와 호환)
• 멀티채널
• xRT 0.7 미만
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 30
deepTTS
기존합성기와의 자연성 비교
서울특별시 강남구 날씨 입니다. 구름이 많이 낀 하늘이에요. 하지만 아직
비 소식은 없습니다. 현재 기온은 17도이며, 당일 최고 21도, 최저 14도 입
니다. 미세먼지 수치는 보통 입니다.
대통령은 공화국의 국가원수입니다.
외국에 대하여 국가를 대표하고 행정권의 수반이 되는 최고의 통치권자
를 의미합니다.
날씨
위키
어떤 음악을 들려드릴까요?
분위기 있는 음악을 준비했어요.
BTS의 봄날 들려드릴께요.
뮤직
USS 유진 DNN 유진 하나
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 31
deepTTS
자연스럽고 감성적인 간투어 표현
음, 가능한지 확인해볼께요.
저, 잘 못 알아 들었습니다. 다시 말씀해주세요
네? 다시 말씀해주시겠어요?
가지 간투어 개발 – 음, 네, 네?, 아 네, 저”
간투어는 강한 감성을 제공
추후 간투어 확장 / 표현 강도 제어 예정( 예 - 음. 음.. 음…….)
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 32
deepTTS
개인화 TTS
<Text,Audio>
개인화 보이스 음성수집
Transfer
Learning
Pre-trained
Seed model
합성
개인화 보이스 모델
수분~수시간의 음성 데이터만으로 그 사람의 목소리를 가진 합성기를 만들수 있습니다.
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 33
deepTTS
개인화 TTS 상용 서비스 적용 프로세스
Engine
Engine
(모델 학습/생성) 모델 (엔진탑재용)
API
(합성요청/TN/결과
처리)
Text
보이스모델 로드
모델 Encoder
(암호화)
Trainer
Generator
(데이터 전처리/훈련
데이터 생성)
Data feeder
(데이터 분류/Batch
control)
Trainer
(모델 학습/생성)
검증
(Synthesizer/Web.
App demo)
Y
N
재훈련
보이스모델
• Trainer
• DNN TTS 시스템
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 34
deepTTS
동화책 – 다람쥐와 도토리 中
개인화 TTS – 캐릭터(산타 ver.)
이미 그 깊은 숲속에는 많은 너구리들이 살고 있었어요.
"숲속의 도토리는 다 임자가 있어.
어디서 굴러먹던 놈이 와 함부로 손을 대는 거야?"
깊은 숲속의 너구리들은 아주 차가운 표정으로 그렇게 말했어요.
이 다람쥐는 닥쳐올 겨울이 걱정되었습니다.
생각다 못한 다람쥐는 너구리들에게 이렇게 말했지요.
"도토리를 주워 드릴게요.
대신 그것을 조금만 제게 나누어 주시지 않겠어요?"
너구리들은 그러마고 이내 고개를 끄덕였습니다.
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 35
deepTTS
개인화 TTS – 유명인(정해인 ver.)
드라마 대사 中
거짓말같다. 이렇게 예쁜 사람이 내 앞에 있다니.
내가 먼저 잡으려고 했는데.
남녀사이에 타이밍이 얼마나 중요한지 모르는거지.
그러니까 겁먹지 말고, 울지 말고 조금만 기다려요.
원래 연애라는게 내가 해도 되는 걸 굳이 상대방이 해주는 겁니다.
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 36
deepTTS
개인화 TTS – 유명인(이병헌 ver.)
소설책 – 크리스마스 선물 中
이런 엉망진창인 비유 따위는 잊어버리라. 그녀는 짐의 선물을 찾아 가
게마다 샅샅이 뒤지고 다녔다. 그녀가 마침내 그것을 찾아냈다.
그것은 분명 다른 누구도 아닌, 짐을 위한 물건이었다.
그녀가 가게마다 다 헤집고 다녔지만, 다른 어떤 가게에도 그런 물건은
없었다. 그것은 단순하고 품위 있는 디자인의 백금 시계줄이었다.
겉만 번지르르한 보석장식을 동원하지 않고, 재료 자체만으로 물건의
가치를 제대로 보여주었다. 품질 좋은 물건은 늘 그런 법이다.
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 37
deepTTS
개인화 TTS
화자 훈련 데이터 원본 샘플 합성 샘플
50대 남성 20분
40대 여성 50분
20대 남성 50분
20대 여성 50분
Santa 4시간 40분
Morgan 20분
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Selvy deepTTS
xVoice
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 39
deepTTS
Selvy deepTTS 특징
자연스럽고 유창한 합성음
• 숫자, 날짜, 시간 형식 등을 읽을 수 있는 텍스트 정규화 지원
• SSML 지원 – 숫자, 날짜, 시간형식의 발음지침 직접 지정
서비스 시스템 환경 지원
• 서버급 운영체제 지원 : Linux (Ubuntu)
최적의 운영환경 지원
• 다양한 Client 환경 지원 : Windows, Android, iOS, Web, (Embedded Linux)
• Client 개발 언어 지원 : C, C#, Java, COM, PHP, .NET 등
• 다채널 서비스에 대한 안정적 운용 보장
주요 지원기능
• VXML 형태의 Voice Control Tag 일부 지원
• 볼륨/스피드/피치 조정 기능 지원
• Audio Mixing 지원 : 생성된 합성음에 배경음악을 넣어주는 기능
• Web Based Server Monitoring/Handling 지원
SDK 지원
• SDK 매뉴얼
• 개발용 샘플소스
• 라이선스 정책
• 파일라이선스 지원
Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted.
Thank you

More Related Content

What's hot

Attention is all you need (UPC Reading Group 2018, by Santi Pascual)
Attention is all you need (UPC Reading Group 2018, by Santi Pascual)Attention is all you need (UPC Reading Group 2018, by Santi Pascual)
Attention is all you need (UPC Reading Group 2018, by Santi Pascual)Universitat Politècnica de Catalunya
 
Pertemuan 2 & 3 dasar & arsitektur
Pertemuan 2 & 3 dasar & arsitekturPertemuan 2 & 3 dasar & arsitektur
Pertemuan 2 & 3 dasar & arsitekturBuhori Muslim
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 
개인 일정관리에 Agile을 끼얹으면?
개인 일정관리에 Agile을 끼얹으면?개인 일정관리에 Agile을 끼얹으면?
개인 일정관리에 Agile을 끼얹으면?Curt Park
 
Monitoring Error Logs at Databricks
Monitoring Error Logs at DatabricksMonitoring Error Logs at Databricks
Monitoring Error Logs at DatabricksAnyscale
 
인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기Byoung-Hee Kim
 
로그인은 어떻게 동작하나?
로그인은 어떻게 동작하나?로그인은 어떻게 동작하나?
로그인은 어떻게 동작하나?Heemin Kim
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝찬웅 주
 
Deep Learning - RNN and CNN
Deep Learning - RNN and CNNDeep Learning - RNN and CNN
Deep Learning - RNN and CNNPradnya Saval
 
Introduction to deep learning
Introduction to deep learningIntroduction to deep learning
Introduction to deep learningJunaid Bhat
 
딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERTSeonghyun Kim
 
How to Fix FIFA 15 Crashes
How to Fix FIFA 15 CrashesHow to Fix FIFA 15 Crashes
How to Fix FIFA 15 CrashesVikas Medhekar
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본deepseaswjh
 
Artificial Neural Network Tutorial | Deep Learning With Neural Networks | Edu...
Artificial Neural Network Tutorial | Deep Learning With Neural Networks | Edu...Artificial Neural Network Tutorial | Deep Learning With Neural Networks | Edu...
Artificial Neural Network Tutorial | Deep Learning With Neural Networks | Edu...Edureka!
 
파이썬 로깅, 끝까지 파보면서 내가 배운 것
파이썬 로깅, 끝까지 파보면서 내가 배운 것파이썬 로깅, 끝까지 파보면서 내가 배운 것
파이썬 로깅, 끝까지 파보면서 내가 배운 것Hyun-Tae Hwang
 
Proposal ijin usaha bengkel las
Proposal ijin usaha bengkel lasProposal ijin usaha bengkel las
Proposal ijin usaha bengkel lasWilly Hasegawa
 
Neural Language Generation Head to Toe
Neural Language Generation Head to Toe Neural Language Generation Head to Toe
Neural Language Generation Head to Toe Hady Elsahar
 
01-Pengantar-Pengolahan-Citra-Bag1-2021.pptx
01-Pengantar-Pengolahan-Citra-Bag1-2021.pptx01-Pengantar-Pengolahan-Citra-Bag1-2021.pptx
01-Pengantar-Pengolahan-Citra-Bag1-2021.pptxGabrielChristian14
 

What's hot (20)

Attention is all you need (UPC Reading Group 2018, by Santi Pascual)
Attention is all you need (UPC Reading Group 2018, by Santi Pascual)Attention is all you need (UPC Reading Group 2018, by Santi Pascual)
Attention is all you need (UPC Reading Group 2018, by Santi Pascual)
 
Pertemuan 2 & 3 dasar & arsitektur
Pertemuan 2 & 3 dasar & arsitekturPertemuan 2 & 3 dasar & arsitektur
Pertemuan 2 & 3 dasar & arsitektur
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
개인 일정관리에 Agile을 끼얹으면?
개인 일정관리에 Agile을 끼얹으면?개인 일정관리에 Agile을 끼얹으면?
개인 일정관리에 Agile을 끼얹으면?
 
Monitoring Error Logs at Databricks
Monitoring Error Logs at DatabricksMonitoring Error Logs at Databricks
Monitoring Error Logs at Databricks
 
인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기
 
로그인은 어떻게 동작하나?
로그인은 어떻게 동작하나?로그인은 어떻게 동작하나?
로그인은 어떻게 동작하나?
 
Arsitektur komputer
Arsitektur komputerArsitektur komputer
Arsitektur komputer
 
Attention Is All You Need
Attention Is All You NeedAttention Is All You Need
Attention Is All You Need
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝
 
Deep Learning - RNN and CNN
Deep Learning - RNN and CNNDeep Learning - RNN and CNN
Deep Learning - RNN and CNN
 
Introduction to deep learning
Introduction to deep learningIntroduction to deep learning
Introduction to deep learning
 
딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT
 
How to Fix FIFA 15 Crashes
How to Fix FIFA 15 CrashesHow to Fix FIFA 15 Crashes
How to Fix FIFA 15 Crashes
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본
 
Artificial Neural Network Tutorial | Deep Learning With Neural Networks | Edu...
Artificial Neural Network Tutorial | Deep Learning With Neural Networks | Edu...Artificial Neural Network Tutorial | Deep Learning With Neural Networks | Edu...
Artificial Neural Network Tutorial | Deep Learning With Neural Networks | Edu...
 
파이썬 로깅, 끝까지 파보면서 내가 배운 것
파이썬 로깅, 끝까지 파보면서 내가 배운 것파이썬 로깅, 끝까지 파보면서 내가 배운 것
파이썬 로깅, 끝까지 파보면서 내가 배운 것
 
Proposal ijin usaha bengkel las
Proposal ijin usaha bengkel lasProposal ijin usaha bengkel las
Proposal ijin usaha bengkel las
 
Neural Language Generation Head to Toe
Neural Language Generation Head to Toe Neural Language Generation Head to Toe
Neural Language Generation Head to Toe
 
01-Pengantar-Pengolahan-Citra-Bag1-2021.pptx
01-Pengantar-Pengolahan-Citra-Bag1-2021.pptx01-Pengantar-Pengolahan-Citra-Bag1-2021.pptx
01-Pengantar-Pengolahan-Citra-Bag1-2021.pptx
 

Similar to 딥러닝 음성합성기 개발 - 셀바스AI

[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례Amazon Web Services Korea
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning Systemhoondong kim
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616Taejoon Yoo
 
클라우드 세상에서 IT 관리자로 살아남기 - AWS Summit Seoul 2017
클라우드 세상에서 IT 관리자로 살아남기 - AWS Summit Seoul 2017클라우드 세상에서 IT 관리자로 살아남기 - AWS Summit Seoul 2017
클라우드 세상에서 IT 관리자로 살아남기 - AWS Summit Seoul 2017Amazon Web Services Korea
 
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144Darion Kim
 
한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희 솔루션즈 아키텍트, AWS :: AWS Innovate 2019
한국어를 위한  AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희 솔루션즈 아키텍트, AWS :: AWS Innovate 2019한국어를 위한  AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희 솔루션즈 아키텍트, AWS :: AWS Innovate 2019
한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희 솔루션즈 아키텍트, AWS :: AWS Innovate 2019Amazon Web Services Korea
 
[열린기술공방] Container기반의 DevOps - 클라우드 네이티브
[열린기술공방] Container기반의 DevOps - 클라우드 네이티브[열린기술공방] Container기반의 DevOps - 클라우드 네이티브
[열린기술공방] Container기반의 DevOps - 클라우드 네이티브Open Source Consulting
 
Oracle innovation summit chatbot
Oracle innovation summit chatbotOracle innovation summit chatbot
Oracle innovation summit chatbotMee Nam Lee
 
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화ksdc2019
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
클라우드를 활용한 미디어 프로세싱 솔루션 소개 - 이상오 솔루션즈 아키텍트 (GS네오텍) :: 미디어 커스토머 데이
클라우드를 활용한 미디어 프로세싱 솔루션 소개 - 이상오 솔루션즈 아키텍트 (GS네오텍) :: 미디어 커스토머 데이 클라우드를 활용한 미디어 프로세싱 솔루션 소개 - 이상오 솔루션즈 아키텍트 (GS네오텍) :: 미디어 커스토머 데이
클라우드를 활용한 미디어 프로세싱 솔루션 소개 - 이상오 솔루션즈 아키텍트 (GS네오텍) :: 미디어 커스토머 데이 Amazon Web Services Korea
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석Taejoon Yoo
 
리테일과 네이버클라우드플랫폼 - 바이라인세미나(정낙수 클라우드 솔루션 아키텍트)
리테일과 네이버클라우드플랫폼 - 바이라인세미나(정낙수 클라우드 솔루션 아키텍트)리테일과 네이버클라우드플랫폼 - 바이라인세미나(정낙수 클라우드 솔루션 아키텍트)
리테일과 네이버클라우드플랫폼 - 바이라인세미나(정낙수 클라우드 솔루션 아키텍트)NAVER CLOUD PLATFORMㅣ네이버 클라우드 플랫폼
 
“머신러닝 엔지니어가 다녀온 F8” 김준성 - F8 2019 Meetup:Seoul
“머신러닝 엔지니어가 다녀온 F8” 김준성 - F8 2019 Meetup:Seoul“머신러닝 엔지니어가 다녀온 F8” 김준성 - F8 2019 Meetup:Seoul
“머신러닝 엔지니어가 다녀온 F8” 김준성 - F8 2019 Meetup:SeoulJunseong Kim
 
[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트
[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트
[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트Amazon Web Services Korea
 
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx문기 박
 
AWS상의 최신 애플리케이션 개발을 위한 자동화된 워크로드 보안방안::양희선 부장, 트렌드마이크로::AWS Summit Seoul 2018
AWS상의 최신 애플리케이션 개발을 위한 자동화된 워크로드 보안방안::양희선 부장, 트렌드마이크로::AWS Summit Seoul 2018AWS상의 최신 애플리케이션 개발을 위한 자동화된 워크로드 보안방안::양희선 부장, 트렌드마이크로::AWS Summit Seoul 2018
AWS상의 최신 애플리케이션 개발을 위한 자동화된 워크로드 보안방안::양희선 부장, 트렌드마이크로::AWS Summit Seoul 2018Amazon Web Services Korea
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
[오픈소스컨설팅] 2019년 클라우드 생존전략
[오픈소스컨설팅] 2019년 클라우드 생존전략[오픈소스컨설팅] 2019년 클라우드 생존전략
[오픈소스컨설팅] 2019년 클라우드 생존전략Ji-Woong Choi
 

Similar to 딥러닝 음성합성기 개발 - 셀바스AI (20)

[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
[Partner TechForum] 딥러닝 기반의 챗봇 기술을 활용한 구축 사례
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
마인즈랩소개자료 20150616
마인즈랩소개자료 20150616마인즈랩소개자료 20150616
마인즈랩소개자료 20150616
 
클라우드 세상에서 IT 관리자로 살아남기 - AWS Summit Seoul 2017
클라우드 세상에서 IT 관리자로 살아남기 - AWS Summit Seoul 2017클라우드 세상에서 IT 관리자로 살아남기 - AWS Summit Seoul 2017
클라우드 세상에서 IT 관리자로 살아남기 - AWS Summit Seoul 2017
 
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
 
한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희 솔루션즈 아키텍트, AWS :: AWS Innovate 2019
한국어를 위한  AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희 솔루션즈 아키텍트, AWS :: AWS Innovate 2019한국어를 위한  AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희 솔루션즈 아키텍트, AWS :: AWS Innovate 2019
한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희 솔루션즈 아키텍트, AWS :: AWS Innovate 2019
 
[열린기술공방] Container기반의 DevOps - 클라우드 네이티브
[열린기술공방] Container기반의 DevOps - 클라우드 네이티브[열린기술공방] Container기반의 DevOps - 클라우드 네이티브
[열린기술공방] Container기반의 DevOps - 클라우드 네이티브
 
Oracle innovation summit chatbot
Oracle innovation summit chatbotOracle innovation summit chatbot
Oracle innovation summit chatbot
 
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
클라우드를 활용한 미디어 프로세싱 솔루션 소개 - 이상오 솔루션즈 아키텍트 (GS네오텍) :: 미디어 커스토머 데이
클라우드를 활용한 미디어 프로세싱 솔루션 소개 - 이상오 솔루션즈 아키텍트 (GS네오텍) :: 미디어 커스토머 데이 클라우드를 활용한 미디어 프로세싱 솔루션 소개 - 이상오 솔루션즈 아키텍트 (GS네오텍) :: 미디어 커스토머 데이
클라우드를 활용한 미디어 프로세싱 솔루션 소개 - 이상오 솔루션즈 아키텍트 (GS네오텍) :: 미디어 커스토머 데이
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
 
리테일과 네이버클라우드플랫폼 - 바이라인세미나(정낙수 클라우드 솔루션 아키텍트)
리테일과 네이버클라우드플랫폼 - 바이라인세미나(정낙수 클라우드 솔루션 아키텍트)리테일과 네이버클라우드플랫폼 - 바이라인세미나(정낙수 클라우드 솔루션 아키텍트)
리테일과 네이버클라우드플랫폼 - 바이라인세미나(정낙수 클라우드 솔루션 아키텍트)
 
“머신러닝 엔지니어가 다녀온 F8” 김준성 - F8 2019 Meetup:Seoul
“머신러닝 엔지니어가 다녀온 F8” 김준성 - F8 2019 Meetup:Seoul“머신러닝 엔지니어가 다녀온 F8” 김준성 - F8 2019 Meetup:Seoul
“머신러닝 엔지니어가 다녀온 F8” 김준성 - F8 2019 Meetup:Seoul
 
[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트
[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트
[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트
 
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
__Cloud_CNA_MSA_Service+Data+InferenceMesh 소개-박문기@메가존클라우드-20230320.pptx
 
AWS상의 최신 애플리케이션 개발을 위한 자동화된 워크로드 보안방안::양희선 부장, 트렌드마이크로::AWS Summit Seoul 2018
AWS상의 최신 애플리케이션 개발을 위한 자동화된 워크로드 보안방안::양희선 부장, 트렌드마이크로::AWS Summit Seoul 2018AWS상의 최신 애플리케이션 개발을 위한 자동화된 워크로드 보안방안::양희선 부장, 트렌드마이크로::AWS Summit Seoul 2018
AWS상의 최신 애플리케이션 개발을 위한 자동화된 워크로드 보안방안::양희선 부장, 트렌드마이크로::AWS Summit Seoul 2018
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
[오픈소스컨설팅] 2019년 클라우드 생존전략
[오픈소스컨설팅] 2019년 클라우드 생존전략[오픈소스컨설팅] 2019년 클라우드 생존전략
[오픈소스컨설팅] 2019년 클라우드 생존전략
 

딥러닝 음성합성기 개발 - 셀바스AI

  • 1. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. SELVAS AI Inc. Tel : 02-6190-7500 Fax : 02-2629-4586 서울특별시 금천구 가산디지털1로 19, 19~20층(가산동, 대륭테크노타운 18차) 19F Daerung Techno Town 18th,19, Gasan digital 1ro, Geumcheon-gu, SEOUL KOREA deepTTS 딥러닝 기반 음성합성기 개발 발표 AI연구 1팀 박태훈(Wayne) wayne.t.park@selvas.com
  • 2. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Table of Contents Selvy deepTTS 솔루션 개발 개요 주요 기술 솔루션 Future work
  • 3. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Selvy deepTTS xVoice
  • 4. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Selvy deepTTS xVoice 자체 개발 딥러닝 기반 음성합성 기술 구글의 Tacotron 메커니즘 기반 + New Idea = xVoice
  • 5. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Selvy deepTTS xVoice 딥러닝 기반 음성합성 솔루션 xVoice 기술이 탑재된 Sever/Client 기반 음성합성 솔루션
  • 6. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 6 deepTTS 딥러닝 기반의 음성합성 기술 확장 USS(Unit selection TTS) HTS(HMM based TTS) Selvy TTS Selvy deepTTS
  • 7. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 7 deepTTS 딥러닝 기반의 음성합성 기술 확장 USS(Unit selection TTS) HTS(HMM based TTS) Deep Learning based TTS – End to End Selvy TTS + Selvy deepTTS
  • 8. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Why 딥러닝 기반 음성합성?
  • 9. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 9 deepTTS Data Traditional TTS vs Selvy deepTTS 30 시간~ Selvy deepTTS 수분~수십시간 The more, the better
  • 10. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 10 deepTTS Naturalness & Expressiveness Traditional TTS vs Selvy deepTTSSelvy deepTTS
  • 11. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 11 deepTTS Dev. Efficiency Traditional TTS vs Selvy deepTTSSelvy deepTTS
  • 12. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 12 deepTTS Why 딥러닝 기반 음성합성? 소량의 녹음데이터 • 셀럽 목소리 제작 가능 • 개인화서비스에 적용 자연성 우수/감정표현 가능 • AI 서비스(챗봇/인공지능 스피커)에 적합 개발기간/비용 단축 • 다양한 보이스 제작이 가능 • 게임캐릭터/고객 맞춤형 보이스 확장(키즈/남,여/연령별 등)
  • 13. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 13 deepTTS 딥러닝 기반 TTS 기술동향 •DNN-TTS 기술의 태동 (Google/Microsoft/Univ. of Edinburgh) •음성 파라메터의 통계모델 예측 1세대 2013 •DNN-TTS의 고도화 •음성 파라메터 예측 2세대 2015 •End-to-End : 수집 데이터의 annotation 이 불필요 •빅데이터 수집과 자동학습으로 진화가 가능한 구조. (구글/바이두) 3세대 2016~
  • 14. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 14 deepTTS 2018 xVoice 개발 방향 •DNN-TTS연구의 시작 (Google/Microsoft/Univ. of Edinburgh) •음성 파라메터의 통계모델을 예측 1세대 2013 •DNN-TTS의 고도화 •음성 파라메터의 직접 예측 2세대 2015 •end-to-end : 수집 데이터의 annotation 이 불필요 •빅데이터 수집과 자동학습으로 진화가 가능한 구조. (구글/바이두) 3세대 2016~ End-to-End3세대
  • 15. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Why End-to-End?
  • 16. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 16 deepTTS 언어처리/운율 모델 End to End Text 문장분석 품사태깅 구문분석 경계결정 발음변환 운율분석 음성 Multi-stage TTS - Synthesizer 언어처리, 운율모델, G2P 등의 요소 기술에 대한 전문 지식과 각 요소 기술의 최적화가 필요
  • 17. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 17 deepTTS End to End Text 언어처리/운율 모델 불필요 ( no feature engineering ) 문장분석 품사태깅 구문분석 경계결정 발음변환 운율분석 음성 End-to-End TTS - Synthesizer
  • 18. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 18 deepTTS End to End Text 문장분석 품사태깅 구문분석 경계결정 발음변환 운율분석 음성모델 End-to-End TTS - Synthesizer 각 단계별 전문지식 불필요 단계별 engineering effort 경감 에러 수렴에 유리
  • 19. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 19 deepTTS End to End 전사 레이블 경계 Annotation 녹음 음원 녹음대본 데이터 녹음 및 가공 30~40시간 데이터 기준 5~6 개월 소요 Multi-stage TTS – Data engineering DB 개발 Linguistic feature Acoustic feature DNN or HMM TTS USS
  • 20. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 20 deepTTS End to End 녹음 음원 녹음대본 End-to-End TTS – Data engineering <text, audio> 학습 보이스개발을 위한 feature engineering 비용 경감 보이스개발 비용 감소 데이터 녹음 및 검수,제작 10시간 데이터 기준 1개월~2개월 소요
  • 21. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. End-to-End 기술동향과 xVoice
  • 22. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 22 deepTTS End to End End-to-End 음성합성 기술 관련 연구동향 WaveNet Vocoder2016.9 Generative model for generating raw audio / Neural vocoder DeepMind Tacotron12017.3 End-to-End + Griffin Lim Google Tacotron22017.12 New End-to-End + WaveNet Google Style modeling & Prosody Transfer2018.3 Baseline Tacotron1 + style embedding Google
  • 23. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 23 deepTTS End to End 우리의 개발 방향과 범위 WaveNet2016.9 Generative model for generating raw audio / Neural vocoder DeepMind Tacotron12017.3 End-to-End + Griffin Lim Google Tacotron22017.12 New End-to-End + WaveNet Google 2018 Tacotron 1&2 based + Our New Idea 상용화 목표 / 알고리즘 개발 음질, 응답속도개선 F/U xVoicedeepTTS 2019 + Parallel WaveNet – 음향품질 개선 + 감정표현 xVoice2deepTTS
  • 24. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 24 deepTTS End to End 상용화를 위한 최대 난제 2가지 • Skip/Repetition • 발음 삭제 또는 반복 현상 • 원인 • 데이터 부족으로 인한 phone sequence 출현 확률 문제 • Attention mecanism의 불안정성 • 해결방법 • 데이터를 충분히 많이 확보하거나, robust attention mechanism 알고리즘 개발 • Performance • T1 : xRT 1.5 • T2 WaveNet : xRT 10.0 참고) xRT 1.0 : 1초 합성을 위해 1초의 response time 참고) Parallel WaveNet – xRT 0.05 – P100 GPU 사용 skip 당국과 건설업체들은 비래염분 피해의 심각성을 간과한 채 내염처리 를 소홀히 하고 있어 곳곳에서 피해가 나타나고 있다. repeat
  • 25. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Selvy deepTTS xVoice
  • 26. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 26 deepTTS Selvy deepTTS 시연영상 – Google Duplex 패러디
  • 27. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 27 deepTTS Selvy deepTTS - xVoice xVoice of basic mechanism with 4 module Text Analyzer 3 Conv Layers Bi-directional LSTM Weighted Location sensitive attention 2 layer pre-net GRU Cell Projection GRU Cell GRU Cell projection EOS detect sequence error detect Post network(CBHG) G-L reconstruction Mel-spectrogram ㅅ ㅔ ㄹ ㅂ ㅏ ㅅ ㅡ Waveform (Voice) 1.Encoder 2.Attention 3.Decoder 4.Vocoder
  • 28. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 28 deepTTS Selvy deepTTS - xVoice xVoice of basic mechanism with 4 module Input sequence wave Advanced Encoder Weighted Location Attention Vocoder Decoder
  • 29. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 29 deepTTS 상용화를 위한 난제 극복 • Weighted Location Attention 알고리즘 개발 • Robust Attention 알고리즘 개발 • Robust Move forward 실현 • Attention masking 알고리즘 개발 • Robust Move forward 실현 • Transfering learning receipe 개발 • curriculum learning • relay transfer learning • Data Augmentation • Audio data augmentation : 대화체/의문문 강화 • Text data augmentation : 띄어쓰기 강화 • Advanced Encoder • Text analyzer 개발 • Mini-batch 개선 • Sorted & Grouped shuffling Mini-batch • Prevent overfitting • 엔진개발 • Vocoder 속도개선 • API개발 (기존 USS 제품 API와 호환) • 멀티채널 • xRT 0.7 미만
  • 30. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 30 deepTTS 기존합성기와의 자연성 비교 서울특별시 강남구 날씨 입니다. 구름이 많이 낀 하늘이에요. 하지만 아직 비 소식은 없습니다. 현재 기온은 17도이며, 당일 최고 21도, 최저 14도 입 니다. 미세먼지 수치는 보통 입니다. 대통령은 공화국의 국가원수입니다. 외국에 대하여 국가를 대표하고 행정권의 수반이 되는 최고의 통치권자 를 의미합니다. 날씨 위키 어떤 음악을 들려드릴까요? 분위기 있는 음악을 준비했어요. BTS의 봄날 들려드릴께요. 뮤직 USS 유진 DNN 유진 하나
  • 31. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 31 deepTTS 자연스럽고 감성적인 간투어 표현 음, 가능한지 확인해볼께요. 저, 잘 못 알아 들었습니다. 다시 말씀해주세요 네? 다시 말씀해주시겠어요? 가지 간투어 개발 – 음, 네, 네?, 아 네, 저” 간투어는 강한 감성을 제공 추후 간투어 확장 / 표현 강도 제어 예정( 예 - 음. 음.. 음…….)
  • 32. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 32 deepTTS 개인화 TTS <Text,Audio> 개인화 보이스 음성수집 Transfer Learning Pre-trained Seed model 합성 개인화 보이스 모델 수분~수시간의 음성 데이터만으로 그 사람의 목소리를 가진 합성기를 만들수 있습니다.
  • 33. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 33 deepTTS 개인화 TTS 상용 서비스 적용 프로세스 Engine Engine (모델 학습/생성) 모델 (엔진탑재용) API (합성요청/TN/결과 처리) Text 보이스모델 로드 모델 Encoder (암호화) Trainer Generator (데이터 전처리/훈련 데이터 생성) Data feeder (데이터 분류/Batch control) Trainer (모델 학습/생성) 검증 (Synthesizer/Web. App demo) Y N 재훈련 보이스모델 • Trainer • DNN TTS 시스템
  • 34. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 34 deepTTS 동화책 – 다람쥐와 도토리 中 개인화 TTS – 캐릭터(산타 ver.) 이미 그 깊은 숲속에는 많은 너구리들이 살고 있었어요. "숲속의 도토리는 다 임자가 있어. 어디서 굴러먹던 놈이 와 함부로 손을 대는 거야?" 깊은 숲속의 너구리들은 아주 차가운 표정으로 그렇게 말했어요. 이 다람쥐는 닥쳐올 겨울이 걱정되었습니다. 생각다 못한 다람쥐는 너구리들에게 이렇게 말했지요. "도토리를 주워 드릴게요. 대신 그것을 조금만 제게 나누어 주시지 않겠어요?" 너구리들은 그러마고 이내 고개를 끄덕였습니다.
  • 35. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 35 deepTTS 개인화 TTS – 유명인(정해인 ver.) 드라마 대사 中 거짓말같다. 이렇게 예쁜 사람이 내 앞에 있다니. 내가 먼저 잡으려고 했는데. 남녀사이에 타이밍이 얼마나 중요한지 모르는거지. 그러니까 겁먹지 말고, 울지 말고 조금만 기다려요. 원래 연애라는게 내가 해도 되는 걸 굳이 상대방이 해주는 겁니다.
  • 36. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 36 deepTTS 개인화 TTS – 유명인(이병헌 ver.) 소설책 – 크리스마스 선물 中 이런 엉망진창인 비유 따위는 잊어버리라. 그녀는 짐의 선물을 찾아 가 게마다 샅샅이 뒤지고 다녔다. 그녀가 마침내 그것을 찾아냈다. 그것은 분명 다른 누구도 아닌, 짐을 위한 물건이었다. 그녀가 가게마다 다 헤집고 다녔지만, 다른 어떤 가게에도 그런 물건은 없었다. 그것은 단순하고 품위 있는 디자인의 백금 시계줄이었다. 겉만 번지르르한 보석장식을 동원하지 않고, 재료 자체만으로 물건의 가치를 제대로 보여주었다. 품질 좋은 물건은 늘 그런 법이다.
  • 37. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 37 deepTTS 개인화 TTS 화자 훈련 데이터 원본 샘플 합성 샘플 50대 남성 20분 40대 여성 50분 20대 남성 50분 20대 여성 50분 Santa 4시간 40분 Morgan 20분
  • 38. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Selvy deepTTS xVoice
  • 39. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. 39 deepTTS Selvy deepTTS 특징 자연스럽고 유창한 합성음 • 숫자, 날짜, 시간 형식 등을 읽을 수 있는 텍스트 정규화 지원 • SSML 지원 – 숫자, 날짜, 시간형식의 발음지침 직접 지정 서비스 시스템 환경 지원 • 서버급 운영체제 지원 : Linux (Ubuntu) 최적의 운영환경 지원 • 다양한 Client 환경 지원 : Windows, Android, iOS, Web, (Embedded Linux) • Client 개발 언어 지원 : C, C#, Java, COM, PHP, .NET 등 • 다채널 서비스에 대한 안정적 운용 보장 주요 지원기능 • VXML 형태의 Voice Control Tag 일부 지원 • 볼륨/스피드/피치 조정 기능 지원 • Audio Mixing 지원 : 생성된 합성음에 배경음악을 넣어주는 기능 • Web Based Server Monitoring/Handling 지원 SDK 지원 • SDK 매뉴얼 • 개발용 샘플소스 • 라이선스 정책 • 파일라이선스 지원
  • 40. Copyright SELVAS AI Inc. All right reserved. It contains confidential information. This material shall NOT be reproduced, copied, transmitted. Thank you