SlideShare una empresa de Scribd logo
1 de 4
Descargar para leer sin conexión
日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学 高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
概要
● 高難易度な音声合成タスクとコーパスを整備したい
○ 普通の短文読み上げ音声は十分に高品質化した
○ タスクを定め,誰でも使えるコーパスを提供したい
○  
● オーディオブック音声合成
○ 多様な感情,キャラクタ,情景
○ 短文読み上げよりも深い言語理解が必要
○  
● J-KAC (Japanese Kamishibai and audiobook corpus)
○ 小説25作品,紙芝居17作品
○ 章・節・段落などに構造化されたテキスト
○ 男性声優1名による9時間の音声
■ オーディオブック音声合成の国際コンペの量と同程度
○ 刊行物の挿絵・平絵
○ 無償で公開中 (リンクは論文を参照)
日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学 高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
内容物
● 作品の選定 (抜粋)
○ 文と絵の著作権が消滅した小説
(左表) … 青空文庫など
○ 著作権の存続している紙芝居(右表) … 著者の許諾を得て利用
● 音声収録と後処理
○ 文章を章・段落などに構造化
○ 再帰CTCセグメンテーションで文
アライメントを獲得
● 挿絵・平絵
○ キャラクタや情景の画像
○ 著者と出版社の許諾のもとで
スキャンしてディジタル化
著者 (文・絵) タイトル
田中六大 むしにごようじん
大島妙子 おばけいぬの おハナちゃん
ようふゆか ありくんとかえるくん
著者 (文) タイトル
新美南吉 ごん狐
楠山正雄 花咲かじじい
太宰治 桜桃
chapt000: # 章
 parag000: # 段落
  style000: # 文種
   sent: ある日の事でございます。
    time: [0.96, 3.32] # 開始終了時刻
[蜘蛛の糸.yaml (芥川龍之介)] 宮沢 賢治(作)
茂田井 武(絵)
福音館書店(刊)
“セロひきのゴーシュ”
終盤の演奏場面
日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学 高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
評価
● コーパスで音声合成モデルを学習して評価
○ 構造化テキストで得られる隣接文は,音声合成に有効か?
○ 言語モデルBERT [Devlin19] &音声合成モデルTacotron2 [Shen18]
■ 詳細は既発表原稿[中田21] と本原稿参照
当該文だけを使って音声合成 隣接文も使って音声合成
0.302 vs 0.698
(朗読としての適切さに関するプリファレンス ABテスト.40名が参加)
日本語オーディオブック・
紙芝居朗読音声コーパス
(東京大学 高道慎之介)
概要
● 音声合成の難タスクを整備
● 感情豊かなコーパスを作成
● 無償で公開中
内容物
● 小説25作品・紙芝居17作品
● 声優による音声9時間
● 刊行物の挿絵・平絵画像
評価
● 音声合成モデルを学習
● 文章構造を利用して音質改善
展望
● 言語理解に基づく音声合成
● 画像理解に基づく音声合成
● 音声理解に基づく画像合成
展望
● 言語理解に基づく音声合成
○ 物語の文脈を理解して音声に反映?
○ 文章からキャラクタ,感情,情景を推定
○  
● 画像理解に基づく音声合成
○ 画像で人物や情景情報を補助?
○ 例:“セロひきのゴーシュ”の演奏会の画像を見ると
我々は観客の規模と声援を想像できる
○  
● 音声言語理解に基づく画像合成
○ 合成音声に同期して絵を動かす?
○ 例:演奏シーンに同期して,画像のゴーシュ
(演奏者)を動かす?

Más contenido relacionado

La actualidad más candente

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 

La actualidad más candente (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 

Más de Shinnosuke Takamichi

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習Shinnosuke Takamichi
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Shinnosuke Takamichi
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元 Shinnosuke Takamichi
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用Shinnosuke Takamichi
 

Más de Shinnosuke Takamichi (19)

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
 

Último

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Último (7)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス

  • 1. 日本語オーディオブック・ 紙芝居朗読音声コーパス (東京大学 高道慎之介) 概要 ● 音声合成の難タスクを整備 ● 感情豊かなコーパスを作成 ● 無償で公開中 内容物 ● 小説25作品・紙芝居17作品 ● 声優による音声9時間 ● 刊行物の挿絵・平絵画像 評価 ● 音声合成モデルを学習 ● 文章構造を利用して音質改善 展望 ● 言語理解に基づく音声合成 ● 画像理解に基づく音声合成 ● 音声理解に基づく画像合成 概要 ● 高難易度な音声合成タスクとコーパスを整備したい ○ 普通の短文読み上げ音声は十分に高品質化した ○ タスクを定め,誰でも使えるコーパスを提供したい ○   ● オーディオブック音声合成 ○ 多様な感情,キャラクタ,情景 ○ 短文読み上げよりも深い言語理解が必要 ○   ● J-KAC (Japanese Kamishibai and audiobook corpus) ○ 小説25作品,紙芝居17作品 ○ 章・節・段落などに構造化されたテキスト ○ 男性声優1名による9時間の音声 ■ オーディオブック音声合成の国際コンペの量と同程度 ○ 刊行物の挿絵・平絵 ○ 無償で公開中 (リンクは論文を参照)
  • 2. 日本語オーディオブック・ 紙芝居朗読音声コーパス (東京大学 高道慎之介) 概要 ● 音声合成の難タスクを整備 ● 感情豊かなコーパスを作成 ● 無償で公開中 内容物 ● 小説25作品・紙芝居17作品 ● 声優による音声9時間 ● 刊行物の挿絵・平絵画像 評価 ● 音声合成モデルを学習 ● 文章構造を利用して音質改善 展望 ● 言語理解に基づく音声合成 ● 画像理解に基づく音声合成 ● 音声理解に基づく画像合成 内容物 ● 作品の選定 (抜粋) ○ 文と絵の著作権が消滅した小説 (左表) … 青空文庫など ○ 著作権の存続している紙芝居(右表) … 著者の許諾を得て利用 ● 音声収録と後処理 ○ 文章を章・段落などに構造化 ○ 再帰CTCセグメンテーションで文 アライメントを獲得 ● 挿絵・平絵 ○ キャラクタや情景の画像 ○ 著者と出版社の許諾のもとで スキャンしてディジタル化 著者 (文・絵) タイトル 田中六大 むしにごようじん 大島妙子 おばけいぬの おハナちゃん ようふゆか ありくんとかえるくん 著者 (文) タイトル 新美南吉 ごん狐 楠山正雄 花咲かじじい 太宰治 桜桃 chapt000: # 章  parag000: # 段落   style000: # 文種    sent: ある日の事でございます。     time: [0.96, 3.32] # 開始終了時刻 [蜘蛛の糸.yaml (芥川龍之介)] 宮沢 賢治(作) 茂田井 武(絵) 福音館書店(刊) “セロひきのゴーシュ” 終盤の演奏場面
  • 3. 日本語オーディオブック・ 紙芝居朗読音声コーパス (東京大学 高道慎之介) 概要 ● 音声合成の難タスクを整備 ● 感情豊かなコーパスを作成 ● 無償で公開中 内容物 ● 小説25作品・紙芝居17作品 ● 声優による音声9時間 ● 刊行物の挿絵・平絵画像 評価 ● 音声合成モデルを学習 ● 文章構造を利用して音質改善 展望 ● 言語理解に基づく音声合成 ● 画像理解に基づく音声合成 ● 音声理解に基づく画像合成 評価 ● コーパスで音声合成モデルを学習して評価 ○ 構造化テキストで得られる隣接文は,音声合成に有効か? ○ 言語モデルBERT [Devlin19] &音声合成モデルTacotron2 [Shen18] ■ 詳細は既発表原稿[中田21] と本原稿参照 当該文だけを使って音声合成 隣接文も使って音声合成 0.302 vs 0.698 (朗読としての適切さに関するプリファレンス ABテスト.40名が参加)
  • 4. 日本語オーディオブック・ 紙芝居朗読音声コーパス (東京大学 高道慎之介) 概要 ● 音声合成の難タスクを整備 ● 感情豊かなコーパスを作成 ● 無償で公開中 内容物 ● 小説25作品・紙芝居17作品 ● 声優による音声9時間 ● 刊行物の挿絵・平絵画像 評価 ● 音声合成モデルを学習 ● 文章構造を利用して音質改善 展望 ● 言語理解に基づく音声合成 ● 画像理解に基づく音声合成 ● 音声理解に基づく画像合成 展望 ● 言語理解に基づく音声合成 ○ 物語の文脈を理解して音声に反映? ○ 文章からキャラクタ,感情,情景を推定 ○   ● 画像理解に基づく音声合成 ○ 画像で人物や情景情報を補助? ○ 例:“セロひきのゴーシュ”の演奏会の画像を見ると 我々は観客の規模と声援を想像できる ○   ● 音声言語理解に基づく画像合成 ○ 合成音声に同期して絵を動かす? ○ 例:演奏シーンに同期して,画像のゴーシュ (演奏者)を動かす?