Enviar búsqueda
Cargar
Saito19asj_s
•
0 recomendaciones
•
500 vistas
Y
Yuki Saito
Seguir
日本音響学会 2019年春季研究発表会 3-10-7
Leer menos
Leer más
Ciencias
Denunciar
Compartir
Denunciar
Compartir
1 de 16
Descargar ahora
Descargar para leer sin conexión
Recomendados
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Recomendados
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
saito2017asj_vc
saito2017asj_vc
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
saito2017asj_tts
saito2017asj_tts
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
Más contenido relacionado
La actualidad más candente
saito2017asj_vc
saito2017asj_vc
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
saito2017asj_tts
saito2017asj_tts
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
La actualidad más candente
(20)
saito2017asj_vc
saito2017asj_vc
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
音情報処理における特徴表現
音情報処理における特徴表現
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
saito2017asj_tts
saito2017asj_tts
miyoshi17sp07
miyoshi17sp07
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
Más de Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
miyoshi2017asj
miyoshi2017asj
Yuki Saito
Saito2017icassp
Saito2017icassp
Yuki Saito
Slp201702
Slp201702
Yuki Saito
Más de Yuki Saito
(16)
hirai23slp03.pdf
hirai23slp03.pdf
Interspeech2022 参加報告
Interspeech2022 参加報告
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Nishimura22slp03 presentation
Nishimura22slp03 presentation
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Saito2103slp
Saito2103slp
Saito20asj s slide_published
Saito20asj s slide_published
Une18apsipa
Une18apsipa
Saito18asj_s
Saito18asj_s
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
miyoshi2017asj
miyoshi2017asj
Saito2017icassp
Saito2017icassp
Slp201702
Slp201702
Saito19asj_s
1.
©Yuki Saito, 2019/03/07 DNN音声合成に向けた 主観的話者間類似度を考慮した DNN話者埋め込み ◎
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2019年春季研究発表会 3-10-7
2.
/151 本発表の概要 研究背景 – DNN音声合成の高品質化
& 多様化 [Shen et al., 2018] [Wang et al., 2018] – クラウドソーシングによる音声収集 & 評価 (例: [Takamichi et al., 2018]) 目的: ユーザの評価を明示的に取り入れた音声合成技術の実現 – 本発表: ユーザの主観的印象に基づく話者表現の学習法 従来法: 話者認識に基づくDNN話者埋め込み (例: 𝑑-vector) – 主観的話者間類似度を完全に無視した学習 提案法: 主観的話者間類似度に基づくDNN話者埋め込み – 大規模クラウドソーシングで収集した主観スコアでDNNを学習 結果: 主観的話者間類似度と強い相関を持つ話者埋め込みを学習 [Variani et al., 2014]
3.
/152 従来法: 話者認識に基づくDNN話者埋め込み 𝑑-vector:
話者認識DNNのボトルネック特徴量 [Variani et al., 2014] – 連続的な表現 (未知話者の音声合成も可能) [Saito et al., 2018] [中村 他, 2019] – 識別的な話者空間 ≠ ユーザの主観的印象と対応付けられた話者空間 • 主観的に類似した話者が話者空間で近接する保証なし 1 0 0 0 0 ⋯ Speaker codes Speech params. ⋯ Softmax cross-entropy 𝐿SCE 𝒄, 𝒄 𝑑-vector 𝒄 𝒄
4.
/153 提案法 主観的話者間類似度に基づく
DNN話者埋め込み
5.
/154 クラウドソーシングを用いた 話者間類似度の大規模主観スコアリング 話者対の音声を提示し, その主観的な類似度を評価 –
本発表では, JNAS [Itou et al., 1999] の女性話者153名を利用 • 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価) – 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価 • 評価スコア: -3 (似ていない) ~ +3 (似ている) の整数 • 1つの話者対を異なる10名以上が評価 提示話者対サンプル
6.
/155 類似度スコアに基づく話者グラフを用いた 話者間類似度の可視化 話者の配置は類似度スコアを用いた多次元尺度構成法で決定 F051 F146B F048 特定の話者に 類似した話者 多数の話者に 類似した話者F093 F127
7.
/156 類似度スコア行列: 主観的話者間類似度の行列表現 類似度スコア行列
𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔 𝑁s – 𝑁s 名の話者間類似度に関する主観評価スコアの平均値を格納 – 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s ⊤ : 𝑖 番目の話者の類似度スコアベクトル • 𝑠𝑖,𝑗: 𝑖 番目と 𝑗 番目の話者の主観的類似度 −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣 3 2 1 0 −1 −2 −3 (a) 類似度スコア行列 (153名の日本人女性話者) (b) (a) の部分行列 (13名の日本人女性話者) 類似度スコア行列を用いたDNN話者埋め込みの学習法を2つ提案
8.
/157 提案法1: 類似度スコアベクトル埋め込み Output vector 𝐿SIM vec 𝒔, 𝒔 𝒔 Sim.
score vector 𝒔 ⋯ Sim. score matrix 𝐒 Speech params. 𝐿SIM (vec) 𝒔, 𝒔 = 1 𝑁𝑠 𝒔 − 𝒔 ⊤ 𝒔 − 𝒔 入力された音声から当該話者の類似度スコアベクトルを予測 – DNNの出力と類似度スコアベクトルの mean squared error 最小化 主観的話者間類似度を考慮したソフトラベルを用いた話者埋め込みの学習
9.
/158 提案法2-1: 類似度スコア行列埋め込み Spk. 1 𝒅1 Spk. 𝑁s 𝒅 𝑁𝐬 ⋯ 𝐃⊤
𝐃 ⋯ Gram matrix 𝐊 𝐃 Calc. kernel 𝑘 ⋅ 𝐿SIM mat ⋅ 𝑁s 𝑁s 1 1 ⋯ ⋯ 𝑁s1 ⋯ 1 𝑁s 𝑘 𝒅1, 𝒅 𝑵s 𝑠1,𝑁s𝐒 Sim. score matrix 話者間類似度スコアを話者埋め込みのグラム行列で表現 – 話者埋め込みグラム行列と類似度スコア行列の差のノルムで定式化* *行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列) 学習では 𝐿SCE 𝒄, 𝒄 + 𝜔s 𝐿SIM (mat) 𝐃, 𝐒 を最小化 (同一話者内での変動を抑制) 𝐿SIM (mat) 𝐃, 𝐒 = 1 𝑍s 𝐊 𝐃 − 𝐒 𝐹 2
10.
/159 提案法2-2: 類似話者対のみを考慮した 類似度スコア行列埋め込み Spk. 1 𝒅1 Spk. 𝑁s 𝒅 𝑁𝐬 ⋯ 𝐃⊤
𝐃 ⋯ Gram matrix 𝐊 𝐃 Calc. kernel 𝑘 ⋅ 𝐿SIM mat−re ⋅ 𝑁s 𝑁s 1 ⋯ ⋯ 𝑁s1 ⋯ 1 𝑁s 𝑘 𝒅1, 𝒅 𝑵s 𝑠1,𝑁s𝐒 Sim. score matrix 行列 𝐒 の値で損失の計算に用いる要素をフィルタリング – 少なくとも類似話者対の埋め込みが近づくような損失を最小化* *行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列) 𝐿SIM (mat−re) 𝐃, 𝐒 = 1 𝑍s ′ 𝐖 ⊙ 𝐊D − 𝐒 𝐹 2 𝐖: 話者グラフの隣接行列 (類似話者対に対する要素のみが1) 𝐖 1 ⋅⋅
11.
/1510 考察 関連研究との比較 – 単一話者の印象
(例: 印象語の対) と音響モデルを対応づけ • HMM音声合成 [Tachibana et al., 2006], GMM音声変換 [Ohta et al., 2007] – 提案法: 話者間の印象 (主観的類似度) と音響モデルを対応付け • 話者—聴者間の関係もモデル化可能 (例: 感情表現—知覚の差) 類似度スコア行列埋め込み ≃ 話者間類似度での Deep Clustering – 埋め込みの内積計算をカーネル関数で一般化 類似話者対のみを用いた学習 ≃ 音声からの話者グラフ推定 – → グラフ信号処理・ニューラルネットを取り入れた音声合成 [Lorenzo-Trueba et al., 2018] [Hershey et al., 2016]
12.
/1511 実験的評価
13.
/15 実験条件 12 データセット JNAS [Itou
et al., 1999] 女性話者 153名, 16 [kHz] スコアリング用発話 話者毎に異なる5発話 評価値 -3 (似ていない) ~ +3 (似ている) の整数 (話者埋め込みDNN学習時には -1 ~ +1 に正規化) 評価者数 / 設問数 4,060名 / 全話者対からランダムに抽出された34対 (1つの話者対を少なくとも異なる10名が評価) DNN学習 / 評価 話者毎に約130発話 / 約15発話 DNNアーキテクチャ (詳細は原稿参照) 入力: 1—39次メルケプストラム (±2フレーム結合) 出力: 140話者に対する予測結果 カーネル関数 シグモイドカーネル 𝑘 𝒅𝑖, 𝒅𝑗 = tanh 𝒅𝑖 ⊤ 𝒅𝑗 比較手法 (1) Conv. : 話者認識に基づく埋め込み (2) Prop. (vec): 類似度スコアベクトル埋め込み (3) Prop. (mat): 類似度スコア行列埋め込み (4) Prop. (mat-re): 同上 (類似話者対のみ)
14.
/15 Closed: 学習に用いた140名,
Open: Closed 以外の13名 13 話者埋め込みと話者間類似度スコアの散布図・相関 (1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re) 0.0 1.0−1.0 1.0 0.0 −1.0 Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗 Similarityscore𝑠𝑖,𝑗 (a)Closed-Closed(b)Closed-Open 提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
15.
/15 Closed: 学習に用いた140名,
Open: Closed 以外の13名 14 話者埋め込みと話者間類似度スコアの散布図・相関 (1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re) 0.0 1.0−1.0 1.0 0.0 Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗 Similarityscore𝑠𝑖,𝑗 (a)Closed-Closed(b)Closed-Open 提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
16.
/1515 まとめ 目的: 主観的話者間類似度と対応付けされた話者表現の学習
提案法: 主観的話者間類似度を考慮したDNN話者埋め込み – 大規模クラウドソーシングで収集した主観スコアでDNNを学習 – 類似度スコアベクトル埋め込み & 行列埋め込み 結果: 類似度スコアと強い相関を持つ話者埋め込みを学習 今後: 提案法の話者埋め込みを用いた多人数話者DNN音声合成 – 話者モーフィング – 学習データ収集 (active learning) – 話者のランダムサンプリング
Descargar ahora