Submit Search
Upload
女の子になれなかった人のために
•
Download as PPTX, PDF
•
11 likes
•
15,921 views
京大 マイコンクラブ
Follow
音声の分析合成と機械学習を使ってボイスチェンジャーを作るスライドです
Read less
Read more
Technology
Report
Share
Report
Share
1 of 42
Download now
Recommended
最適化超入門
最適化超入門
Takami Sato
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
HironoriKanazawa
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
Recommended
最適化超入門
最適化超入門
Takami Sato
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
HironoriKanazawa
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
Deep Learning JP
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
Toshihiko Yamasaki
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
Android/iOS端末におけるエッジ推論のチューニング
Android/iOS端末におけるエッジ推論のチューニング
Deep Learning Lab(ディープラーニング・ラボ)
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
MITSUNARI Shigeo
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
フーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組み
yuichi takeda
Lucas kanade法について
Lucas kanade法について
Hitoshi Nishimura
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
画像認識のための深層学習
画像認識のための深層学習
Saya Katafuchi
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
すごい constexpr たのしくレイトレ!
すごい constexpr たのしくレイトレ!
Genya Murakami
テキストファイルを読む💪 第1回
テキストファイルを読む💪 第1回
京大 マイコンクラブ
かわいくなろうとしたら語彙力が下がった話
かわいくなろうとしたら語彙力が下がった話
京大 マイコンクラブ
More Related Content
What's hot
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
Deep Learning JP
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
Toshihiko Yamasaki
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
Android/iOS端末におけるエッジ推論のチューニング
Android/iOS端末におけるエッジ推論のチューニング
Deep Learning Lab(ディープラーニング・ラボ)
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
MITSUNARI Shigeo
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
フーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組み
yuichi takeda
Lucas kanade法について
Lucas kanade法について
Hitoshi Nishimura
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
画像認識のための深層学習
画像認識のための深層学習
Saya Katafuchi
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
すごい constexpr たのしくレイトレ!
すごい constexpr たのしくレイトレ!
Genya Murakami
What's hot
(20)
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
全力解説!Transformer
全力解説!Transformer
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Android/iOS端末におけるエッジ推論のチューニング
Android/iOS端末におけるエッジ推論のチューニング
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
フーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組み
Lucas kanade法について
Lucas kanade法について
Triplet Loss 徹底解説
Triplet Loss 徹底解説
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
画像認識のための深層学習
画像認識のための深層学習
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
すごい constexpr たのしくレイトレ!
すごい constexpr たのしくレイトレ!
More from 京大 マイコンクラブ
テキストファイルを読む💪 第1回
テキストファイルを読む💪 第1回
京大 マイコンクラブ
かわいくなろうとしたら語彙力が下がった話
かわいくなろうとしたら語彙力が下がった話
京大 マイコンクラブ
Common Lisp入門
Common Lisp入門
京大 マイコンクラブ
多倍長整数の乗算と高速フーリエ変換
多倍長整数の乗算と高速フーリエ変換
京大 マイコンクラブ
つくってあそぼ ラムダ計算インタプリタ
つくってあそぼ ラムダ計算インタプリタ
京大 マイコンクラブ
Geometry with Unity
Geometry with Unity
京大 マイコンクラブ
セミコロンレスc++
セミコロンレスc++
京大 マイコンクラブ
エンジニアと健康
エンジニアと健康
京大 マイコンクラブ
Pietで競プロしよう
Pietで競プロしよう
京大 マイコンクラブ
もし太陽のコアがIntelCoreだったら
もし太陽のコアがIntelCoreだったら
京大 マイコンクラブ
C# ゲームプログラミングはホントにメモリのことに無頓着でいいの?
C# ゲームプログラミングはホントにメモリのことに無頓着でいいの?
京大 マイコンクラブ
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
ドット絵でプログラミング!難解言語『Piet』勉強会
ドット絵でプログラミング!難解言語『Piet』勉強会
京大 マイコンクラブ
No SSH (@nojima; KMC関東例会)
No SSH (@nojima; KMC関東例会)
京大 マイコンクラブ
DTM練習会2017第1.5回 「伴奏の付け方」
DTM練習会2017第1.5回 「伴奏の付け方」
京大 マイコンクラブ
hideya流 テストプレイ観察術
hideya流 テストプレイ観察術
京大 マイコンクラブ
暗号技術入門 秘密の国のアリス 総集編
暗号技術入門 秘密の国のアリス 総集編
京大 マイコンクラブ
Altseed
Altseed
京大 マイコンクラブ
C#でゲームを作る2016 第8回
C#でゲームを作る2016 第8回
京大 マイコンクラブ
C#でゲームを作る2016 第7回
C#でゲームを作る2016 第7回
京大 マイコンクラブ
More from 京大 マイコンクラブ
(20)
テキストファイルを読む💪 第1回
テキストファイルを読む💪 第1回
かわいくなろうとしたら語彙力が下がった話
かわいくなろうとしたら語彙力が下がった話
Common Lisp入門
Common Lisp入門
多倍長整数の乗算と高速フーリエ変換
多倍長整数の乗算と高速フーリエ変換
つくってあそぼ ラムダ計算インタプリタ
つくってあそぼ ラムダ計算インタプリタ
Geometry with Unity
Geometry with Unity
セミコロンレスc++
セミコロンレスc++
エンジニアと健康
エンジニアと健康
Pietで競プロしよう
Pietで競プロしよう
もし太陽のコアがIntelCoreだったら
もし太陽のコアがIntelCoreだったら
C# ゲームプログラミングはホントにメモリのことに無頓着でいいの?
C# ゲームプログラミングはホントにメモリのことに無頓着でいいの?
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
ドット絵でプログラミング!難解言語『Piet』勉強会
ドット絵でプログラミング!難解言語『Piet』勉強会
No SSH (@nojima; KMC関東例会)
No SSH (@nojima; KMC関東例会)
DTM練習会2017第1.5回 「伴奏の付け方」
DTM練習会2017第1.5回 「伴奏の付け方」
hideya流 テストプレイ観察術
hideya流 テストプレイ観察術
暗号技術入門 秘密の国のアリス 総集編
暗号技術入門 秘密の国のアリス 総集編
Altseed
Altseed
C#でゲームを作る2016 第8回
C#でゲームを作る2016 第8回
C#でゲームを作る2016 第7回
C#でゲームを作る2016 第7回
Recently uploaded
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Recently uploaded
(10)
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
女の子になれなかった人のために
1.
女の子になれなかった人のために ID:spi8823
2.
自己紹介 ID: • spi8823 所属: • 工学研究科
原子核工学専攻 核材料工学研究室 M1 研究内容: • 加速器を使ってなんやかんや KMCでの活動: • ゲーム制作・DTM 趣味: • スピッツ・カラオケ・神社 内定これくしょんしてます
3.
余談/研究室での活動 水素原子の金属表面での挙動に関する研究 • 表面挙動なので表面水素密度が必要 • 加速器を使ったNRA法で表面水素密度を測定 実験は宇治キャンパスで •
泊まり込みなのでめっちゃ自炊する
4.
女の子 「早く 女の子になりたい!」
5.
女の子になるには 醜い体…… • 女装? • 骨格はどうしようもない…… 醜い心 •
どうしようもない…… 醜い声 • どうしようもない…… • ほんまか?
6.
動機 女の子の声になりたい!! スピッツの声で歌いたい!! コナン君が持ってるような変声機さえあれば…… • 調べてみると自分でも作れそうな雰囲気 • 偉い人がもう作ってくれてるのは御愛嬌
7.
そこで分析合成 音声の発生機構をモデル化し,そのパラメータを符号化 • 一般に言う音声合成とは全く違うので注意! じゃないよ!! 符号化したパラメータから音声を合成する • =分析合成
8.
目標 目標1 • 分析合成を用いて入力した音声を再合成する 目標2 • 入力した音声を文章はそのままで別の音声に変換する 目標3 •
入力した音声を文章はそのままで別の人物の音声に変換する
9.
注意 このスライドは「人工知能に関する断創録」様のブログを 全面的にパクッて参考にしています • 先人に感謝!!
10.
前半:分析合成 人間の声について 声道パラメータについて 実装について デモ
11.
人間の声の構造 声帯で元となる音声が発生する 声道を通って音声が歪められる 口腔内を通って母音および子音が付加される ブザー音を声帯で発生する音声に見立て それを声道や口腔の構造を再現したフィルタを通すことで 人間の声を計算機上で再現することができる!
12.
人間の声の再現 音声のピッチを求める 音声の声道パラメータ(メルケプストラム)を求める ピッチをもとにブザー音を発生させる(=声帯で音が発生) ブザー音を声道パラメータに基づくフィルタに通す • (=喉や口を通って声が外に出る) 人間の声!!!! (http://www.kumikomi.net/archive s/2010/08/ep30gose.phpより拝借)
13.
声道パラメータの求め方 音声信号をフーリエ変換し、周波数成分にする • 本当はこれをそのまま使いたい(ほんまか?) • 典型的には1秒間に44100点とかだがデータ量が多すぎて無理 周波数成分のうち細かな変動は無視し、大まかな特徴を 捉える(=スペクトル包絡を求める) •
周波数成分が1024個とかあるのを30データぐらいにする
14.
用語解説 フーリエ変換 • ある関数をフーリエ級数という様々な周波数と位相を持った 正弦波の足し合わせで表現し、それらのパラメータを 求めること • 音声データをフーリエ変換すると その音声にどんな周波数の音が含まれているかを 調べることができる •
フーリエ変換した結果を 周波数スペクトラムとかいう (http://www.yukisako.xyz/entry/fourier-transformより拝借)
15.
用語解説 スペクトログラム • 周波数スペクトラムはある時間フレームの中の周波数を 表しているに過ぎない(つまり一瞬しか見れない) • 各フレームのスペクトラムを並べて スペクトラムの時間変化を見られるようにしたのが このスペクトログラム time
16.
スペクトル包絡の求め方 周波数スペクトルの対数をとる 対数スペクトルをさらにフーリエ変換する フーリエ変換したもの(=ケプストラム)のうち、高周波 成分のものを取り除く 処理したケプストラムをフーリエ逆変換する • =スペクトル包絡線 フーリエ変換 フーリエ変換 対数化 高周波成分を 取り除く フーリエ変換 音の信号 周波数 スペクトル 対数周波数 スペクトル ケプストラム (ローパスした) ケプストラム スペクトル 包絡
17.
用語解説 ケプストラム(cepstrum) • 信号をフーリエ変換し得られた周波数成分を対数にしたものを さらにフーリエ変換したもの • つまり、スペクトルのスペクトルという感じ •
これを用いることで周波数成分の概形を (少ない情報で)把握することができる • 音声に適用すると、人間の声から声帯の振動に起因する成分 のみを抽出できる • “spectrum”のアナグラム
18.
用語解説 メル-ケプストラム • 周波数スペクトルを聴覚に合わせた周波数軸(メル尺度)で 表したものをケプストラムにしたもの • 低い周波数ほど間隔が狭く、高いほど広くなる (http://tam5917.hatenablog.com/entry/2016/03/15/113555より拝借)
19.
用語解説 MLSAフィルター • Mel-Log Spectrum
Approximatation • メルケプストラムから音声を合成するデジタルフィルタ • 類似の働きをするものは他にもいろいろある LMA All-pole All-pole lattice MGLSA(一般化したやつっぽい) • 今回の実装はこっち
20.
実装 Pythonを使用 • 初めて使った…… SPTKという分析合成用のツールを用いる • なので細かい実装はしません
21.
SPTK Signal Processing TookKit 音声処理をするためのツール •
ピッチを検出したり • メルケプストラムを抽出したり • ケプストラムとピッチから音声を合成したりできる 今回はこれのPythonラッパー(pysptk)を用いた
22.
デモ グラフを見せたり音を鳴らしたりします その1:そのまま再合成 その2:ピッチを高くしたり低くしたり その3:ピッチを無くして無声音に
23.
これで半分ぐらい? 質問があればどうぞ
24.
限界 メルケプストラムをいじっているだけでは 女の子の声にはなれない…… ある人物Aの音声と別の人物Bの音声を解析し Aの声からBの声へと変換できるようにする • 流行りの を使えばできそう 女の子になれなくて落ち込むFさん
25.
後半:機械学習 機械学習について 前処理について 実装について デモ
26.
機械学習とは 「データから反復的に学習し、そこに潜むパターンを 見つけ出すこと」らしい 大きく分けて3種類あるらしい • 教師あり学習 一連の入力とそれらに対応する正しい出力を受け取り、 事象を予測できるようになること • 教師無し学習 データを探索してその内部に何らかの構造を見つけ出す •
強化学習 どの行動が最大の報酬を生み出すかを、試行錯誤を通して突き止める
27.
教師あり学習 GMM(混合ガウスモデル) • というモデルを今回は用いた • 多次元のガウス分布がいっぱい重なったもの •
学習させると値が推定できる • 学習 複数の(x, y)から図のような ガウス分布を見つける • 値の推定 x を与えると その x での y の期待値が求まる • 実際はこれの50次元ぐらい版 • 詳しいことは知らん!!
28.
学習のさせ方 ある人物Aの音声のケプストラム(=x)と それと全く同じ文章を読んだ ある人物Bの音声のケプストラム(=y)を 先ほどのGMMで学習させる そのままのデータを突っ込んでもうまく学習できないので データに前処理をかける
29.
前処理 AのケプストラムとBのケプストラムを見比べたとき どの部分がどの部分に対応してるのかわからない したがって、DTWという手法を使って “もっともそれっぽい”対応を取ってから学習させる (断創録さまより拝借)
30.
DTW DTW(Dynamic Time Wrapping)とは •
動的時間伸縮法 • 時系列データの類似度を測る手法の1つ • 察するに話す速さとか間の置き方とかを いい感じに伸縮してくれるっぽい (http://sinhrks.hatenablog.com/entry/2014/11/14/232603より拝借)
31.
実装 機械学習 • scikit-learn(sklearn)というライブラリを使った • 界隈では一番有名なやつらしい DTW •
dtwというライブラリを使用
32.
デモ テスト用の音声を使った機械学習の結果を見せます
33.
休憩 質問とか無いですか
34.
本題 ここで満足はできない “““自分の声”””を女の子の声にしたいんだ!!! 自分の声のサンプルと女の子の声のサンプルを 機械学習させれば女の子の声になれる!!
35.
学習用のデータを用意① グーグルを開く ゴニョゴニョっとする 木曾ちゃんのボイスデータが いっぱい手に入る!! いいぞ!!
36.
学習用のデータを用意② マイクを用意する カラオケに行って歌う 先ほど用意した音声を聞きながら 木曾ちゃんのセリフを真似する • (精神的)苦行 • 録音した自分の声を自分で聞くことほど 辛いものはない •
隣の部屋の人ごめんなさい
37.
学習させる ケプストラムを求め、DTWし、GMMで学習させる ここで障害が発生 • 拾ってきたデータだけエラーが吐かれる…… • どうやら完全な無音(データが0)が続くとダメらしい •
小さい雑音を鳴らしておくことで解決!
38.
試してみる マイクで録音して実際にやってみる ピッチを変えただけの声と比較 それっぽくなってる? • 最適なパラメータがわからん……
39.
Q.女の子になれた? A.なれそう • 女の子への道は長い……
40.
まとめと課題 まとめ • 分析合成とその周辺の知識について解説し、実演した • 機械学習と分析合成を使い、ある人物の音声を別の人物の音声 に変換する方法について解説し、実演した 課題 •
分析合成を行う際の各パラメータが合成結果にどう影響するの かについて学ぶ必要がある • 機械学習を行って合成した音声の再現度は良好とはいいがたく どうにかして改善する必要がある • ピッチは手動で書き換えたが、ここにも機械学習を使うことが できればより女の子らしくなることができると思われる • リアルタイムでやりたかった……
41.
感想 Python(とライブラリ)すげー 音声処理難しい…… • パラメータを間違えるとただのパルスが出力されたりして 難しい 女の子になりたい……
42.
以上です ご清聴ありがとうございました 質問とか言いたいこととか無いですか 酒が飲めるぞー!!
Download now