Submit Search
Upload
音声生成の基礎と音声学
•
15 likes
•
28,627 views
Akinori Ito
Follow
音声生成の基礎と音声学 東北大学大学院情報科学研究科「学際情報科学論」スライド
Read less
Read more
Education
Report
Share
Report
Share
1 of 28
Recommended
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声認識の基礎
音声認識の基礎
Akinori Ito
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
Recommended
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声認識の基礎
音声認識の基礎
Akinori Ito
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
音声の認識と合成
音声の認識と合成
Akinori Ito
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
Tom Hakamata
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
Genki Ishibashi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
SohOhara
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
音声合成の基礎
音声合成の基礎
Akinori Ito
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Shuyo Nakatani
More Related Content
What's hot
音声の認識と合成
音声の認識と合成
Akinori Ito
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
Tom Hakamata
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
Genki Ishibashi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
SohOhara
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
What's hot
(20)
音声の認識と合成
音声の認識と合成
音情報処理における特徴表現
音情報処理における特徴表現
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
ボイパの音をリアルタイムで解析してみる 〜リザバーコンピューティングを添えて〜
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
深層学習を利用した音声強調
深層学習を利用した音声強調
Viewers also liked
音声合成の基礎
音声合成の基礎
Akinori Ito
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Shuyo Nakatani
Weighting of acoustic cues shifts to frication duration in identification of ...
Weighting of acoustic cues shifts to frication duration in identification of ...
Keiichi Yasu
破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜
破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜
Keiichi Yasu
第15回機械学習勉強会・説明用ノート
第15回機械学習勉強会・説明用ノート
Etsuji Nakai
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
Yutaka Ishii
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
Pythonはどうやってlen関数で長さを手にいれているの?
Pythonはどうやってlen関数で長さを手にいれているの?
Takayuki Shimizukawa
Viewers also liked
(8)
音声合成の基礎
音声合成の基礎
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
Weighting of acoustic cues shifts to frication duration in identification of ...
Weighting of acoustic cues shifts to frication duration in identification of ...
破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜
破擦音生成時の解放に伴う破裂が摩擦音・破擦音識別に与える影響〜若年者と高齢者の比較〜
第15回機械学習勉強会・説明用ノート
第15回機械学習勉強会・説明用ノート
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
Pythonはどうやってlen関数で長さを手にいれているの?
Pythonはどうやってlen関数で長さを手にいれているの?
Similar to 音声生成の基礎と音声学
言語学概論第三回
言語学概論第三回
Kazuya Abe
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
Yuta Matsunaga
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
Akinori Ito
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
Kosuke Sugai
言語学概論第二回
言語学概論第二回
Kazuya Abe
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Kosuke Sugai
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
Kosuke Sugai
Similar to 音声生成の基礎と音声学
(8)
言語学概論第三回
言語学概論第三回
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
言語学概論第二回
言語学概論第二回
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
More from Akinori Ito
いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法
Akinori Ito
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
Akinori Ito
マルチメディア情報ハイディング
マルチメディア情報ハイディング
Akinori Ito
研究発表のやり方
研究発表のやり方
Akinori Ito
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用
Akinori Ito
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識
Akinori Ito
音楽の情報処理
音楽の情報処理
Akinori Ito
音声の生成と符号化
音声の生成と符号化
Akinori Ito
More from Akinori Ito
(8)
いろいろなプログラミング言語による互除法
いろいろなプログラミング言語による互除法
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
マルチメディア情報ハイディング
マルチメディア情報ハイディング
研究発表のやり方
研究発表のやり方
歌声分析のエンタテイメント応用
歌声分析のエンタテイメント応用
科学論文執筆・投稿にまつわる基礎知識
科学論文執筆・投稿にまつわる基礎知識
音楽の情報処理
音楽の情報処理
音声の生成と符号化
音声の生成と符号化
音声生成の基礎と音声学
1.
学際情報科学論 I. 音声学と音声認識・合成 伊藤 彰則 aito@spcom.ecei.tohoku.ac.jp
2.
この講義の概要 ● 音声:音と言語のインタフェース ● 音声の生成と音声学 –
声を生み出す器官 – 人間の音声の特徴と分類 – 音声の音としての特徴 ● 音声の認識 – パターン認識の枠組み – 特徴抽出 – 音響モデル・言語モデル・デコーダ ● 音声の合成 – フォルマント合成 / 波形接続合成 /HMM 合成
3.
音声の生成と音声学 ● 人間の声はどうやって作られているのか? ● 人間の声はなぜ多様なのか? ●
人間はどんな種類の声を言語に使っているの か? ● 発声器官と声の種類との関係は? ● 声の種類と音声の物理的性質との関係は? ● 音声の物理的性質と音声の知覚の関係は?
4.
音声の生成 ● 声を生成する器官 Organs
for speech production ● 声帯 vocal cord ● 喉頭 larynx ● 咽頭 pharynx ● 舌 tongue ● 歯茎 teethridge ● 歯 teeth ● 口唇 lips ● 鼻腔 nasal cavity 声道 vocal tract
5.
声を生成する器官 声帯 vocal cord 気管 trachea 食道 esophagus 喉頭
larynx 咽頭 pharynx 舌 tongue 軟口蓋 soft palate 硬口蓋 hard palate 鼻腔 nasal cavity 歯茎 teeth ridge 口唇 lips
6.
声帯:声のもとを作る 前 後 声帯 食道へ 梨状窩 (梨状陥凹) 気 管 ビデオをご覧ください vocal cord piriform fossa
7.
調音:音を形作る ● 調音 articulation ● 調音位置 Place
of articulatuon ● 調音様式 Manner of articulation
8.
調音:音を形作る ●調音位置 Place of articulation ●母音
vowels ●前舌 / 中舌 / 後舌 ●Tongue front - back ●子音 consonants ●喉頭 grottal ●咽頭 pharyngeal ●舌背 velar - palatal ●歯 alveolar - dental ●唇 labial
9.
調音:音を形作る ●調音様式 Method of articulation –破裂音
plosive –鼻音 nasal –摩擦音 fricative –流音 liquid –はじき音 flap/tap –ふるえ音 trill –破擦音 affricate ビデオをご覧ください
10.
IPA: 音韻の表記法 ● 母音
(Wikipedia より ) ● 半母音 (semivowel) [w], [j]
11.
IPA: 音韻の表記法 ● 子音
(Wikipedia より )
12.
IPA :音韻の表記法 ● 変な発音
(Wikipedia より )
13.
音韻 (phone) と音素
(phoneme) ● 音韻:人間が発声する、区別できる音 ● 言語によらない ● すべての言語ですべての音韻を言語的に区別す るわけではない – 複数の音韻が区別されない(異音) – 言語として使われない音韻がある ● 音素:言語的に区別される音の最小単位 ● 音韻と必ずしも一対一に対応しない ● 例 : いろいろな「ん」の音韻(音素は一つ) – あんがい [ŋ] / あんざい [n] / あんばい [m]
14.
音素 (phoneme) と音節
(syllable) ● 音節 (syllable) :子音 (C) と母音 (V) からなる音 の塊 (cluster) ● happiness [hæ-pi-nis] 3 音節 ● unscramble [ʌn-skræm-bəl] 3 音節 ● 音節の構造 ● 0 個以上の子音 ● 母音(長母音、多重母音) ● 0 個以上の子音 ● 長い音節例: scratched [skræʧt] CCCVCC
15.
音声の生成と音声波形 ● 音声の生成は物理的にどういう過程か ● 音声波形の特徴はどこにあるのか ●
音声の特徴と発音の関係は
16.
音響管モデル ● 人間の発声機構は 管楽器に似ている 声 帯
声 道 喉 頭 唇 鼻 腔 声の高さ 発声内容 個人性
17.
音韻性と個人性 声 帯 声
道 喉 頭 唇 鼻 腔 この辺の形は 自分で制御できる
18.
音韻性と個人性 声 帯 声
道 喉 頭 唇 鼻 腔 この辺の形,全体の長さ,平均 的な太さなどは自分で制御できな い
19.
音声の波形 ● 結構複雑です /a/ /i/
/u/ /o//e/
20.
音声の波形 ● 複雑だけどおおむね周期的 基本周期 基本周期 T
[s] 基本周波数 F0 [Hz] = 1/T
21.
いろいろな「あ」 ● 基本周波数の違う2つの /a/ ●
音韻としては同じ:声道の形が同じ(と思われる) ● 波形はまったく異なる ● 物理量の何が同じなのか?
22.
音声のスペクトル ● 2つの「あ」のスペクトル ● 大まかな形が似ている→声道形状 ●
細かいギザギザは異なる→声帯音源波の周波数
23.
音声のスペクトルとフォルマント周 波数 ● F0: 基本周波数 ●
F1,F2,..: フォルマント (formant) 周波数 基 本 周 波 数 ホ ル マ ン ト 周 波 数 F 0 F 1 F 2 F 3 F 4
24.
母音とフォルマント周波数 ●日本語 5 母音はほぼ F1-F2
周波数で説明さ れる ●調音とフォルマント の対応関係 –F1 が舌の位置 (front-back) –F2 があごの開き (open-close) 音声合成デモ
25.
音声の知覚 ● 発声された音声を人間はどう聞いているのか ● 音声信号に含まれる要素 ●
言語情報 (linguistic information) – 言語的な内容(文字に起こせる情報) ● パラ言語情報 (para-linguistic information) – 文字には起こせないが、発話の意味や雰囲気、 ニュアンス、感情などに関係する音声の変化 – 音声の高さ(ピッチ)、強さ(パワー)、母音 の引き延ばし、速さなどが関係している ● 非言語情報 (non-linguistic information) – 自分ではコントロールできない個人性(性別、 体格)
26.
母音の知覚 ● 基本的にはフォルマント周波数による ● 範疇的知覚
(categorical perception)
27.
母音の知覚 ● フォルマント周波数の値だけでなく、その動き が重要
28.
子音の知覚 ● 子音の種類ごとに異なる ● 音韻の長さ ●
スペクトル概形 ● パワーの時間変化 ● 先行・後続母音の影響