音声生成の基礎と音声学

学際情報科学論
I. 音声学と音声認識・合成
伊藤　彰則
aito@spcom.ecei.tohoku.ac.jp

この講義の概要
● 音声：音と言語のインタフェース
● 音声の生成と音声学
– 声を生み出す器官
– 人間の音声の特徴と分類
– 音声の音としての特徴
● 音声の認識
– パターン認識の枠組み
– 特徴抽出
– 音響モデル・言語モデル・デコーダ
● 音声の合成
– フォルマント合成 / 波形接続合成 /HMM 合成

音声の生成と音声学
● 人間の声はどうやって作られているのか？
● 人間の声はなぜ多様なのか？
● 人間はどんな種類の声を言語に使っているの
か？
● 発声器官と声の種類との関係は？
● 声の種類と音声の物理的性質との関係は？
● 音声の物理的性質と音声の知覚の関係は？

音声の生成
● 声を生成する器官 Organs for speech production
● 声帯 vocal cord
● 喉頭 larynx
● 咽頭 pharynx
● 舌 tongue
● 歯茎 teethridge
● 歯 teeth
● 口唇 lips
● 鼻腔 nasal cavity
声道
vocal tract

声を生成する器官
声帯
vocal cord 気管
trachea
食道
esophagus
喉頭 larynx
咽頭 pharynx
舌
tongue
軟口蓋
soft palate
硬口蓋
hard palate
鼻腔 nasal cavity
歯茎
teeth ridge
口唇
lips

声帯：声のもとを作る
前
後
声帯
食道へ
梨状窩
(梨状陥凹)
気
管
ビデオをご覧ください
vocal cord
piriform fossa

調音：音を形作る
● 調音
articulation
● 調音位置
Place of articulatuon
● 調音様式
Manner of articulation

●調音位置
Place of articulation
●母音 vowels
●前舌 / 中舌 / 後舌
●Tongue front - back
●子音 consonants
●喉頭 grottal
●咽頭 pharyngeal
●舌背 velar - palatal
●歯 alveolar - dental
●唇 labial

●調音様式
Method of articulation
–破裂音 plosive
–鼻音 nasal
–摩擦音 fricative
–流音 liquid
–はじき音 flap/tap
–ふるえ音 trill
–破擦音 affricate
ビデオをご覧ください

IPA: 音韻の表記法
● 母音 (Wikipedia より )
● 半母音 (semivowel) [w], [j]

IPA: 音韻の表記法
● 子音 (Wikipedia より )

IPA ：音韻の表記法
● 変な発音 (Wikipedia より )

音韻 (phone) と音素 (phoneme)
● 音韻：人間が発声する、区別できる音
● 言語によらない
● すべての言語ですべての音韻を言語的に区別す
るわけではない
– 複数の音韻が区別されない（異音）
– 言語として使われない音韻がある
● 音素：言語的に区別される音の最小単位
● 音韻と必ずしも一対一に対応しない
● 例 : いろいろな「ん」の音韻（音素は一つ）
– あんがい [ŋ] / あんざい [n] / あんばい [m]

音素 (phoneme) と音節 (syllable)
● 音節 (syllable) ：子音 (C) と母音 (V) からなる音
の塊 (cluster)
● happiness [hæ-pi-nis] 3 音節
● unscramble [ʌn-skræm-bəl] 3 音節
● 音節の構造
● 0 個以上の子音
● 母音（長母音、多重母音）
● 0 個以上の子音
● 長い音節例： scratched [skræʧt] CCCVCC

音声の生成と音声波形
● 音声の生成は物理的にどういう過程か
● 音声波形の特徴はどこにあるのか
● 音声の特徴と発音の関係は

音響管モデル
● 人間の発声機構は
管楽器に似ている
声帯声道
喉頭
唇
鼻腔
声の高さ
発声内容
個人性

音韻性と個人性
声帯声道
喉頭
唇
鼻腔
この辺の形は
自分で制御できる

音韻性と個人性
声帯声道
喉頭
唇
鼻腔
この辺の形，全体の長さ，平均
的な太さなどは自分で制御できな
い

音声の波形
● 結構複雑です
/a/ /i/ /u/
/o//e/

音声の波形
● 複雑だけどおおむね周期的
基本周期
基本周期 T [s]
基本周波数 F0 [Hz] = 1/T

いろいろな「あ」
● 基本周波数の違う２つの /a/
● 音韻としては同じ：声道の形が同じ（と思われる）
● 波形はまったく異なる
● 物理量の何が同じなのか？

音声のスペクトル
● ２つの「あ」のスペクトル
● 大まかな形が似ている→声道形状
● 細かいギザギザは異なる→声帯音源波の周波数

音声のスペクトルとフォルマント周
波数
● F0: 基本周波数
● F1,F2,..: フォルマント (formant) 周波数
基本周波数
ホルマント周波数
F 0
F 1
F 2
F 3 F 4

母音とフォルマント周波数
●日本語 5 母音はほぼ
F1-F2 周波数で説明さ
れる
●調音とフォルマント
の対応関係
–F1 が舌の位置
(front-back)
–F2 があごの開き
(open-close)
音声合成デモ

音声の知覚
● 発声された音声を人間はどう聞いているのか
● 音声信号に含まれる要素
● 言語情報 (linguistic information)
– 言語的な内容（文字に起こせる情報）
● パラ言語情報 (para-linguistic information)
– 文字には起こせないが、発話の意味や雰囲気、
ニュアンス、感情などに関係する音声の変化
– 音声の高さ（ピッチ）、強さ（パワー）、母音
の引き延ばし、速さなどが関係している
● 非言語情報 (non-linguistic information)
– 自分ではコントロールできない個人性（性別、
体格）

母音の知覚
● 基本的にはフォルマント周波数による
● 範疇的知覚 (categorical perception)

母音の知覚
● フォルマント周波数の値だけでなく、その動き
が重要

子音の知覚
● 子音の種類ごとに異なる
● 音韻の長さ
● スペクトル概形
● パワーの時間変化
● 先行・後続母音の影響

音声生成の基礎と音声学

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

Similar to 音声生成の基礎と音声学

Similar to 音声生成の基礎と音声学 (8)

More from Akinori Ito

More from Akinori Ito (8)

音声生成の基礎と音声学