SlideShare a Scribd company logo
1 of 30
音声認識の話
音声認識って
・ Siri
言わずと知れた iPhone の
音声インターフェイス
バラエティーに富んだ
受け答えに定評がある
How to 音声認識
音声データから
文章データへの変換 意味解析
意味に対する適切な
処理・対応を出力
音声
→ 「めもちょう」
「めもちょう」
→ 「メモ帳」
→ 「帳」をメモ
メモ「帳」を出力
How to 音声認識
音声データから
文章データへの変換 意味解析
意味に対する適切な
処理・対応を出力
音声
→ 「めもちょう」
「めもちょう」
→ 「メモ帳」
→ 「帳」をメモ
メモ「帳」を出力
前提
● 音は波形(空気の密度) → 太鼓
前提
● 音は波形(空気の密度) → 太鼓
● 人の音声もただの音・ただの波形でしか
ない
→ 波形として解析
これを
こうして
j i b u n
こうじゃ
じ  ぶ
レシピ
● ① 材料を細かく切り刻む
● ② 雛形(音声のサンプルデータ)を大量に集め
る
– “a” ”のサンプル、 b” …のサンプル、
– 地味に一番大変(らしい)
● ③① を②と比較して一番似てるものを選ぶ
● ④ 後は何とかする
こうして
そうして
j j i i i b b b u u u u n n
こうじゃ
j i b u n
後の課題
● ③① を②と比較して一番似てるものを選ぶ
– 「似てる」って?
「似てる」の判定
→ 機械学習の十八番
● 波形の「特徴」を抽出する
– …「特徴」 顔認識における目、口、鼻とか
● 波形の特徴って?
– 指標「メル周波数ケプストラム係数」
メル周波数ケプストラム係数
(MFCC)
● 人間は音を音の高さごとに聞いているらしい
→ 音を高さごとに表したい
メル周波数ケプストラム係数
(MFCC)
● 人間は音を音の高さごとに聞いているらしい
→ 音を高さごとに表したい
→ フーリエ変換
フーリエ変換(級数)
● 波をある周波数の 1 倍、 2 倍、 3 …倍、 の周
波数を持つ波たちに分解する変換
– 周波数=波の細かさ≒音の高さ
● 波の扱いが
簡単になることが多い
フーリエ変換(式)
●
●
●
f(x) = 
フーリエ変換(式)
●
●
●
f(x) = 
フーリエ変換
= 波を扱いやすくする魔法
これが
こうなる
次の一手
● さっきのグラフの形のうち、
– 大まかな形:音の特性
– 細かい形:声道とかの影響
を表している(らしい)
● 大まかな形の方を求めたい
大まかな形(適当)
これまでのまとめ
● 周波数:波の細かさ
● フーリエ変換:波を周波数ごとに分解
● 求めたいもの:
 大まかな波の形
これまでのまとめ
● 周波数:波の細かさ
● フーリエ変換:波を周波数ごとに分解
● 求めたいもの:
 大まかな波の形
= –波の形 細かい波
● ん?
結論
● 元の波をフーリエしたものをもっかいフーリ
エ
● 周波数の高いところ(波が細かい部分)は無
視
● 周波数の低いところを使う( MFCC )
– 数値化できた!
その後
● 数値化してしまえばこちらのもの
– 機械学習おじさんたちに丸投げ
– K 近傍とか色々
● 意味解析の部分なども大体機械学習がやって
くれます
覚えて帰ってほしいこと
● フーリエ変換というよくわからないけどすごい
魔法があるらしい
● 微積分だってたまには役に立つ
● 以上、身近に潜む数学のお話

More Related Content

More from Ryunosuke Iwai (12)

DP
DPDP
DP
 
貪欲
貪欲貪欲
貪欲
 
全探索2
全探索2全探索2
全探索2
 
全探索
全探索全探索
全探索
 
導入
導入導入
導入
 
Rth number
Rth numberRth number
Rth number
 
Glasses
GlassesGlasses
Glasses
 
Ice
IceIce
Ice
 
Water flow
Water flowWater flow
Water flow
 
文字列処理
文字列処理文字列処理
文字列処理
 
データ処理
データ処理データ処理
データ処理
 
Arduino
ArduinoArduino
Arduino
 

Recently uploaded

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Recently uploaded (7)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

音声認識