Submit Search
Upload
音声認識
•
Download as ODP, PDF
•
4 likes
•
1,104 views
Ryunosuke Iwai
Follow
音声認識の話
Read less
Read more
Technology
Report
Share
Report
Share
1 of 30
Download now
Recommended
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
付録 参考資料・音源 (アドリブ入門Vo.1)
付録 参考資料・音源 (アドリブ入門Vo.1)
Yukosekine
Nishimoto110126 v15-light
Nishimoto110126 v15-light
Takuya Nishimoto
Kmcn demo
Kmcn demo
Yoshinori Hayashi
音声認識における言語モデル
音声認識における言語モデル
KOTARO SETOYAMA
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
Unityで音声認識
Unityで音声認識
光喜 濱屋
RNNLM
RNNLM
Kei Uchiumi
Recommended
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
付録 参考資料・音源 (アドリブ入門Vo.1)
付録 参考資料・音源 (アドリブ入門Vo.1)
Yukosekine
Nishimoto110126 v15-light
Nishimoto110126 v15-light
Takuya Nishimoto
Kmcn demo
Kmcn demo
Yoshinori Hayashi
音声認識における言語モデル
音声認識における言語モデル
KOTARO SETOYAMA
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
Unityで音声認識
Unityで音声認識
光喜 濱屋
RNNLM
RNNLM
Kei Uchiumi
DP
DP
Ryunosuke Iwai
貪欲
貪欲
Ryunosuke Iwai
全探索2
全探索2
Ryunosuke Iwai
全探索
全探索
Ryunosuke Iwai
導入
導入
Ryunosuke Iwai
Rth number
Rth number
Ryunosuke Iwai
Glasses
Glasses
Ryunosuke Iwai
Ice
Ice
Ryunosuke Iwai
Water flow
Water flow
Ryunosuke Iwai
文字列処理
文字列処理
Ryunosuke Iwai
データ処理
データ処理
Ryunosuke Iwai
Arduino
Arduino
Ryunosuke Iwai
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
More Related Content
More from Ryunosuke Iwai
DP
DP
Ryunosuke Iwai
貪欲
貪欲
Ryunosuke Iwai
全探索2
全探索2
Ryunosuke Iwai
全探索
全探索
Ryunosuke Iwai
導入
導入
Ryunosuke Iwai
Rth number
Rth number
Ryunosuke Iwai
Glasses
Glasses
Ryunosuke Iwai
Ice
Ice
Ryunosuke Iwai
Water flow
Water flow
Ryunosuke Iwai
文字列処理
文字列処理
Ryunosuke Iwai
データ処理
データ処理
Ryunosuke Iwai
Arduino
Arduino
Ryunosuke Iwai
More from Ryunosuke Iwai
(12)
DP
DP
貪欲
貪欲
全探索2
全探索2
全探索
全探索
導入
導入
Rth number
Rth number
Glasses
Glasses
Ice
Ice
Water flow
Water flow
文字列処理
文字列処理
データ処理
データ処理
Arduino
Arduino
Recently uploaded
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Recently uploaded
(7)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
音声認識
1.
音声認識の話
2.
音声認識って ・ Siri 言わずと知れた iPhone
の 音声インターフェイス バラエティーに富んだ 受け答えに定評がある
3.
How to 音声認識 音声データから 文章データへの変換
意味解析 意味に対する適切な 処理・対応を出力 音声 → 「めもちょう」 「めもちょう」 → 「メモ帳」 → 「帳」をメモ メモ「帳」を出力
4.
How to 音声認識 音声データから 文章データへの変換
意味解析 意味に対する適切な 処理・対応を出力 音声 → 「めもちょう」 「めもちょう」 → 「メモ帳」 → 「帳」をメモ メモ「帳」を出力
5.
前提 ● 音は波形(空気の密度) →
太鼓
6.
前提 ● 音は波形(空気の密度) →
太鼓 ● 人の音声もただの音・ただの波形でしか ない → 波形として解析
7.
これを
8.
こうして j i b
u n
9.
こうじゃ じ ぶ
10.
レシピ ● ① 材料を細かく切り刻む ●
② 雛形(音声のサンプルデータ)を大量に集め る – “a” ”のサンプル、 b” …のサンプル、 – 地味に一番大変(らしい) ● ③① を②と比較して一番似てるものを選ぶ ● ④ 後は何とかする
11.
こうして
12.
そうして j j i
i i b b b u u u u n n
13.
こうじゃ j i b
u n
14.
後の課題 ● ③① を②と比較して一番似てるものを選ぶ –
「似てる」って?
15.
「似てる」の判定 → 機械学習の十八番 ● 波形の「特徴」を抽出する –
…「特徴」 顔認識における目、口、鼻とか ● 波形の特徴って? – 指標「メル周波数ケプストラム係数」
16.
メル周波数ケプストラム係数 (MFCC) ● 人間は音を音の高さごとに聞いているらしい → 音を高さごとに表したい
17.
メル周波数ケプストラム係数 (MFCC) ● 人間は音を音の高さごとに聞いているらしい → 音を高さごとに表したい →
フーリエ変換
18.
フーリエ変換(級数) ● 波をある周波数の 1
倍、 2 倍、 3 …倍、 の周 波数を持つ波たちに分解する変換 – 周波数=波の細かさ≒音の高さ ● 波の扱いが 簡単になることが多い
19.
フーリエ変換(式) ● ● ● f(x) =
20.
フーリエ変換(式) ● ● ● f(x) =
21.
フーリエ変換 = 波を扱いやすくする魔法
22.
これが
23.
こうなる
24.
次の一手 ● さっきのグラフの形のうち、 – 大まかな形:音の特性 –
細かい形:声道とかの影響 を表している(らしい) ● 大まかな形の方を求めたい
25.
大まかな形(適当)
26.
これまでのまとめ ● 周波数:波の細かさ ● フーリエ変換:波を周波数ごとに分解 ●
求めたいもの: 大まかな波の形
27.
これまでのまとめ ● 周波数:波の細かさ ● フーリエ変換:波を周波数ごとに分解 ●
求めたいもの: 大まかな波の形 = –波の形 細かい波 ● ん?
28.
結論 ● 元の波をフーリエしたものをもっかいフーリ エ ● 周波数の高いところ(波が細かい部分)は無 視 ●
周波数の低いところを使う( MFCC ) – 数値化できた!
29.
その後 ● 数値化してしまえばこちらのもの – 機械学習おじさんたちに丸投げ –
K 近傍とか色々 ● 意味解析の部分なども大体機械学習がやって くれます
30.
覚えて帰ってほしいこと ● フーリエ変換というよくわからないけどすごい 魔法があるらしい ● 微積分だってたまには役に立つ ●
以上、身近に潜む数学のお話
Download now