SlideShare una empresa de Scribd logo
1 de 21
Descargar para leer sin conexión
音声認識ツールキットKaldiを用いた
大語彙日本語音声認識
篠崎隆宏
東京工業大学
工学院 情報通信系
www.ts.ip.titech.ac.jp
1FIT 2016
自己紹介
• これまでの経歴
– 大学院時代は日本語話し言葉コーパスプロジェクト
に参加。音響モデルの作成などを担当
– アメリカUniversity of Washington (UW)、京都大学、
東工大、千葉大学を経て2013年より東工大准教授
– 音響モデルを中心とした音声認識の研究に従事
2
音声認識技術
3
音声
テキスト
テキスト
音声
音声認識
音声合成
音声アシスタント、音声自動翻訳、議事録作成、
字幕作成、対話ロボット、etc.
音声認識器の基本構成
4
A/D変換
特徴量抽出
デコーダ
(パターン認識・
探索)
音響
モデル
言語
モデル
Hello!
マイク
Kaldiツールキットの対象範囲
特徴量抽出
5
周波数分析
(G・H)
Time
デコーダへ
発話内容を表す特徴(H)
話者や抑揚等を表す特徴(G)
Time
廃棄
Gの付替・再合成実験
    HG
 'G
    HG'
元音声
Gを置換
(ブザー音より抽出)
音響モデルと言語モデル
6
 
    WPWOP
OWP
W
W
|maxarg
|maxarg

音響モデル 言語モデル
N-gram
LSTM Neural Network
GMM-HMM
DNN-HMM
デコーディング
7
HMM
音響モデル
発音辞書
N-gram
言語モデル
• 各種モデルを統合して巨大な探索空間を構成
• 最小コストパス探索問題を解くことで認識単語列を求める
モデル学習
• 音響モデルや言語モデルは、予め大量の学習
データから学習
テキスト
データ
ラベル付き
音声データ
言語
モデル
音響
モデル
学習
認識システ
ム
入力音声
認識結果
認識
Kaldi 音声認識ツールキット
• 歴史:
– 2009年のJohns Hopkins University workshopが起源
– 国際的な開発チームにより非常に活発に開発が継続
されている
– 最新の音声認識技術が多く取り入れられている
• 入手
– Githubから無料で配布
– http://kaldi-asr.org/doc/index.html
– Apache license, version 2.0
9
git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream
Kaldi実行に必要な計算機のスペック
• 大語彙認識システムを構築する場合の例
10
CPU
Core i7
メモリ
32GByte
GPU*
GeForce
GTX 970
*ゲーム用のGPUを科学
技術計算に用いるのは
メーカーの保証外(自己
責任)。動作保証が必要な
場合はTesla K20Xなど
*ディープニューラルネットワーク(DNN)の学習を行うのにGPUはほぼ必須
*Kaldiのインストールの前にCUDAをインストール
*コマンドの動作を試してみるだけならノートパソコンでも可
Kaldiツールキットの構成
11
Kaldi
独自コマンド
(src)
外部ツールキット
Openfst, IRSLM, etc.
(tools)
各種認識システム用スクリプト群(レシピ)
英語、日本語、耐雑音、etc.
(egs)
Kaldiのインストール
pikaia1 $ cd kaldi/
pikaia1 $ ls
COPYING INSTALL README.md egs misc src tools windows
pikaia1 $ less INSTALL # インストール手順の説明を読む
pikaia1 $ cd tools/ # 外部ツールキットの自動ダウンロードとコンパイル
pikaia1 $ make -j 4
pikaia1 $ cd ../src/ # kaldiコマンドのコンパイル
pikaia1 $ ./configure
pikaia1 $ make depend –j 4
pikaia1 $ make –j 4
12
CSJレシピを用いた日本語音声認識システムの構築
• KaldiがインストールされたLinuxマシン
• 日本語話し言葉コーパス(CSJ)
– 音声データはKaldiに含まれていないので別途入手
– CSJは国立国語研究所より購入可能
http://pj.ninjal.ac.jp/corpus_center/csj/
• モデル学習に必要な時間
– フルの学習を行う場合、先のスペックのPCで
3-4週間
13
用意するもの
CSJレシピについて
• 東工大篠崎研究室メンバーとアメリカMERL
研究所渡部により共同開発
• DNN構造や学習条件などのシステム
パラメタは東工大のスーパーコンピュータ
TSUBAME2.5を用い、進化計算により最適化
• CSJ標準評価セットで91%の認識精度を実現
14
CSJレシピのディレクトリ構成
15
egs
csj
conf
local
steps
utils
# 独自の処理を行うためのスクリプト
# 他のレシピと共通のスクリプト
# 他のレシピと共通のスクリプト
# 設定ファイル
s5 cmd.sh path.sh run.sh
メイン実行
スクリプト
ジョブ投入設定
スクリプト
パス設定
スクリプト
事前設定
• cmd.sh
– バッチジョブシステム実行かローカル実行かを指定する
(PCでローカル実行の場合はrun.plの使用を指定)
• path.sh
– Kaldiパッケージをインストールした場所等の設定
• run.sh
– CSJデータのパス(CSJDATATOP)
– CSJのバージョン(CSJVER)
16
DNN音声認識システムの構築と認識実験
17
pikaia1 $
pikaia1 $
pikaia1 $
pikaia1 $ nohup ./run.sh >& run.log &
# Wait 3-4 weeks …………………………………………………….
………………………………………………………………………………..
………………………………………………………………..………………
…….
CSJレシピにおけるシステム構築プロセス
18
CSJ
特徴量ファイル
ラベルファイル
GMM-HMM
最尤学習
GMM-HMM
話者適応学習
DNN-HMM
(RBM-pre-
training &
fine tuning)
DNN-HMM
系列学習
認識結果の確認
• GMM-HMM, DNN-HMMの各学習ステージ毎
に認識評価が自動で行われている
– GMM-HMM (tri-phone)の単語誤り率の確認
less exp/tri3/decode_eval1_csj/wer_10
– DNN-HMM(系列学習)の単語誤り率の確認
less exp/dnn5b_pretrain-
dbn_dnn_smbr_i1lats/decode_eval1_csj/wer_10
19
正解単語数
削除誤り挿入誤り置換誤り
正解単語数
誤認識単語数
単語誤り率


)(WER
CSJ以外のレシピについて
• データの入手先
– 多くのデータは有料
入手先:LDC等
https://www.ldc.upenn.edu/
– 一部無料のデータあり
tedlium, voxforge, etc.
• 実行時の注意
– SWB等レシピ開発がクラスタマシン上で行われてい
るものがあり、デフォルトの並列実行数のままPC上
で実行すると過負荷でマシンが落ちる。。。
20
参考資料
• Kaldiホームページ
– http://kaldi-asr.org/
• Povey先生スライド
– http://www.danielpovey.com/kaldi-lectures.html
• CSJレシピチュートリアル
– http://www.ts.ip.titech.ac.jp/demos/csjkaldi/index.
html
21

Más contenido relacionado

La actualidad más candente

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)cvpaper. challenge
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)Deep Learning JP
 
最高のScrumキメた後にスケールさせようとして混乱した話
最高のScrumキメた後にスケールさせようとして混乱した話最高のScrumキメた後にスケールさせようとして混乱した話
最高のScrumキメた後にスケールさせようとして混乱した話Arata Fujimura
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied ControlDeep Learning JP
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
Streamlitを用いた音響信号処理ダッシュボードの開発
Streamlitを用いた音響信号処理ダッシュボードの開発Streamlitを用いた音響信号処理ダッシュボードの開発
Streamlitを用いた音響信号処理ダッシュボードの開発Hiromasa Ohashi
 
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用Takeshi Sakaki
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -MPRG_Chubu_University
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset DistillationRyutaro Yamauchi
 
企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキルRakuten Group, Inc.
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 

La actualidad más candente (20)

Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成
 
最高のScrumキメた後にスケールさせようとして混乱した話
最高のScrumキメた後にスケールさせようとして混乱した話最高のScrumキメた後にスケールさせようとして混乱した話
最高のScrumキメた後にスケールさせようとして混乱した話
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
Streamlitを用いた音響信号処理ダッシュボードの開発
Streamlitを用いた音響信号処理ダッシュボードの開発Streamlitを用いた音響信号処理ダッシュボードの開発
Streamlitを用いた音響信号処理ダッシュボードの開発
 
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 

Destacado

【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~Toshihiko Yamasaki
 
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法kt.mako
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016Yota Ishida
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】Yuki Arase
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusionHiroki Mizuno
 
UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)Masa Ogata
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...Ken Sakurada
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデルKOTARO SETOYAMA
 
CVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたCVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたHiroshi Fukui
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?Hirokatsu Kataoka
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装Hirokatsu Kataoka
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksEiichi Matsumoto
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識Takuya Minagawa
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネットKen'ichi Matsui
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Hiroaki Komine
 

Destacado (20)

【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
 
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
 
UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
 
20160717 dikf
20160717 dikf20160717 dikf
20160717 dikf
 
CVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたCVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみた
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02
 

Similar a 【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生

#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版GREE VR Studio Lab
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発Ken IshiKen
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割Takuya Nishimoto
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)Yuta Matsunaga
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一悠一 鈴木
 
AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929EikoHoshino
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろうkthrlab
 
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓schoowebcampus
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーションAkinori Ito
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会Tomoyuki Kajiwara
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meetingakikom0819
 

Similar a 【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生 (20)

#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
 
AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
 
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
日中Ocr
日中Ocr日中Ocr
日中Ocr
 
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 

【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生