SlideShare una empresa de Scribd logo
1 de 42
Descargar para leer sin conexión
音声インタフェースシステムの
効果的設計と評価に関する研究
    西本卓也(東京大学)
      2011-01-26
     博士論文公聴会


                   1
背景:音声認識技術の原理と構成
   音響的・言語的に最も可能性の高い単語列を出力する
       隠れマルコフモデル(HMM)/ベイズ決定則/N-gramモデル
       課題:頑健性,未知語


                   音声データベース                      テキストデータベース


                        学習                             学習


                     音響モデル             発音辞書          言語モデル

    入力音声                                                         認識結果
            音響分析                         探索

                   ~                               P( X | W ) P(W )
                   W  arg max P(W | X )  arg max
                            W                   W       P( X )
                                                                        2
背景:テキスト音声合成技術(TTS)
   大量データによる統計学習アプローチの成功
       課題:聞きやすさ,テキスト解析の精度

          漢字かな混じり文


           テキスト解析        合成単位選択   音声合成単位

        読み,構文情報,アクセント型
                         音声信号処理
            韻律制御

                         音声信号
        読み,基本周波数パターン,
        継続時間長,パワーパターン




                                           3
HMMを用いた音声合成
   メルケプストラム係数と基本周波数をHMMで生成
       基本周波数系列は多空間確率分布によるモデル化
       決定木クラスタリング/話者適応も可能
   実装
       HTS
       GalateaTalk
       Open JTalk
       NVDA日本語版




                  Galatea Toolkit

    mmdagent.jp
                                    4
インタフェース技術の発展                               [第1章]

   情報技術が幅広い状況で利用
       携帯電話、タブレット、ロボット・・・
       入出力:タッチ操作、加速度センサ、位置情報、グラフィックス
       音声:音声認識、音声合成、音声対話、擬人化エージェント
   実世界インタフェース             参考:増井他 情報処理学会誌 2010年7月

       自動ドア:意図(ビルに入りたい) → 行動(ドアに近づく)
           関連が明確でわかりやすい、直感的、忘れにくい
       電車に乗るために切符購入は本来不要 → Suica自動改札
           直接的でない操作や抽象的な思考を排除できる
       インタフェースの優れた慣用句(イディオム)を実現
           計算機内の情報と現実世界の融合 Tangible Bits (MIT)
           「優れたインタフェースは手品に似ている」
   インタフェース設計の知見は音声応用にも有効
                                                    5
インタフェースシステム導入原則                          [西本2008]


   適合性:ユーザの目的や状況に適合すること
       デスクトップ、モバイル、車載機器、サイネージ etc.
           本来ユーザが行うべき作業を邪魔しないこと(運転など)
                                           www.alpine.co.jp
       バリアフリー、新しい技術が新しいバリアを作らない
           視覚・聴覚が一時的に利用できない場合など
   有用性:目的達成を支援できること
       必然性、動機付け、退屈や不安の排除(楽しさ)
           外国語学習 発音の正確な認識?学習の促進?             ロゼッタストーン

   妥当性:効果測定と反復的改良
       心的負荷:二重課題法/NASA-TLX ・・・・・ 適合性
       タスク達成時間、操作回数、マウスポインタ移動量 ・・・・・ 有用性
   ユーザの行為の分析・解明 → 音声応用システムへ
                                                         6
インタフェースの理論 [1.2節]
   行為の3階層モデル [Rasmussen]
       技能ベース、規則ベース、知識ベース
   人間の情報処理特性モデル [Card et.al.]
       知覚系、認知系、運動系
           数値的に明確化 べき法則、Fitts's Law
                                  応用:Macのメニュー
   行為の7段階モデル [Norman]
       実行の淵
           目標を立てる、意図を形成する、                                   心理的
            行為系列を特定化する、行為を実行する                  実行の淵           世界

       評価の淵
           システムの状態を知覚、状態を解釈、          物理的             評価の淵
            状態と目標を比較評価                 世界
   分類:秘書型/道具型
                                                                    7
各研究の概要
   マルチモーダル入力における音声の有効利用
       音声作図システム S-tgif
           既存入力デバイス(マウス、キーボード)との役割の分担
   コンテンツとして音声を扱うインタフェース
       非同期音声会議 AVM
           人間同士の音声対話の技能を活用
           音声メッセージの視覚化とグラフィカルな操作
   音声対話システムの使いにくい箇所を発見
       二重課題法によるインタフェース評価
           時間分解能の重要性
   音声出力システムの設計指針
       超早口音声の聞き手の構えの検討
           内容に対する「気づき」の影響
                                         8
インタフェースの原則 [1.3節]
   既存知見の再構成:モダリティに非依存な検討
   インタフェースの基本原則 [小林1993] [西本1994]
       操作労力
           位置移動最尐、指定操作回数最尐、指定操作容易性
       システムの透過性
           理解容易性、手順連想容易性、フィードバック
       頑健性
           誤入力防止、修復容易性
   インタフェースの構成原則 [小林1993]
       初心者保護
       熟練者優遇
                                    視覚障害者のための電子メール環境の検討
       上級利用移行支援                                 [西本 2000]


                                                         9
音声利用作図システムの設計                                 [第2章]
   目的:マルチモーダル入力における音声の有用性を示す
       音声を他の入力手段と協調して利用する
           本研究の貢献:インタフェース原則論に基づいた設計と評価
              先行事例: VLSI CAD [Martin 1989]

   作図タスク(tgif)
       マウスのみでは煩雑
           モード切替:描画・修正
           キャンバス上の座標指定
       キーボードショートカット
           使える数:普通10個程度
           覚えるのが困難
   音声入力が担うべき役割
       キーボードの代替とその拡張
                                                      10
S-tgif: 操作労力と透過性の配慮
   配慮:操作労力(音声有利)
       ポインタを動かさずに「直線」など音声コマンドを使用
           マウス操作における手の移動を減尐
       メニューの深い階層にあるコマンドを音声で呼び出し
           操作回数を減尐
   配慮:システム透過性(音声不利)
       状態の理解容易性
           キャンバスから視点を動かさず操作
           描画モードをマウスポインタの形状で
       手順連想容易性
           機能から連想される複数のコマンド
                                実装:単語単位の離散HMM
       フィードバック                 約80語の不特定話者認識
                                複数のワークステーションで分散処理
           入力受理の効果音・結果表示
                                結果をキーイベントとしてtgifに送信
                                                      11
S-tgif: 頑健性と構成原則の配慮
   配慮:頑健性
                                          あお
       修復容易性
           属性の変更(図形の色など):取り消さずに言い直せばよい   あお
           取り消しを操作しやすいキーに割り当てる
       非コマンド発話の棄却:フロアマウントのマイク使用
           ユーザは非コマンド発話で意識的にマイクから顔を遠ざける
   配慮:構成原則
       初心者向けの構成
           音声とマウスによる操作
       熟練者向けの構成
           キーボードとマウスによる操作
       上級利用移行支援
           コマンドと認識結果にキーボード操作を併記

                                               12
S-tgif: 評価実験
   目的:音声利用の有無の効果の確認
       3セッション:学習の効果/利用中断(2ヶ月)の影響
   方法:課題を与え提案システムで作図させる
       被験者:16人(一部は8人)の理工系の学生
       測定(ログおよびビデオの解析)
           操作時間、マウスカーソル移動量、コマンド操作回数
           説明変数:音声有無、慣れ・課題の差、グループの影響、個人差
       アンケート調査
           操作の軽快さ
           やりたい操作を実現する方法の分かりやすさ
           ある状況で使える操作と使えない操作の区別
           図形の変形や移動などの操作の簡単さ
           疲労感の改善
             上記5項目のうち最も重要なものはどれか
                                            13
S-tgif: 実験結果
   労力最尐化:音声なしを100%とした削減効果                                                                     s1: 第1セッション

                                                                                                     練習
                操作時間とマウス移動量で顕著な効果
                                                                                               s2: 第2セッション
                アンケート:疲労感の軽減、作業の軽快感に貢献
                                                                                                    2か月休止
   透過性:「わかりやすさ」高評価
                                                                                               s3: 第3セッション


                       操作時間                             マウス移動量                             コマンド数
                 120                               80                               140
                 110                                                                130
                                                   70
                                                                                    120
                 100
    Effect (%)




                                      Effect (%)




                                                                       Effect (%)
                                                   60                               110
                 90                                                                 100
                                                   50                                90
                 80
                                                                                     80
                 70                                40
                                                                                     70
                 60                                30                                60

                       s1   s2   s3                     s1   s2   s3                      s1   s2     s3

                 s1およびs3で削減効果                       常に顕著な削減効果                              効果なし
                                                                                                             14
S-tgif: まとめ
   基本原則
       労力最尐化、透過性の原則を満たせた
           音声のもつ操作性、手順連想容易性の効果
       頑健性:修復容易性を実現できた
           誤認識のうち操作を取り消した割合は14% (認識率 86% )
   構成原則
       初心者保護:キー入力の覚えにくさを補う効果
       熟練者優遇:効果は目立ちにくいが価値はあった
           練習後も「色の変更」などは音声利用が支持された(常に90%以上)
       作業効率の向上に結び付く音声利用
   音声入力の有効な利用
       選択肢が多く、言葉で表現しやすい属性の指定

                                               15
AVM: 肉声によるメッセージの利用
   文章入力のための音声認識
       1990年代後半:PC用ディクテーションソフトの実用化
       近年:Android 音声認識 API (Google)
   目的がコミュニケーションである場合
       労力:肉声は文字よりも楽
       理解容易性:豊かなコミュニケーション セキュリティ向上
       熟練者優遇:話し言葉の「技能」を生かすべき
   人間はどんな効率的な会話を?
       漸次性:思いつくままに次々に喋る、省略
       オーバラップ発話・相槌:お互いに理解状況を開示する
           透過性の原則が話者間でも重要 → Robisuke 研究(早大)
   Asynchronous Virtual Meeting (AVM)の提案
                                               16
AVM: 音声メッセージの相互参照
   非同期型メディアによる双方向的な議論
   例:読んだ発言の一部を引用しコメントする
       どの発言に対する返答であるか
       発言のどの部分に注目しているか
   提案:音声ではオーバラップ発話を活用
       どの発言に対して、割り込みが行われたか
       発言のどの部分の再生中に、割り込みが行われたか
   音声再生中に自由なタイミングで割り込みを許す
   日常会話から類推しやすい操作体系
   メッセージの関連付けをユーザに委ねる


                                  17
AVM: メッセージのツリー構造
   始終端検出により区切られた音声
   その音声に付随する付加情報
    再生音声 おはよう。今朝も冷えますね。ところで・・

        返答音声      おはよう
                                        そうですね。
       音声の録音と同時に、再生音声との
        時間的関係を示すリンク情報が追加される
そういえば、プロ野球の人数は?   わかる?
                                        付加情報
                                        メッセージ
          はい      60人程度だと。 たしか。

                          そうそう

                            近いといえば・・・

                         あんまり知らない。
                                                 18
AVM: 再生と録音の方法
   再生:メッセージを Insert/Overlap 属性で制御
       Overlap :相槌のような短い発話に有効
       Insert : 長い発話を聞きやすく再生
    親メッセージ       会議ですが   延期になりまして                   それで
    子メッセージ               はい            そうなんですか
                         Overlap           Insert


   録音:システム再生中のユーザ発話
       「非相槌」(長い文章)を喋った場合
            発話継続長が閾値を超えたらシステムは再生音声を止める
       閾値を超えない短い発話なら再生を止めずに録音
       BISP(Barge In to Stop Playing) 延期になりまして
                                        そうなんですか
                                                          19
AVM: 再生音声の作成手順
メッセージ構造     そういえば、プロ野球の人数は?         わかる?

                   はい
                                    60人程度だと。 たしか。
                   overlap

                                           そうそう
                                            overlap
(1) ルートのメッセージを検索
                                            近いといえば・・・
 そういえば、プロ野球の人数は?

(2) 子となるメッセージを再帰的に検索、付加情報を元に親メッセージに挿入
   ただしOverlapメッセージは無視する

 そういえば、プロ野球の人数は?   60人程度だと。    近いといえば・・・     たしか。 わかる?


(3) 元メッセージとの相対時間を元にOverlapメッセージを付加する
 そういえば、プロ野球の人数は?   60人程度だと。 たしか。 わかる?
                   わかる?      近いといえば・・・      たしか。 わかる?
       はい                    そうそう

                                                         20
AVM: 試作システム
   Voyager: ユーザエージェント
       Windows上で動作/全二重録音再生機能
   Voxer: メッセージ受信サーバ/対話再生サーバ
       Perlで実装
       データベース登録
       再生音声作成
        ユーザ      送信
                        サーバ
                      メッセージ受信サーバ
                         登録・蓄積
        クライアント
                 要求
        録音/再生
                       対話再生サーバ
                      再生メッセージ作成

                 送信




                                   21
AVM: 非同期音声会議の実験
   目的:文字に対する音声会議の優位性を示す
   課題:クイズを提示し、チーム内で議論し結論を出させる
   AVMとBBSの2つのシステムで実験
       AVMの音声認識にはViaVoice98(IBM)を使用
       録音された音声を実験者がリスピークしてその結果をシステムに登録
   研究室(京都工芸繊維大学)内の学生各5名1チーム
   実験後にアンケートを実施
次にあげるスポーツのうち、プロ選手登録数が1000人に
一番近いスポーツをあげてください。
競輪、競艇、騎手(中央競馬会)、ボウリング、サッカーJ1リーグ、
スノーボード、オートレース、野球、Vリーグ




                                          22
AVM:音声と文字のメッセージ比較
   AVM:話し言葉的で短く簡潔、くだけた表現
       例:「60人ちゃうかったっけプロ野球って」
       簡潔なメッセージによるコミュニケーション
   BBS:書き言葉的で長い文章
       例:「70多くて80人が1球団の現役選手であると思います」
   考察                                   60




                         全メッセージ中の割合[%]
                                         50
       非同期の音声会話を実現
                                         40
       話し言葉の漸次性を活用                      30
                                                                                                     AVM
                                                                                                     BBS
       音声認識も有効利用                        20

       発言のしやすさ                          10

           ユーザの慣れの要素も                    0
                                              0-50   51-   101- 151- 201- 251- 301- 351- 401- 451-
                                                     100    150 200 250 300 350 400 450 500

                                                           1メッセージ中の文字数[文字]


                                                                                                       23
認知的負荷と音声対話 [第4章]
   音声:時間や場所を選ばない(ユビキタス)
       ハンズフリー:キー操作やポインティング不要
       アイズフリー:画面への注意が不要
   要求:認知的負荷が低いこと(マインドフリー)
       たくさん考えなくても使える=使いやすい
           覚える/探す/推論する/注意する...
       他のことを同時にやれる余裕がたくさんある
           速く歩いているときに難しい質問を受けると?歩く速さを保てない
           自動車を運転する...
   音声対話システム:「ご用件をどうぞ」
       どんな用件をどのように喋ってもよい?
       実際には多くのシステムで制約あり
           何をどう喋ればよいのか考えてしまう
                                             24
音声インタフェースの比較評価
   単純にシステム同士の比較はできない
   音声対話の負荷は時間変化する
       システムの優务は「特定の悪い箇所」に左右される
       どこかで失敗するとタスク達成不可能
   設計者の要求
       負荷の高いところを探してできるだけ下げたい
       感度だけでなく時間分解能の高い評価手法が必要
   既存の手法を音声に適用するときに何を配慮?
       実験条件を統制しにくい?
       タスクに適合する手法?
   二重課題法

                                  25
二重課題法による評価
   原理:心的キャパシティ一定の法則
   第二課題の成績によって第一課題の負荷を測る

第一課題に必要な             第二課題に必要な
 認知的負荷                認知的負荷
 同時に行うと
必要な認知的負荷
            キャパシティ
実際に費やされる
 認知的負荷
                       第二課題の成績が高いならば
                        第一課題の負荷が小さい

                                       26
二重課題法:第二課題の選択
   先行研究:音声利用の負荷測定
       清水 他(2000) 認知的負荷(安全性)については有意性が得られず
       Strayer 他(2001) 測定できないのか影響がないのか不明な場合も
   要求=認知的負荷の比較しやすさ
       時間分解能の高さ(所要時間の短さ)
       適切な負荷:「第一課題を優先する」という教示を守りやすい
       反復しても慣れの効果が出にくい
   提案:早押しゲーム
       2~3秒周期で提示
       応答時間を記録
   前提
       手と目=ゲーム
       耳と口=音声対話
                                            27
矢印の向きが一致すれば○



               を押す




               を押す



                     28
音声対話システムの評価実験
   課題:レストラン情報の検索
       車載音声対話システム(インターネット対応カーナビ)を想定
   実装:VoiceXML
       Nuance Voice Web Server (オムロンによる日本語版)
       状態遷移モデルによる対話記述
       バージイン可 入力は音声のみ
   対話の流れ
       サービス選択メニュー
       検索条件「現在地から10分以内のレストラン」
       絞込条件「一番予算の安い中華料理」
       候補提示:1件ずつ選んで金額を聞いて比較
       予約


                                                29
負荷の大きさと対話の内容
 S1      S2        S3         S4       S5         S6
  メ       周       レ           レ        候            サ
  イ               ス           ス                   決ー



                    (
          辺                            補詳
                  トジ          ト




                               (
  ン                                    提細         定ビ
  メ
          情       ラャ          ラ予       示情         ・ ス
  ニ       報       ンン          ン算                  予
                  絞ル                   /報         約終




                               )
  ュ       検                   絞
                    )
  ー       索       込           込        選            了
          を                            択
          選
          択                    現在地から10分以内でお一人様の予算が
                               1500円以下の中華レストランは4件あります。
                               レストラン名は、…
こちらは周辺情報サービスです。ジャンルと、
現在地からの所要時間で周辺情報を検索します。             固有名詞の聞き取り
ジャンルは、レストラン、アミューズメント、スポーツ、…
                                   予算の比較
  あいまいな情報要求                        記憶負荷を要求
                                                         30
結果:対話状態と応答時間の個人差
応答時間(ミリ秒)
2400                                    実験条件
2200                                        被験者5名 各1対話
2000
1800
                                        2要因の分散分析
1600                                        対象:移動平均値
1400                                        要因:被験者,対話状態
1200
                                            交互作用が有意(F=2.42)
1000
 800                                    応答時間の平均
 600                                        S2が長い(2名有意)
 400
                                            S5が長い(2名有意)
 200
       S1   S2   S3   S4   S5   S6




                                                               31
二重課題法:まとめ
   音声インタフェースに適した手法(第二課題の設計)
       高負荷箇所の特定 被験者内比較が可能
   第2課題の応答時間の例(太線:5点の移動平均)
応   900
答
時   800
間
(
ミ   700
リ
秒
)   600

    500

    400       負荷の高い場所
                               経過時間(秒)
    300
          0   60   120   180   240   300
                                           32
超早口音声の聞き手の構え                                [第5章]

   視覚障害者:短時間で情報取得→最高速度を好む
       超早口音声 : 「慣れれば聞き取れる」?
       録音音声を話速変換して聴取実験 [浅川 他 2003, 2005]
           スクリーンリーダの熟練者による評価
              最適速度(単語了解度90%):19.5 モーラ/秒
              最高速度(単語了解度50%):25.0 モーラ/秒
       HMM音声合成の聴取(18-30 モーラ/秒)
           被験者:大学生/高齢者 [西本 他 2006, 2007]
           話者モデル改良の有効性は示せていない
   実際の利用状況に近い実験タスクを設計しにくい
       音声研究者はATR503文を聞き取る能力が高い
   仮説:「聞き手の構え」の影響
       単語親密度 「いまふう」>「いちはつ」

                                                    33
超早口音声聴取の仮説
   「構え」と「戦略」
       「知っている(知らない)単語」だと思うことに意味がある?
       「親密度の高低の判断」も負荷?
   ボトムアップ処理
       各モーラの聞き取り(単語親密度が低いほど)
           心的負荷:高い?             学習・知識
                          刺激
           学習効果:現れにくい?
   トップダウン処理              知覚     話者・声

       心的辞書アクセスに頼る
                          認識     心的辞書
           心的負荷:低い?
                          短期記憶
                                 長期記憶


                           回答

                                         34
親密度を統制した超早口音声
   FW03 (NII-SRC)[天野他 2006]
       単語了解度試験のための音声データベース
           4段階の親密度=日本語親密度DBに基づいて作成
           4モーラ単語、0型および4型アクセントのみを選択
           1グループ(50単語)ごとに音韻バランスを考慮
           話速を統制して収録
           レベル調整済み、サンプリング周波数48KHz
       評価対象:男性話者1名の音声
   親密度4群から最高 (FH) / 最低 (FL) の2群を使用
   刺激音声の作成
       話速変換:反復計算で振幅と位相を最適化する処理
       4倍速音声=約20モーラ/秒
   モーラ単位の了解度を集計
                                       35
超早口音声:実験の手順
   50単語x3試行 16秒間隔で提示
       全員が大学生(女性)
       PC とヘッドフォンを1人1式使用
       キーボードからローマ字で回答
   実験1:親密度教示なし
       被験者 (N=59) を4群に分割(G1-G4)
       単語親密度のヒントは教示しない
   実験2:親密度教示あり
       被験者 (N=30) を4群に分割(G5-G8)
       単語親密度のヒントを画面に教示
           「構え」の効果を明確にしたい


                                   36
NASA-TLXによる負荷の測定
   「聞く戦略」を知る手段として心的負荷を使いたい
   NASA-TLX (Task Load Index) [Hart & Staveland 1998]
       主観評価の一手法:扱いやすく感度が高い
       下位尺度 → Weighted Workload (WWL)
           知的・知覚的要求、身体的要求、タイムプレッシャー、努力、
            フラストレーション、作業成績の悪さ

    説明(文字と音声)       順位決定                         各尺度の評価
                                                         6つの各尺度の
                                    課題の遂行                評定値:0-100




                                                   過去の評定値も表示
                  評定値の重み(6-1)             休憩       大小関係を意識させる


                                                                     37
結果:HHH条件とLLL条件
        親密度 H-H-H                                        親密度 L-L-L
        教示なし      教示あり                                   教示なし                      教示あり
                  了解度と負荷の変化 HHH条件                                      了解度と負荷の変化 LLL条件

 90.0                                                 90.0

 80.0                                                 80.0

 70.0                                                 70.0

 60.0                                           負荷    60.0                                           負荷

 50.0                                           了解度   50.0                                           了解度

 40.0                                                 40.0

 30.0                                                 30.0
        E1-T1 E1-T2 E1-T3   E2-T1 E2-T2 E2-T3                E1-T1 E1-T2 E1-T3   E2-T1 E2-T2 E2-T3


ずっとFHだが                      FHであることが                        FLの教示=有用な情報ではない?
最初は自覚できない                    教示された

トップダウン情報が                    最初から
最初は活用できない                    トップダウン情報が
                             活用された
だんだん活用促進

                                                                                                      38
結果:LLH条件とHHL条件
       親密度 L-L-H                                         親密度 H-H-L
       教示なし                 教示あり                         教示なし                    教示あり
                 了解度と負荷の変化 LLH条件                                       了解度と負荷の変化 HHL条件
90.0                                                  90.0

80.0                                                  80.0

70.0                                                  70.0

60.0                                           負荷     60.0                                            負荷

50.0                                           了解度    50.0                                            了解度

40.0                                                  40.0

30.0                                                  30.0
       E1-T1 E1-T2 E1-T3   E2-T1 E2-T2 E2-T3                 E1-T1 E1-T2 E1-T3    E2-T1 E2-T2 E2-T3


       FLからFHへ:WWL低下                                 FHからFLへ                     FHからFLへの
       戦略の切り替えが起きた                                   トップダウン情報が                   切り替えで
                                                     活用できなくなり                    WWL変化なし
       教示があってもなくても                                   変化を知覚                       ※うまく解釈できない
       気づきやすい?



                                                                                                           39
超早口音声の聴取:まとめ
   仮説の検証
       「親密度が高いと教示」「親密度が高いと自覚」
       心的辞書アクセスが促進(トップダウン情報)
       心的負荷が低くなり、了解度が高くなる
   示唆:正しく楽に聞き取るための手がかり
       「慣れ」と密接に関連
            「どういう内容か推測して聞く」「どういう内容かを判断する」
   合成音声の品質を適切に評価するための実験方法
   今後の課題
       長期間における学習効果/加齢の効果
       テキスト合成音声への応用
       セキュリティ:音声CAPTCHA [Nishimoto2010]


                                             40
結論
   インタフェース設計の方法論
       音声認識・音声合成の効果的な応用
       音声インタフェースの評価手法の高度化
       普遍的な原則は有効
           音声に依存せず様々なインタフェース技術の応用に貢献
   展望:情報技術におけるモダリティの自由度
       Web : テキストを中心とするユニバーサルな技術
                                                                  画像
           アクセシビリティ:モダリティ選択の観点から
           単純なモダリティ置換では不十分
                                                                  テキスト   触覚
       成功したインタフェースがなぜ成功したか
                                                                  音声


                BMPK ケージーエス(株)
                                 NTTドコモ らくらくホン   Apple iPhone 4               41
研究実績
   学術誌原著論文(第一著者):4編
       西本 卓也, 志田 修利, 小林 哲則, 白井 克彦:
        "マルチモーダル入力環境下における音声の協調的利用-音声作図システムS-tgifの設計と評価-,"
        電子情報通信学会論文誌, Vol.J79-D-II, No.12, pp.2176-2183, Dec 1996.
       西本 卓也, 幸 英浩, 川原 毅彦, 荒木 雅弘, 新美 康永:
        "非同期型音声会議システムAVMの設計と評価,''
        電子情報通信学会論文誌 , Vol.J83-D-II, No.11 pp.2490-2497, Nov 2000.
       西本 卓也, 高山 元希, 櫻井 晴章, 荒木 雅弘:
        "音声インタフェースのための対話負荷測定法,"
        電子情報通信学会論文誌 , Vol.J87-D-II, No.2, pp.513-520, Feb 2004.
       西本 卓也, 渡辺 隆行:
        "単語親密度を統制した超早口音声の聴取に対する慣れの検討,"
        電子情報通信学会論文誌 Vol.J94-D No.1, pp.209-220, Jan 2011.

   学術誌原著論文(第一著者でないもの):9編
       講演(査読つき国際会議予稿):49編
       講演(研究会):78編 / 講演(全国大会・シンポジウム):74編
       総説(学術誌の解説、講座等):5編
       著書(共著・寄稿):7編 / 学術誌論文(翻訳):3編

                                                               42

Más contenido relacionado

Similar a Nishimoto110126 v15-light2

人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)KIT Cognitive Interaction Design
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction ToshihiroMISHIBA
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術Komei Sugiura
 
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)KIT Cognitive Interaction Design
 
A 1-4 azure × metro style apps~ azure ではじめるmetro スタイル アプリ~
A 1-4 azure × metro style apps~ azure ではじめるmetro スタイル アプリ~A 1-4 azure × metro style apps~ azure ではじめるmetro スタイル アプリ~
A 1-4 azure × metro style apps~ azure ではじめるmetro スタイル アプリ~GoAzure
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究Takashi Kishida
 
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~Preferred Networks
 
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...KIT Cognitive Interaction Design
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
TensorflowとKerasによる深層学習のプログラム実装実践講座
TensorflowとKerasによる深層学習のプログラム実装実践講座TensorflowとKerasによる深層学習のプログラム実装実践講座
TensorflowとKerasによる深層学習のプログラム実装実践講座Ruo Ando
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究Takashi Kishida
 
Sigir2013 勉強会資料
Sigir2013 勉強会資料Sigir2013 勉強会資料
Sigir2013 勉強会資料Mitsuo Yamamoto
 
音声インタフェースとWebアクセシビリティ
音声インタフェースとWebアクセシビリティ音声インタフェースとWebアクセシビリティ
音声インタフェースとWebアクセシビリティTakuya Nishimoto
 
Go azure5 16 9_提出用
Go azure5 16 9_提出用Go azure5 16 9_提出用
Go azure5 16 9_提出用Mami Shiino
 
【Sb】カンバン×chatで変わる運用
【Sb】カンバン×chatで変わる運用【Sb】カンバン×chatで変わる運用
【Sb】カンバン×chatで変わる運用tairas01
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 

Similar a Nishimoto110126 v15-light2 (20)

人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術
 
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)
 
A 1-4 azure × metro style apps~ azure ではじめるmetro スタイル アプリ~
A 1-4 azure × metro style apps~ azure ではじめるmetro スタイル アプリ~A 1-4 azure × metro style apps~ azure ではじめるmetro スタイル アプリ~
A 1-4 azure × metro style apps~ azure ではじめるmetro スタイル アプリ~
 
インターネット上の多目的な 音声伝送システムに関する研究
インターネット上の多目的な音声伝送システムに関する研究インターネット上の多目的な音声伝送システムに関する研究
インターネット上の多目的な 音声伝送システムに関する研究
 
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
 
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
TensorflowとKerasによる深層学習のプログラム実装実践講座
TensorflowとKerasによる深層学習のプログラム実装実践講座TensorflowとKerasによる深層学習のプログラム実装実践講座
TensorflowとKerasによる深層学習のプログラム実装実践講座
 
インターネット上の高品質な 遠隔コラボレーションに関する研究
インターネット上の高品質な遠隔コラボレーションに関する研究インターネット上の高品質な遠隔コラボレーションに関する研究
インターネット上の高品質な 遠隔コラボレーションに関する研究
 
Sigir2013 勉強会資料
Sigir2013 勉強会資料Sigir2013 勉強会資料
Sigir2013 勉強会資料
 
音声インタフェースとWebアクセシビリティ
音声インタフェースとWebアクセシビリティ音声インタフェースとWebアクセシビリティ
音声インタフェースとWebアクセシビリティ
 
Go azure5 16 9_提出用
Go azure5 16 9_提出用Go azure5 16 9_提出用
Go azure5 16 9_提出用
 
【Sb】カンバン×chatで変わる運用
【Sb】カンバン×chatで変わる運用【Sb】カンバン×chatで変わる運用
【Sb】カンバン×chatで変わる運用
 
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
ハプティックロボットによる口腔外科手術支援の試み
ハプティックロボットによる口腔外科手術支援の試みハプティックロボットによる口腔外科手術支援の試み
ハプティックロボットによる口腔外科手術支援の試み
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 

Más de Takuya Nishimoto

221217 SwiftはPythonに似ている
221217 SwiftはPythonに似ている221217 SwiftはPythonに似ている
221217 SwiftはPythonに似ているTakuya Nishimoto
 
220427-pydata 統計・データ分析 特集
220427-pydata 統計・データ分析 特集220427-pydata 統計・データ分析 特集
220427-pydata 統計・データ分析 特集Takuya Nishimoto
 
220126 python-datalake-spark
220126 python-datalake-spark220126 python-datalake-spark
220126 python-datalake-sparkTakuya Nishimoto
 
211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解するTakuya Nishimoto
 
211020 すごい広島 with OSH 2021.10
211020 すごい広島 with OSH 2021.10211020 すごい広島 with OSH 2021.10
211020 すごい広島 with OSH 2021.10Takuya Nishimoto
 
210917 オープンセミナー@広島のこれまでとこれから
210917 オープンセミナー@広島のこれまでとこれから210917 オープンセミナー@広島のこれまでとこれから
210917 オープンセミナー@広島のこれまでとこれからTakuya Nishimoto
 
210911 これから始める電子工作とMicroPython
210911 これから始める電子工作とMicroPython210911 これから始める電子工作とMicroPython
210911 これから始める電子工作とMicroPythonTakuya Nishimoto
 
210526 Power Automate Desktop Python
210526 Power Automate Desktop Python210526 Power Automate Desktop Python
210526 Power Automate Desktop PythonTakuya Nishimoto
 
191208 python-kansai-nishimoto
191208 python-kansai-nishimoto191208 python-kansai-nishimoto
191208 python-kansai-nishimotoTakuya Nishimoto
 
191101 nvda-sightworld-nishimoto
191101 nvda-sightworld-nishimoto191101 nvda-sightworld-nishimoto
191101 nvda-sightworld-nishimotoTakuya Nishimoto
 
190916 nishimoto-nvda-pyconjp
190916 nishimoto-nvda-pyconjp190916 nishimoto-nvda-pyconjp
190916 nishimoto-nvda-pyconjpTakuya Nishimoto
 

Más de Takuya Nishimoto (20)

221217 SwiftはPythonに似ている
221217 SwiftはPythonに似ている221217 SwiftはPythonに似ている
221217 SwiftはPythonに似ている
 
220427-pydata 統計・データ分析 特集
220427-pydata 統計・データ分析 特集220427-pydata 統計・データ分析 特集
220427-pydata 統計・データ分析 特集
 
220126 python-datalake-spark
220126 python-datalake-spark220126 python-datalake-spark
220126 python-datalake-spark
 
211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する
 
211020 すごい広島 with OSH 2021.10
211020 すごい広島 with OSH 2021.10211020 すごい広島 with OSH 2021.10
211020 すごい広島 with OSH 2021.10
 
210917 オープンセミナー@広島のこれまでとこれから
210917 オープンセミナー@広島のこれまでとこれから210917 オープンセミナー@広島のこれまでとこれから
210917 オープンセミナー@広島のこれまでとこれから
 
210911 これから始める電子工作とMicroPython
210911 これから始める電子工作とMicroPython210911 これから始める電子工作とMicroPython
210911 これから始める電子工作とMicroPython
 
210728 mpy
210728 mpy210728 mpy
210728 mpy
 
210630 python
210630 python210630 python
210630 python
 
210526 Power Automate Desktop Python
210526 Power Automate Desktop Python210526 Power Automate Desktop Python
210526 Power Automate Desktop Python
 
210428 python
210428 python210428 python
210428 python
 
200918 hannari-python
200918 hannari-python200918 hannari-python
200918 hannari-python
 
200429 python
200429 python200429 python
200429 python
 
200325 flask
200325 flask200325 flask
200325 flask
 
200208 osh-nishimoto-v2
200208 osh-nishimoto-v2200208 osh-nishimoto-v2
200208 osh-nishimoto-v2
 
191208 python-kansai-nishimoto
191208 python-kansai-nishimoto191208 python-kansai-nishimoto
191208 python-kansai-nishimoto
 
191101 nvda-sightworld-nishimoto
191101 nvda-sightworld-nishimoto191101 nvda-sightworld-nishimoto
191101 nvda-sightworld-nishimoto
 
191114 iotlt-nishimoto
191114 iotlt-nishimoto191114 iotlt-nishimoto
191114 iotlt-nishimoto
 
191030 anna-with-python
191030 anna-with-python191030 anna-with-python
191030 anna-with-python
 
190916 nishimoto-nvda-pyconjp
190916 nishimoto-nvda-pyconjp190916 nishimoto-nvda-pyconjp
190916 nishimoto-nvda-pyconjp
 

Último

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Último (10)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

Nishimoto110126 v15-light2

  • 1. 音声インタフェースシステムの 効果的設計と評価に関する研究 西本卓也(東京大学) 2011-01-26 博士論文公聴会 1
  • 2. 背景:音声認識技術の原理と構成  音響的・言語的に最も可能性の高い単語列を出力する  隠れマルコフモデル(HMM)/ベイズ決定則/N-gramモデル  課題:頑健性,未知語 音声データベース テキストデータベース 学習 学習 音響モデル 発音辞書 言語モデル 入力音声 認識結果 音響分析 探索 ~ P( X | W ) P(W ) W  arg max P(W | X )  arg max W W P( X ) 2
  • 3. 背景:テキスト音声合成技術(TTS)  大量データによる統計学習アプローチの成功  課題:聞きやすさ,テキスト解析の精度 漢字かな混じり文 テキスト解析 合成単位選択 音声合成単位 読み,構文情報,アクセント型 音声信号処理 韻律制御 音声信号 読み,基本周波数パターン, 継続時間長,パワーパターン 3
  • 4. HMMを用いた音声合成  メルケプストラム係数と基本周波数をHMMで生成  基本周波数系列は多空間確率分布によるモデル化  決定木クラスタリング/話者適応も可能  実装  HTS  GalateaTalk  Open JTalk  NVDA日本語版 Galatea Toolkit mmdagent.jp 4
  • 5. インタフェース技術の発展 [第1章]  情報技術が幅広い状況で利用  携帯電話、タブレット、ロボット・・・  入出力:タッチ操作、加速度センサ、位置情報、グラフィックス  音声:音声認識、音声合成、音声対話、擬人化エージェント  実世界インタフェース 参考:増井他 情報処理学会誌 2010年7月  自動ドア:意図(ビルに入りたい) → 行動(ドアに近づく)  関連が明確でわかりやすい、直感的、忘れにくい  電車に乗るために切符購入は本来不要 → Suica自動改札  直接的でない操作や抽象的な思考を排除できる  インタフェースの優れた慣用句(イディオム)を実現  計算機内の情報と現実世界の融合 Tangible Bits (MIT)  「優れたインタフェースは手品に似ている」  インタフェース設計の知見は音声応用にも有効 5
  • 6. インタフェースシステム導入原則 [西本2008]  適合性:ユーザの目的や状況に適合すること  デスクトップ、モバイル、車載機器、サイネージ etc.  本来ユーザが行うべき作業を邪魔しないこと(運転など) www.alpine.co.jp  バリアフリー、新しい技術が新しいバリアを作らない  視覚・聴覚が一時的に利用できない場合など  有用性:目的達成を支援できること  必然性、動機付け、退屈や不安の排除(楽しさ)  外国語学習 発音の正確な認識?学習の促進? ロゼッタストーン  妥当性:効果測定と反復的改良  心的負荷:二重課題法/NASA-TLX ・・・・・ 適合性  タスク達成時間、操作回数、マウスポインタ移動量 ・・・・・ 有用性  ユーザの行為の分析・解明 → 音声応用システムへ 6
  • 7. インタフェースの理論 [1.2節]  行為の3階層モデル [Rasmussen]  技能ベース、規則ベース、知識ベース  人間の情報処理特性モデル [Card et.al.]  知覚系、認知系、運動系  数値的に明確化 べき法則、Fitts's Law 応用:Macのメニュー  行為の7段階モデル [Norman]  実行の淵  目標を立てる、意図を形成する、 心理的 行為系列を特定化する、行為を実行する 実行の淵 世界  評価の淵  システムの状態を知覚、状態を解釈、 物理的 評価の淵 状態と目標を比較評価 世界  分類:秘書型/道具型 7
  • 8. 各研究の概要  マルチモーダル入力における音声の有効利用  音声作図システム S-tgif  既存入力デバイス(マウス、キーボード)との役割の分担  コンテンツとして音声を扱うインタフェース  非同期音声会議 AVM  人間同士の音声対話の技能を活用  音声メッセージの視覚化とグラフィカルな操作  音声対話システムの使いにくい箇所を発見  二重課題法によるインタフェース評価  時間分解能の重要性  音声出力システムの設計指針  超早口音声の聞き手の構えの検討  内容に対する「気づき」の影響 8
  • 9. インタフェースの原則 [1.3節]  既存知見の再構成:モダリティに非依存な検討  インタフェースの基本原則 [小林1993] [西本1994]  操作労力  位置移動最尐、指定操作回数最尐、指定操作容易性  システムの透過性  理解容易性、手順連想容易性、フィードバック  頑健性  誤入力防止、修復容易性  インタフェースの構成原則 [小林1993]  初心者保護  熟練者優遇 視覚障害者のための電子メール環境の検討  上級利用移行支援 [西本 2000] 9
  • 10. 音声利用作図システムの設計 [第2章]  目的:マルチモーダル入力における音声の有用性を示す  音声を他の入力手段と協調して利用する  本研究の貢献:インタフェース原則論に基づいた設計と評価  先行事例: VLSI CAD [Martin 1989]  作図タスク(tgif)  マウスのみでは煩雑  モード切替:描画・修正  キャンバス上の座標指定  キーボードショートカット  使える数:普通10個程度  覚えるのが困難  音声入力が担うべき役割  キーボードの代替とその拡張 10
  • 11. S-tgif: 操作労力と透過性の配慮  配慮:操作労力(音声有利)  ポインタを動かさずに「直線」など音声コマンドを使用  マウス操作における手の移動を減尐  メニューの深い階層にあるコマンドを音声で呼び出し  操作回数を減尐  配慮:システム透過性(音声不利)  状態の理解容易性  キャンバスから視点を動かさず操作  描画モードをマウスポインタの形状で  手順連想容易性  機能から連想される複数のコマンド 実装:単語単位の離散HMM  フィードバック 約80語の不特定話者認識 複数のワークステーションで分散処理  入力受理の効果音・結果表示 結果をキーイベントとしてtgifに送信 11
  • 12. S-tgif: 頑健性と構成原則の配慮  配慮:頑健性 あお  修復容易性  属性の変更(図形の色など):取り消さずに言い直せばよい あお  取り消しを操作しやすいキーに割り当てる  非コマンド発話の棄却:フロアマウントのマイク使用  ユーザは非コマンド発話で意識的にマイクから顔を遠ざける  配慮:構成原則  初心者向けの構成  音声とマウスによる操作  熟練者向けの構成  キーボードとマウスによる操作  上級利用移行支援  コマンドと認識結果にキーボード操作を併記 12
  • 13. S-tgif: 評価実験  目的:音声利用の有無の効果の確認  3セッション:学習の効果/利用中断(2ヶ月)の影響  方法:課題を与え提案システムで作図させる  被験者:16人(一部は8人)の理工系の学生  測定(ログおよびビデオの解析)  操作時間、マウスカーソル移動量、コマンド操作回数  説明変数:音声有無、慣れ・課題の差、グループの影響、個人差  アンケート調査  操作の軽快さ  やりたい操作を実現する方法の分かりやすさ  ある状況で使える操作と使えない操作の区別  図形の変形や移動などの操作の簡単さ  疲労感の改善  上記5項目のうち最も重要なものはどれか 13
  • 14. S-tgif: 実験結果  労力最尐化:音声なしを100%とした削減効果 s1: 第1セッション 練習  操作時間とマウス移動量で顕著な効果 s2: 第2セッション  アンケート:疲労感の軽減、作業の軽快感に貢献 2か月休止  透過性:「わかりやすさ」高評価 s3: 第3セッション 操作時間 マウス移動量 コマンド数 120 80 140 110 130 70 120 100 Effect (%) Effect (%) Effect (%) 60 110 90 100 50 90 80 80 70 40 70 60 30 60 s1 s2 s3 s1 s2 s3 s1 s2 s3 s1およびs3で削減効果 常に顕著な削減効果 効果なし 14
  • 15. S-tgif: まとめ  基本原則  労力最尐化、透過性の原則を満たせた  音声のもつ操作性、手順連想容易性の効果  頑健性:修復容易性を実現できた  誤認識のうち操作を取り消した割合は14% (認識率 86% )  構成原則  初心者保護:キー入力の覚えにくさを補う効果  熟練者優遇:効果は目立ちにくいが価値はあった  練習後も「色の変更」などは音声利用が支持された(常に90%以上)  作業効率の向上に結び付く音声利用  音声入力の有効な利用  選択肢が多く、言葉で表現しやすい属性の指定 15
  • 16. AVM: 肉声によるメッセージの利用  文章入力のための音声認識  1990年代後半:PC用ディクテーションソフトの実用化  近年:Android 音声認識 API (Google)  目的がコミュニケーションである場合  労力:肉声は文字よりも楽  理解容易性:豊かなコミュニケーション セキュリティ向上  熟練者優遇:話し言葉の「技能」を生かすべき  人間はどんな効率的な会話を?  漸次性:思いつくままに次々に喋る、省略  オーバラップ発話・相槌:お互いに理解状況を開示する  透過性の原則が話者間でも重要 → Robisuke 研究(早大)  Asynchronous Virtual Meeting (AVM)の提案 16
  • 17. AVM: 音声メッセージの相互参照  非同期型メディアによる双方向的な議論  例:読んだ発言の一部を引用しコメントする  どの発言に対する返答であるか  発言のどの部分に注目しているか  提案:音声ではオーバラップ発話を活用  どの発言に対して、割り込みが行われたか  発言のどの部分の再生中に、割り込みが行われたか  音声再生中に自由なタイミングで割り込みを許す  日常会話から類推しやすい操作体系  メッセージの関連付けをユーザに委ねる 17
  • 18. AVM: メッセージのツリー構造  始終端検出により区切られた音声  その音声に付随する付加情報 再生音声 おはよう。今朝も冷えますね。ところで・・ 返答音声 おはよう そうですね。  音声の録音と同時に、再生音声との 時間的関係を示すリンク情報が追加される そういえば、プロ野球の人数は? わかる? 付加情報 メッセージ はい 60人程度だと。 たしか。 そうそう 近いといえば・・・ あんまり知らない。 18
  • 19. AVM: 再生と録音の方法  再生:メッセージを Insert/Overlap 属性で制御  Overlap :相槌のような短い発話に有効  Insert : 長い発話を聞きやすく再生 親メッセージ 会議ですが 延期になりまして それで 子メッセージ はい そうなんですか Overlap Insert  録音:システム再生中のユーザ発話  「非相槌」(長い文章)を喋った場合  発話継続長が閾値を超えたらシステムは再生音声を止める  閾値を超えない短い発話なら再生を止めずに録音  BISP(Barge In to Stop Playing) 延期になりまして そうなんですか 19
  • 20. AVM: 再生音声の作成手順 メッセージ構造 そういえば、プロ野球の人数は? わかる? はい 60人程度だと。 たしか。 overlap そうそう overlap (1) ルートのメッセージを検索 近いといえば・・・ そういえば、プロ野球の人数は? (2) 子となるメッセージを再帰的に検索、付加情報を元に親メッセージに挿入 ただしOverlapメッセージは無視する そういえば、プロ野球の人数は? 60人程度だと。 近いといえば・・・ たしか。 わかる? (3) 元メッセージとの相対時間を元にOverlapメッセージを付加する そういえば、プロ野球の人数は? 60人程度だと。 たしか。 わかる? わかる? 近いといえば・・・ たしか。 わかる? はい そうそう 20
  • 21. AVM: 試作システム  Voyager: ユーザエージェント  Windows上で動作/全二重録音再生機能  Voxer: メッセージ受信サーバ/対話再生サーバ  Perlで実装  データベース登録  再生音声作成 ユーザ 送信 サーバ メッセージ受信サーバ 登録・蓄積 クライアント 要求 録音/再生 対話再生サーバ 再生メッセージ作成 送信 21
  • 22. AVM: 非同期音声会議の実験  目的:文字に対する音声会議の優位性を示す  課題:クイズを提示し、チーム内で議論し結論を出させる  AVMとBBSの2つのシステムで実験  AVMの音声認識にはViaVoice98(IBM)を使用  録音された音声を実験者がリスピークしてその結果をシステムに登録  研究室(京都工芸繊維大学)内の学生各5名1チーム  実験後にアンケートを実施 次にあげるスポーツのうち、プロ選手登録数が1000人に 一番近いスポーツをあげてください。 競輪、競艇、騎手(中央競馬会)、ボウリング、サッカーJ1リーグ、 スノーボード、オートレース、野球、Vリーグ 22
  • 23. AVM:音声と文字のメッセージ比較  AVM:話し言葉的で短く簡潔、くだけた表現  例:「60人ちゃうかったっけプロ野球って」  簡潔なメッセージによるコミュニケーション  BBS:書き言葉的で長い文章  例:「70多くて80人が1球団の現役選手であると思います」  考察 60 全メッセージ中の割合[%] 50  非同期の音声会話を実現 40  話し言葉の漸次性を活用 30 AVM BBS  音声認識も有効利用 20  発言のしやすさ 10  ユーザの慣れの要素も 0 0-50 51- 101- 151- 201- 251- 301- 351- 401- 451- 100 150 200 250 300 350 400 450 500 1メッセージ中の文字数[文字] 23
  • 24. 認知的負荷と音声対話 [第4章]  音声:時間や場所を選ばない(ユビキタス)  ハンズフリー:キー操作やポインティング不要  アイズフリー:画面への注意が不要  要求:認知的負荷が低いこと(マインドフリー)  たくさん考えなくても使える=使いやすい  覚える/探す/推論する/注意する...  他のことを同時にやれる余裕がたくさんある  速く歩いているときに難しい質問を受けると?歩く速さを保てない  自動車を運転する...  音声対話システム:「ご用件をどうぞ」  どんな用件をどのように喋ってもよい?  実際には多くのシステムで制約あり  何をどう喋ればよいのか考えてしまう 24
  • 25. 音声インタフェースの比較評価  単純にシステム同士の比較はできない  音声対話の負荷は時間変化する  システムの優务は「特定の悪い箇所」に左右される  どこかで失敗するとタスク達成不可能  設計者の要求  負荷の高いところを探してできるだけ下げたい  感度だけでなく時間分解能の高い評価手法が必要  既存の手法を音声に適用するときに何を配慮?  実験条件を統制しにくい?  タスクに適合する手法?  二重課題法 25
  • 26. 二重課題法による評価  原理:心的キャパシティ一定の法則  第二課題の成績によって第一課題の負荷を測る 第一課題に必要な 第二課題に必要な 認知的負荷 認知的負荷 同時に行うと 必要な認知的負荷 キャパシティ 実際に費やされる 認知的負荷 第二課題の成績が高いならば 第一課題の負荷が小さい 26
  • 27. 二重課題法:第二課題の選択  先行研究:音声利用の負荷測定  清水 他(2000) 認知的負荷(安全性)については有意性が得られず  Strayer 他(2001) 測定できないのか影響がないのか不明な場合も  要求=認知的負荷の比較しやすさ  時間分解能の高さ(所要時間の短さ)  適切な負荷:「第一課題を優先する」という教示を守りやすい  反復しても慣れの効果が出にくい  提案:早押しゲーム  2~3秒周期で提示  応答時間を記録  前提  手と目=ゲーム  耳と口=音声対話 27
  • 28. 矢印の向きが一致すれば○ を押す を押す 28
  • 29. 音声対話システムの評価実験  課題:レストラン情報の検索  車載音声対話システム(インターネット対応カーナビ)を想定  実装:VoiceXML  Nuance Voice Web Server (オムロンによる日本語版)  状態遷移モデルによる対話記述  バージイン可 入力は音声のみ  対話の流れ  サービス選択メニュー  検索条件「現在地から10分以内のレストラン」  絞込条件「一番予算の安い中華料理」  候補提示:1件ずつ選んで金額を聞いて比較  予約 29
  • 30. 負荷の大きさと対話の内容 S1 S2 S3 S4 S5 S6 メ 周 レ レ 候 サ イ ス ス 決ー ( 辺 補詳 トジ ト ( ン 提細 定ビ メ 情 ラャ ラ予 示情 ・ ス ニ 報 ンン ン算 予 絞ル /報 約終 ) ュ 検 絞 ) ー 索 込 込 選 了 を 択 選 択 現在地から10分以内でお一人様の予算が 1500円以下の中華レストランは4件あります。 レストラン名は、… こちらは周辺情報サービスです。ジャンルと、 現在地からの所要時間で周辺情報を検索します。 固有名詞の聞き取り ジャンルは、レストラン、アミューズメント、スポーツ、… 予算の比較 あいまいな情報要求 記憶負荷を要求 30
  • 31. 結果:対話状態と応答時間の個人差 応答時間(ミリ秒) 2400  実験条件 2200  被験者5名 各1対話 2000 1800  2要因の分散分析 1600  対象:移動平均値 1400  要因:被験者,対話状態 1200  交互作用が有意(F=2.42) 1000 800  応答時間の平均 600  S2が長い(2名有意) 400  S5が長い(2名有意) 200 S1 S2 S3 S4 S5 S6 31
  • 32. 二重課題法:まとめ  音声インタフェースに適した手法(第二課題の設計)  高負荷箇所の特定 被験者内比較が可能  第2課題の応答時間の例(太線:5点の移動平均) 応 900 答 時 800 間 ( ミ 700 リ 秒 ) 600 500 400 負荷の高い場所 経過時間(秒) 300 0 60 120 180 240 300 32
  • 33. 超早口音声の聞き手の構え [第5章]  視覚障害者:短時間で情報取得→最高速度を好む  超早口音声 : 「慣れれば聞き取れる」?  録音音声を話速変換して聴取実験 [浅川 他 2003, 2005]  スクリーンリーダの熟練者による評価  最適速度(単語了解度90%):19.5 モーラ/秒  最高速度(単語了解度50%):25.0 モーラ/秒  HMM音声合成の聴取(18-30 モーラ/秒)  被験者:大学生/高齢者 [西本 他 2006, 2007]  話者モデル改良の有効性は示せていない  実際の利用状況に近い実験タスクを設計しにくい  音声研究者はATR503文を聞き取る能力が高い  仮説:「聞き手の構え」の影響  単語親密度 「いまふう」>「いちはつ」 33
  • 34. 超早口音声聴取の仮説  「構え」と「戦略」  「知っている(知らない)単語」だと思うことに意味がある?  「親密度の高低の判断」も負荷?  ボトムアップ処理  各モーラの聞き取り(単語親密度が低いほど)  心的負荷:高い? 学習・知識 刺激  学習効果:現れにくい?  トップダウン処理 知覚 話者・声  心的辞書アクセスに頼る 認識 心的辞書  心的負荷:低い? 短期記憶 長期記憶 回答 34
  • 35. 親密度を統制した超早口音声  FW03 (NII-SRC)[天野他 2006]  単語了解度試験のための音声データベース  4段階の親密度=日本語親密度DBに基づいて作成  4モーラ単語、0型および4型アクセントのみを選択  1グループ(50単語)ごとに音韻バランスを考慮  話速を統制して収録  レベル調整済み、サンプリング周波数48KHz  評価対象:男性話者1名の音声  親密度4群から最高 (FH) / 最低 (FL) の2群を使用  刺激音声の作成  話速変換:反復計算で振幅と位相を最適化する処理  4倍速音声=約20モーラ/秒  モーラ単位の了解度を集計 35
  • 36. 超早口音声:実験の手順  50単語x3試行 16秒間隔で提示  全員が大学生(女性)  PC とヘッドフォンを1人1式使用  キーボードからローマ字で回答  実験1:親密度教示なし  被験者 (N=59) を4群に分割(G1-G4)  単語親密度のヒントは教示しない  実験2:親密度教示あり  被験者 (N=30) を4群に分割(G5-G8)  単語親密度のヒントを画面に教示  「構え」の効果を明確にしたい 36
  • 37. NASA-TLXによる負荷の測定  「聞く戦略」を知る手段として心的負荷を使いたい  NASA-TLX (Task Load Index) [Hart & Staveland 1998]  主観評価の一手法:扱いやすく感度が高い  下位尺度 → Weighted Workload (WWL)  知的・知覚的要求、身体的要求、タイムプレッシャー、努力、 フラストレーション、作業成績の悪さ 説明(文字と音声) 順位決定 各尺度の評価 6つの各尺度の 課題の遂行 評定値:0-100 過去の評定値も表示 評定値の重み(6-1) 休憩 大小関係を意識させる 37
  • 38. 結果:HHH条件とLLL条件 親密度 H-H-H 親密度 L-L-L 教示なし 教示あり 教示なし 教示あり 了解度と負荷の変化 HHH条件 了解度と負荷の変化 LLL条件 90.0 90.0 80.0 80.0 70.0 70.0 60.0 負荷 60.0 負荷 50.0 了解度 50.0 了解度 40.0 40.0 30.0 30.0 E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3 E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3 ずっとFHだが FHであることが FLの教示=有用な情報ではない? 最初は自覚できない 教示された トップダウン情報が 最初から 最初は活用できない トップダウン情報が 活用された だんだん活用促進 38
  • 39. 結果:LLH条件とHHL条件 親密度 L-L-H 親密度 H-H-L 教示なし 教示あり 教示なし 教示あり 了解度と負荷の変化 LLH条件 了解度と負荷の変化 HHL条件 90.0 90.0 80.0 80.0 70.0 70.0 60.0 負荷 60.0 負荷 50.0 了解度 50.0 了解度 40.0 40.0 30.0 30.0 E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3 E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3 FLからFHへ:WWL低下 FHからFLへ FHからFLへの 戦略の切り替えが起きた トップダウン情報が 切り替えで 活用できなくなり WWL変化なし 教示があってもなくても 変化を知覚 ※うまく解釈できない 気づきやすい? 39
  • 40. 超早口音声の聴取:まとめ  仮説の検証  「親密度が高いと教示」「親密度が高いと自覚」  心的辞書アクセスが促進(トップダウン情報)  心的負荷が低くなり、了解度が高くなる  示唆:正しく楽に聞き取るための手がかり  「慣れ」と密接に関連  「どういう内容か推測して聞く」「どういう内容かを判断する」  合成音声の品質を適切に評価するための実験方法  今後の課題  長期間における学習効果/加齢の効果  テキスト合成音声への応用  セキュリティ:音声CAPTCHA [Nishimoto2010] 40
  • 41. 結論  インタフェース設計の方法論  音声認識・音声合成の効果的な応用  音声インタフェースの評価手法の高度化  普遍的な原則は有効  音声に依存せず様々なインタフェース技術の応用に貢献  展望:情報技術におけるモダリティの自由度  Web : テキストを中心とするユニバーサルな技術 画像  アクセシビリティ:モダリティ選択の観点から  単純なモダリティ置換では不十分 テキスト 触覚  成功したインタフェースがなぜ成功したか 音声 BMPK ケージーエス(株) NTTドコモ らくらくホン Apple iPhone 4 41
  • 42. 研究実績  学術誌原著論文(第一著者):4編  西本 卓也, 志田 修利, 小林 哲則, 白井 克彦: "マルチモーダル入力環境下における音声の協調的利用-音声作図システムS-tgifの設計と評価-," 電子情報通信学会論文誌, Vol.J79-D-II, No.12, pp.2176-2183, Dec 1996.  西本 卓也, 幸 英浩, 川原 毅彦, 荒木 雅弘, 新美 康永: "非同期型音声会議システムAVMの設計と評価,'' 電子情報通信学会論文誌 , Vol.J83-D-II, No.11 pp.2490-2497, Nov 2000.  西本 卓也, 高山 元希, 櫻井 晴章, 荒木 雅弘: "音声インタフェースのための対話負荷測定法," 電子情報通信学会論文誌 , Vol.J87-D-II, No.2, pp.513-520, Feb 2004.  西本 卓也, 渡辺 隆行: "単語親密度を統制した超早口音声の聴取に対する慣れの検討," 電子情報通信学会論文誌 Vol.J94-D No.1, pp.209-220, Jan 2011.  学術誌原著論文(第一著者でないもの):9編  講演(査読つき国際会議予稿):49編  講演(研究会):78編 / 講演(全国大会・シンポジウム):74編  総説(学術誌の解説、講座等):5編  著書(共著・寄稿):7編 / 学術誌論文(翻訳):3編 42