Nishimoto110126 v15-light2

音声インタフェースシステムの
効果的設計と評価に関する研究
西本卓也（東京大学）
2011-01-26
博士論文公聴会

1

背景：音声認識技術の原理と構成
 音響的・言語的に最も可能性の高い単語列を出力する
 隠れマルコフモデル(HMM)／ベイズ決定則／N-gramモデル
 課題：頑健性，未知語

音声データベーステキストデータベース

学習学習

音響モデル発音辞書言語モデル

入力音声認識結果
音響分析探索

~ P( X | W ) P(W )
W  arg max P(W | X )  arg max
W W P( X )
2

背景：テキスト音声合成技術(TTS)
 大量データによる統計学習アプローチの成功
 課題：聞きやすさ，テキスト解析の精度

漢字かな混じり文

テキスト解析合成単位選択音声合成単位

読み，構文情報，アクセント型
音声信号処理
韻律制御

音声信号
読み，基本周波数パターン，
継続時間長，パワーパターン

3

HMMを用いた音声合成
 メルケプストラム係数と基本周波数をHMMで生成
 基本周波数系列は多空間確率分布によるモデル化
 決定木クラスタリング／話者適応も可能
 実装
 HTS
 GalateaTalk
 Open JTalk
 NVDA日本語版

Galatea Toolkit

mmdagent.jp
4

インタフェース技術の発展 [第1章]

 情報技術が幅広い状況で利用
 携帯電話、タブレット、ロボット・・・
 入出力：タッチ操作、加速度センサ、位置情報、グラフィックス
 音声：音声認識、音声合成、音声対話、擬人化エージェント
 実世界インタフェース参考：増井他情報処理学会誌 2010年7月

 自動ドア：意図（ビルに入りたい） → 行動（ドアに近づく）
 関連が明確でわかりやすい、直感的、忘れにくい
 電車に乗るために切符購入は本来不要 → Suica自動改札
 直接的でない操作や抽象的な思考を排除できる
 インタフェースの優れた慣用句（イディオム）を実現
 計算機内の情報と現実世界の融合 Tangible Bits (MIT)
 「優れたインタフェースは手品に似ている」
 インタフェース設計の知見は音声応用にも有効
5

インタフェースシステム導入原則［西本2008］

 適合性：ユーザの目的や状況に適合すること
 デスクトップ、モバイル、車載機器、サイネージ etc.
 本来ユーザが行うべき作業を邪魔しないこと（運転など）
www.alpine.co.jp
 バリアフリー、新しい技術が新しいバリアを作らない
 視覚・聴覚が一時的に利用できない場合など
 有用性：目的達成を支援できること
 必然性、動機付け、退屈や不安の排除（楽しさ）
 外国語学習発音の正確な認識？学習の促進？ロゼッタストーン

 妥当性：効果測定と反復的改良
 心的負荷：二重課題法／NASA-TLX ・・・・・適合性
 タスク達成時間、操作回数、マウスポインタ移動量・・・・・有用性
 ユーザの行為の分析・解明 → 音声応用システムへ
6

インタフェースの理論 [1.2節]
 行為の3階層モデル [Rasmussen]
 技能ベース、規則ベース、知識ベース
 人間の情報処理特性モデル [Card et.al.]
 知覚系、認知系、運動系
 数値的に明確化べき法則、Fitts's Law
応用:Macのメニュー
 行為の7段階モデル [Norman]
 実行の淵
 目標を立てる、意図を形成する、心理的
行為系列を特定化する、行為を実行する実行の淵世界

 評価の淵
 システムの状態を知覚、状態を解釈、物理的評価の淵
状態と目標を比較評価世界
 分類：秘書型／道具型
7

各研究の概要
 マルチモーダル入力における音声の有効利用
 音声作図システム S-tgif
 既存入力デバイス（マウス、キーボード）との役割の分担
 コンテンツとして音声を扱うインタフェース
 非同期音声会議 AVM
 人間同士の音声対話の技能を活用
 音声メッセージの視覚化とグラフィカルな操作
 音声対話システムの使いにくい箇所を発見
 二重課題法によるインタフェース評価
 時間分解能の重要性
 音声出力システムの設計指針
 超早口音声の聞き手の構えの検討
 内容に対する「気づき」の影響
8

インタフェースの原則 [1.3節]
 既存知見の再構成：モダリティに非依存な検討
 インタフェースの基本原則 [小林1993] [西本1994]
 操作労力
 位置移動最尐、指定操作回数最尐、指定操作容易性
 システムの透過性
 理解容易性、手順連想容易性、フィードバック
 頑健性
 誤入力防止、修復容易性
 インタフェースの構成原則 [小林1993]
 初心者保護
 熟練者優遇
視覚障害者のための電子メール環境の検討
 上級利用移行支援［西本 2000］

9

音声利用作図システムの設計 [第2章]
 目的：マルチモーダル入力における音声の有用性を示す
 音声を他の入力手段と協調して利用する
 本研究の貢献：インタフェース原則論に基づいた設計と評価
 先行事例： VLSI CAD [Martin 1989]

 作図タスク（tgif）
 マウスのみでは煩雑
 モード切替：描画・修正
 キャンバス上の座標指定
 キーボードショートカット
 使える数：普通10個程度
 覚えるのが困難
 音声入力が担うべき役割
 キーボードの代替とその拡張
10

S-tgif: 操作労力と透過性の配慮
 配慮：操作労力（音声有利）
 ポインタを動かさずに「直線」など音声コマンドを使用
 マウス操作における手の移動を減尐
 メニューの深い階層にあるコマンドを音声で呼び出し
 操作回数を減尐
 配慮：システム透過性（音声不利）
 状態の理解容易性
 キャンバスから視点を動かさず操作
 描画モードをマウスポインタの形状で
 手順連想容易性
 機能から連想される複数のコマンド
実装：単語単位の離散HMM
 フィードバック約80語の不特定話者認識
複数のワークステーションで分散処理
 入力受理の効果音・結果表示
結果をキーイベントとしてtgifに送信
11

S-tgif: 頑健性と構成原則の配慮
 配慮：頑健性
あお
 修復容易性
 属性の変更（図形の色など）：取り消さずに言い直せばよいあお
 取り消しを操作しやすいキーに割り当てる
 非コマンド発話の棄却：フロアマウントのマイク使用
 ユーザは非コマンド発話で意識的にマイクから顔を遠ざける
 配慮：構成原則
 初心者向けの構成
 音声とマウスによる操作
 熟練者向けの構成
 キーボードとマウスによる操作
 上級利用移行支援
 コマンドと認識結果にキーボード操作を併記

12

S-tgif: 評価実験
 目的：音声利用の有無の効果の確認
 3セッション：学習の効果／利用中断（2ヶ月）の影響
 方法：課題を与え提案システムで作図させる
 被験者：16人（一部は8人）の理工系の学生
 測定（ログおよびビデオの解析）
 操作時間、マウスカーソル移動量、コマンド操作回数
 説明変数：音声有無、慣れ・課題の差、グループの影響、個人差
 アンケート調査
 操作の軽快さ
 やりたい操作を実現する方法の分かりやすさ
 ある状況で使える操作と使えない操作の区別
 図形の変形や移動などの操作の簡単さ
 疲労感の改善
 上記5項目のうち最も重要なものはどれか
13

S-tgif: 実験結果
 労力最尐化：音声なしを100％とした削減効果 s1: 第1セッション

練習
 操作時間とマウス移動量で顕著な効果
s2: 第2セッション
 アンケート：疲労感の軽減､作業の軽快感に貢献
2か月休止
 透過性：「わかりやすさ」高評価
s3: 第3セッション

操作時間マウス移動量コマンド数
120 80 140
110 130
70
120
100
Effect (%)

Effect (%)

Effect (%)
60 110
90 100
50 90
80
80
70 40
70
60 30 60

s1 s2 s3 s1 s2 s3 s1 s2 s3

s1およびs3で削減効果常に顕著な削減効果効果なし
14

S-tgif: まとめ
 基本原則
 労力最尐化、透過性の原則を満たせた
 音声のもつ操作性、手順連想容易性の効果
 頑健性：修復容易性を実現できた
 誤認識のうち操作を取り消した割合は14% （認識率 86% ）
 構成原則
 初心者保護：キー入力の覚えにくさを補う効果
 熟練者優遇：効果は目立ちにくいが価値はあった
 練習後も「色の変更」などは音声利用が支持された（常に90％以上）
 作業効率の向上に結び付く音声利用
 音声入力の有効な利用
 選択肢が多く、言葉で表現しやすい属性の指定

15

AVM: 肉声によるメッセージの利用
 文章入力のための音声認識
 1990年代後半：PC用ディクテーションソフトの実用化
 近年：Android 音声認識 API (Google)
 目的がコミュニケーションである場合
 労力：肉声は文字よりも楽
 理解容易性：豊かなコミュニケーションセキュリティ向上
 熟練者優遇：話し言葉の「技能」を生かすべき
 人間はどんな効率的な会話を？
 漸次性：思いつくままに次々に喋る、省略
 オーバラップ発話・相槌：お互いに理解状況を開示する
 透過性の原則が話者間でも重要 → Robisuke 研究（早大）
 Asynchronous Virtual Meeting （AVM）の提案
16

AVM: 音声メッセージの相互参照
 非同期型メディアによる双方向的な議論
 例：読んだ発言の一部を引用しコメントする
 どの発言に対する返答であるか
 発言のどの部分に注目しているか
 提案：音声ではオーバラップ発話を活用
 どの発言に対して、割り込みが行われたか
 発言のどの部分の再生中に、割り込みが行われたか
 音声再生中に自由なタイミングで割り込みを許す
 日常会話から類推しやすい操作体系
 メッセージの関連付けをユーザに委ねる

17

AVM: メッセージのツリー構造
 始終端検出により区切られた音声
 その音声に付随する付加情報
再生音声おはよう。今朝も冷えますね。ところで・・

返答音声おはよう
そうですね。
 音声の録音と同時に、再生音声との
時間的関係を示すリンク情報が追加される
そういえば、プロ野球の人数は？わかる？
付加情報
メッセージ
はい 60人程度だと。たしか。

そうそう

近いといえば・・・

あんまり知らない。
18

AVM: 再生と録音の方法
 再生：メッセージを Insert/Overlap 属性で制御
 Overlap ：相槌のような短い発話に有効
 Insert : 長い発話を聞きやすく再生
親メッセージ会議ですが延期になりましてそれで
子メッセージはいそうなんですか
Overlap Insert

 録音：システム再生中のユーザ発話
 「非相槌」（長い文章）を喋った場合
 発話継続長が閾値を超えたらシステムは再生音声を止める
 閾値を超えない短い発話なら再生を止めずに録音
 BISP(Barge In to Stop Playing) 延期になりまして
そうなんですか
19

AVM: 再生音声の作成手順
メッセージ構造そういえば、プロ野球の人数は？わかる？

はい
60人程度だと。たしか。
overlap

そうそう
overlap
(1) ルートのメッセージを検索
近いといえば・・・
そういえば、プロ野球の人数は？

(2) 子となるメッセージを再帰的に検索、付加情報を元に親メッセージに挿入
ただしOverlapメッセージは無視する

そういえば、プロ野球の人数は？ 60人程度だと。近いといえば・・・たしか。わかる？

(3) 元メッセージとの相対時間を元にOverlapメッセージを付加する
そういえば、プロ野球の人数は？ 60人程度だと。たしか。わかる？
わかる？近いといえば・・・たしか。わかる？
はいそうそう

20

AVM: 試作システム
 Voyager: ユーザエージェント
 Windows上で動作／全二重録音再生機能
 Voxer: メッセージ受信サーバ／対話再生サーバ
 Perlで実装
 データベース登録
 再生音声作成
ユーザ送信
サーバ
メッセージ受信サーバ
登録・蓄積
クライアント
要求
録音／再生
対話再生サーバ
再生メッセージ作成

送信

21

AVM: 非同期音声会議の実験
 目的：文字に対する音声会議の優位性を示す
 課題：クイズを提示し、チーム内で議論し結論を出させる
 AVMとBBSの２つのシステムで実験
 AVMの音声認識にはViaVoice98(IBM)を使用
 録音された音声を実験者がリスピークしてその結果をシステムに登録
 研究室（京都工芸繊維大学）内の学生各５名１チーム
 実験後にアンケートを実施
次にあげるスポーツのうち、プロ選手登録数が1000人に
一番近いスポーツをあげてください。
競輪、競艇、騎手（中央競馬会）、ボウリング、サッカーJ1リーグ、
スノーボード、オートレース、野球、Vリーグ

22

AVM：音声と文字のメッセージ比較
 AVM：話し言葉的で短く簡潔、くだけた表現
 例：「60人ちゃうかったっけプロ野球って」
 簡潔なメッセージによるコミュニケーション
 BBS：書き言葉的で長い文章
 例：「70多くて80人が1球団の現役選手であると思います」
 考察 60

全メッセージ中の割合[%]
50
 非同期の音声会話を実現
40
 話し言葉の漸次性を活用 30
AVM
BBS
 音声認識も有効利用 20

 発言のしやすさ 10

 ユーザの慣れの要素も 0
0-50 51- 101- 151- 201- 251- 301- 351- 401- 451-
100 150 200 250 300 350 400 450 500

1メッセージ中の文字数[文字]

23

認知的負荷と音声対話 [第4章]
 音声：時間や場所を選ばない（ユビキタス）
 ハンズフリー：キー操作やポインティング不要
 アイズフリー：画面への注意が不要
 要求：認知的負荷が低いこと（マインドフリー）
 たくさん考えなくても使える＝使いやすい
 覚える／探す／推論する／注意する...
 他のことを同時にやれる余裕がたくさんある
 速く歩いているときに難しい質問を受けると？歩く速さを保てない
 自動車を運転する...
 音声対話システム：「ご用件をどうぞ」
 どんな用件をどのように喋ってもよい？
 実際には多くのシステムで制約あり
 何をどう喋ればよいのか考えてしまう
24

音声インタフェースの比較評価
 単純にシステム同士の比較はできない
 音声対話の負荷は時間変化する
 システムの優务は「特定の悪い箇所」に左右される
 どこかで失敗するとタスク達成不可能
 設計者の要求
 負荷の高いところを探してできるだけ下げたい
 感度だけでなく時間分解能の高い評価手法が必要
 既存の手法を音声に適用するときに何を配慮？
 実験条件を統制しにくい？
 タスクに適合する手法？
 二重課題法

25

二重課題法による評価
 原理：心的キャパシティ一定の法則
 第二課題の成績によって第一課題の負荷を測る

第一課題に必要な第二課題に必要な
認知的負荷認知的負荷
同時に行うと
必要な認知的負荷
キャパシティ
実際に費やされる
認知的負荷
第二課題の成績が高いならば
第一課題の負荷が小さい

26

二重課題法：第二課題の選択
 先行研究：音声利用の負荷測定
 清水他(2000) 認知的負荷（安全性）については有意性が得られず
 Strayer 他(2001) 測定できないのか影響がないのか不明な場合も
 要求＝認知的負荷の比較しやすさ
 時間分解能の高さ（所要時間の短さ）
 適切な負荷：「第一課題を優先する」という教示を守りやすい
 反復しても慣れの効果が出にくい
 提案：早押しゲーム
 ２～３秒周期で提示
 応答時間を記録
 前提
 手と目＝ゲーム
 耳と口＝音声対話
27

矢印の向きが一致すれば○

を押す

を押す

28

音声対話システムの評価実験
 課題：レストラン情報の検索
 車載音声対話システム（インターネット対応カーナビ）を想定
 実装：VoiceXML
 Nuance Voice Web Server （オムロンによる日本語版）
 状態遷移モデルによる対話記述
 バージイン可入力は音声のみ
 対話の流れ
 サービス選択メニュー
 検索条件「現在地から10分以内のレストラン」
 絞込条件「一番予算の安い中華料理」
 候補提示：１件ずつ選んで金額を聞いて比較
 予約

29

負荷の大きさと対話の内容
S1 S2 S3 S4 S5 S6
メ周レレ候サ
イスス決ー

(
辺補詳
トジト

(
ン提細定ビ
メ
情ラャラ予示情・ス
ニ報ンンン算予
絞ル／報約終

)
ュ検絞
)
ー索込込選了
を択
選
択現在地から10分以内でお一人様の予算が
1500円以下の中華レストランは4件あります。
レストラン名は、…
こちらは周辺情報サービスです。ジャンルと、
現在地からの所要時間で周辺情報を検索します。固有名詞の聞き取り
ジャンルは、レストラン、アミューズメント、スポーツ、…
予算の比較
あいまいな情報要求記憶負荷を要求
30

結果：対話状態と応答時間の個人差
応答時間（ミリ秒）
2400  実験条件
2200  被験者5名各1対話
2000
1800
 2要因の分散分析
1600  対象：移動平均値
1400  要因：被験者，対話状態
1200
 交互作用が有意(F=2.42)
1000
800  応答時間の平均
600  S2が長い（2名有意）
400
 S5が長い（2名有意）
200
S1 S2 S3 S4 S5 S6

31

二重課題法：まとめ
 音声インタフェースに適した手法（第二課題の設計）
 高負荷箇所の特定被験者内比較が可能
 第2課題の応答時間の例（太線：5点の移動平均）
応 900
答
時 800
間
（
ミ 700
リ
秒
） 600

500

400 負荷の高い場所
経過時間（秒）
300
0 60 120 180 240 300
32

超早口音声の聞き手の構え [第5章]

 視覚障害者：短時間で情報取得→最高速度を好む
 超早口音声 : 「慣れれば聞き取れる」？
 録音音声を話速変換して聴取実験 [浅川他 2003, 2005]
 スクリーンリーダの熟練者による評価
 最適速度（単語了解度90%）：19.5 モーラ／秒
 最高速度（単語了解度50%）：25.0 モーラ／秒
 HMM音声合成の聴取（18-30 モーラ／秒）
 被験者：大学生／高齢者 [西本他 2006, 2007]
 話者モデル改良の有効性は示せていない
 実際の利用状況に近い実験タスクを設計しにくい
 音声研究者はATR５０３文を聞き取る能力が高い
 仮説：「聞き手の構え」の影響
 単語親密度「いまふう」＞「いちはつ」

33

超早口音声聴取の仮説
 「構え」と「戦略」
 「知っている（知らない）単語」だと思うことに意味がある？
 「親密度の高低の判断」も負荷？
 ボトムアップ処理
 各モーラの聞き取り（単語親密度が低いほど）
 心的負荷：高い？学習・知識
刺激
 学習効果：現れにくい？
 トップダウン処理知覚話者・声

 心的辞書アクセスに頼る
認識心的辞書
 心的負荷：低い？
短期記憶
長期記憶

回答

34

親密度を統制した超早口音声
 FW03 （NII-SRC）[天野他 2006]
 単語了解度試験のための音声データベース
 4段階の親密度＝日本語親密度DBに基づいて作成
 4モーラ単語、0型および4型アクセントのみを選択
 1グループ（50単語）ごとに音韻バランスを考慮
 話速を統制して収録
 レベル調整済み、サンプリング周波数48KHz
 評価対象：男性話者1名の音声
 親密度４群から最高 (FH) / 最低 (FL) の２群を使用
 刺激音声の作成
 話速変換：反復計算で振幅と位相を最適化する処理
 4倍速音声＝約20モーラ／秒
 モーラ単位の了解度を集計
35

超早口音声：実験の手順
 50単語ｘ３試行 16秒間隔で提示
 全員が大学生（女性）
 PC とヘッドフォンを１人１式使用
 キーボードからローマ字で回答
 実験１：親密度教示なし
 被験者 (N=59) を4群に分割(G1-G4)
 単語親密度のヒントは教示しない
 実験２：親密度教示あり
 被験者 (N=30) を4群に分割(G5-G8)
 単語親密度のヒントを画面に教示
 「構え」の効果を明確にしたい

36

NASA-TLXによる負荷の測定
 「聞く戦略」を知る手段として心的負荷を使いたい
 NASA-TLX (Task Load Index) [Hart & Staveland 1998]
 主観評価の一手法：扱いやすく感度が高い
 下位尺度 → Weighted Workload (WWL)
 知的・知覚的要求、身体的要求、タイムプレッシャー、努力、
フラストレーション、作業成績の悪さ

説明（文字と音声）順位決定各尺度の評価
6つの各尺度の
課題の遂行評定値：0-100

過去の評定値も表示
評定値の重み(6-1) 休憩大小関係を意識させる

37

結果：HHH条件とLLL条件
親密度 H-H-H 親密度 L-L-L
教示なし教示あり教示なし教示あり
了解度と負荷の変化 HHH条件了解度と負荷の変化 LLL条件

90.0 90.0

80.0 80.0

70.0 70.0

60.0 負荷 60.0 負荷

50.0 了解度 50.0 了解度

40.0 40.0

30.0 30.0
E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3 E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3

ずっとFHだが FHであることが FLの教示＝有用な情報ではない？
最初は自覚できない教示された

トップダウン情報が最初から
最初は活用できないトップダウン情報が
活用された
だんだん活用促進

38

結果：LLH条件とHHL条件
親密度 L-L-H 親密度 H-H-L
教示なし教示あり教示なし教示あり
了解度と負荷の変化 LLH条件了解度と負荷の変化 HHL条件
90.0 90.0

80.0 80.0

70.0 70.0

60.0 負荷 60.0 負荷

50.0 了解度 50.0 了解度

40.0 40.0

30.0 30.0
E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3 E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3

FLからFHへ：WWL低下 FHからFLへ FHからFLへの
戦略の切り替えが起きたトップダウン情報が切り替えで
活用できなくなり WWL変化なし
教示があってもなくても変化を知覚 ※うまく解釈できない
気づきやすい？

39

超早口音声の聴取：まとめ
 仮説の検証
 「親密度が高いと教示」「親密度が高いと自覚」
 心的辞書アクセスが促進（トップダウン情報）
 心的負荷が低くなり、了解度が高くなる
 示唆：正しく楽に聞き取るための手がかり
 「慣れ」と密接に関連
 「どういう内容か推測して聞く」「どういう内容かを判断する」
 合成音声の品質を適切に評価するための実験方法
 今後の課題
 長期間における学習効果／加齢の効果
 テキスト合成音声への応用
 セキュリティ：音声CAPTCHA [Nishimoto2010]

40

結論
 インタフェース設計の方法論
 音声認識・音声合成の効果的な応用
 音声インタフェースの評価手法の高度化
 普遍的な原則は有効
 音声に依存せず様々なインタフェース技術の応用に貢献
 展望：情報技術におけるモダリティの自由度
 Web : テキストを中心とするユニバーサルな技術
画像
 アクセシビリティ：モダリティ選択の観点から
 単純なモダリティ置換では不十分
テキスト触覚
 成功したインタフェースがなぜ成功したか
音声

BMPK ケージーエス（株）
NTTドコモらくらくホン Apple iPhone 4 41

研究実績
 学術誌原著論文（第一著者）：4編
 西本卓也, 志田修利, 小林哲則, 白井克彦:
"マルチモーダル入力環境下における音声の協調的利用-音声作図システムS-tgifの設計と評価-,"
電子情報通信学会論文誌, Vol.J79-D-II, No.12, pp.2176-2183, Dec 1996.
 西本卓也, 幸英浩, 川原毅彦, 荒木雅弘, 新美康永:
"非同期型音声会議システムAVMの設計と評価,''
電子情報通信学会論文誌 , Vol.J83-D-II, No.11 pp.2490-2497, Nov 2000.
 西本卓也, 高山元希, 櫻井晴章, 荒木雅弘:
"音声インタフェースのための対話負荷測定法,"
電子情報通信学会論文誌 , Vol.J87-D-II, No.2, pp.513-520, Feb 2004.
 西本卓也, 渡辺隆行:
"単語親密度を統制した超早口音声の聴取に対する慣れの検討,"
電子情報通信学会論文誌 Vol.J94-D No.1, pp.209-220, Jan 2011.

 学術誌原著論文（第一著者でないもの）：9編
 講演（査読つき国際会議予稿）：49編
 講演（研究会）：78編／講演（全国大会・シンポジウム）：74編
 総説（学術誌の解説、講座等）：5編
 著書（共著・寄稿）：7編／学術誌論文（翻訳）：3編

42

Nishimoto110126 v15-light2

Recomendados

Recomendados

Más contenido relacionado

Similar a Nishimoto110126 v15-light2

Similar a Nishimoto110126 v15-light2 (20)

Más de Takuya Nishimoto

Más de Takuya Nishimoto (20)

Último

Último (10)

Nishimoto110126 v15-light2