東大計数特別講義20130528

ビッグ・データからの確率的行動モデリング

によるサービスと日常の工学
　　独立行政法人　産業技術総合研究所
サービス工学研究センター　副研究センター長,
デジタルヒューマン工学研究センター兼務
統計数理研究所客員教授＆東京工業大学連携准教授

　　　　　　　　　　　　　本村　陽一

背景：「モノ」から「コトへ」
　車　　　　　　　　　　　vs

家族でのドライブ

　家　　　　　　　　　　　vs　　　　　家庭生活

SNS

　　　　　　　vs
　知人の近況、いいね

SNS

　　　　　 vs

　　膨大な広告視聴者

SNS

vs

行動変容・社会変革

ビッグデータ(ベース)

vs

リアルな社会情勢

（凄い）「モノ」　そのものよりも、

「モノ」を通じて得られる（善いこと）「コト」が大事!

モノの価値からコトの価値へ
•  価値モノ =
f(モノ)
=
f(what,
α)
(α
=
何らかの前提）

•  価値コト =
f(コト)=f(5W1H)

=f(what,
who,where,
when,…
)

　　　　　　　　=f(モノ、人、状況、etc….)

•  価値モノと価値コトではその自由度が異なる

（不確実性、ダイナミクスが伴う）

コト（サービス）の特性
l 無形性：手に取ったり、見たりできない

l 消滅性：保存しておくことができない

l 同時性：提供と消費が同時

l 異質性：価値は均一ではなく、標準化できない

　こうした特質から、物理・機械・情報工学的な扱い
だけではなく人、人々、状況、環境(場)とその関係
性まで含めたモデル化が必要

人が入る系（システム）の研究
•  全体システムの中に人のモデル（ヒューマンモデル）を入
れて最適な動作を設計する

→「コト」の工学研究
制御対象としてのシステムの中に人を含める。
→全体システムの中では人はもっとも不確実
狭義のシステム
ヒューマンモデル

製品設計
日常生活
バックヤード
フロントヤード
経験価値
購買行動
「製品（モノ）を伝える」から「経験価値（コト）を伝える」へ
サプライサイドだけではなくデマンドサイドも積極的に扱う
時代的要請：
「モノ」の工学から「コト」の工学へ
新たなプロダクト・サービスデザインのための技術
製品利用
サービス設計
サービス利用
視点
供給側の
視座
顧客から
の視座
視点
視点
顧客接点
Point of Service
受容者（顧客）
「モノ」から「コト」へのパラダイムシフト
生活現場
研究・開発現場

サービス：顧客との共創
日常生活
利用者
提供者
経営者実社会
サービス現場
Suppliers
ProducCon

process
users
The unified service theory
(Sampson 2006)
Inputs
問：いかにしてユーザからのインプットをフィードバックするか
?
inputs
outputs
Service can be characterized by Users’ feedback

生活（サービス）現場における
行動履歴データの収集とモデル化のために
生活者の計算モデル化と

情報サービス

大規模データ
モデル化
As
is
To
be
サービス活動中に取
得できるよう実験計画
されたデータ
最適化
人間行動観
測技術
リアルデータの観測
生活と技術のデザイン
支援技術
モデル：制御対象
コト：生活

Center
for
Service
Research,
AIST

•  ID付POSデータなど大量データが蓄積

•  数千人規模のアンケートも容易に実施可能

•  ただし、データ分析、データマイニングだけでは、結果の
活用が限定的（従来通りの施策の実施のため）飛躍的生
産性向上に結び付きにくい。

•  そこで、大規模データを計算モデル化し、その結果をITで
活用できるようにする。

•  「顧客の見える化」「生活者起点」を促進するために

大規模データからのコトの計算モデル構築と活用技術
大規模データ活用技術

類型化と構造化に基づく計算モデリング

生活中の履歴データなどの大規模 
データから再利用可能な計算モデルへ
l 各事例の保存と検索（データベース）
l 単独の頻度、集計、統計
l 複数の変数の間の関係（相関、独立性）
l ある変数を説明するルール、予測モデル
l 変数群の依存関係の条件付確率(確率的知識)

l 因果的構造のネットワーク（計算モデル）

集めたデータの説明から、そのデータ以外にも成り立つ知識、
すなわち過去の経験から、『次』に活かせる知識へ！！
従来の統計（母集団依存性大）
有用な知識（再利用性大）

構造的モデリング技術：ベイジアンネット
X1
X2 X4
X3 X5
X2 0 1
X4
0 0.8 0.4
1 0.2 0.6
条件付確率 P(X4|X2)
説明変数)P(目的変数|
条件付確率　P(X3|X1,X2）
条件付確率：
和文書籍
ベイジアンネットワーク技術：東京電機大学出版局（本村・岩崎）
ベイジアンネットワーク概説：培風館（繁桝・植野・本村）

ベイジアンネットの学習（モデル構築）

確率変数の選択
グラフ構造の学習
条件付確率（パラメータ）の学習

A
B
{P1 (a1|b1), P2 (a2|b2), …}
P
離散確率変数： CPT (cond prob table)
事例の頻度から確率化
B
A
P
連続変数：パラメトリックモデル
のパラメータ学習 or 離散化
情報量基準による（局所）モデル選択
情報量の高い、重要な変数の抽出

条件付確率表
ベイジアンネットの条件付確率表
X
条件付確率表
P(Y|X) = p
Ｙ
P1
P2
P3
P4
P5
P6
I j
Ex.
0.3
0.4
:
Ｘn
Ｙ
Ｘ2
Ｘ1
：
：
n  完全データの場合：

クロス集計表の正規化で最尤推定量が得られる。

Ｘ
Ｙ
ベイジアンネットの学習（グラフ構造の探索）
ベイジアンネットの条件付確率表
X
条件付確率表
P(Y|X) = p
Ｙ
P1
P2
P3
P4
P5
P6 xy
Ex.
0.3
0.4
:
X,Yに関するクロス集計表
X
クロス集計表
度数|Y, X| = n
Ｙ
n1
n2
n3
n4
n5
n6
xy
Ex.
3
4
:
カイ二乗検定により変数間の
独立・従属性を判定
条件付依存性を情報量基準(AIC, MDL)
により判定しモデルを選択（ベイズ比検定）
Ｘ
Ｙ
OR ？
？
この検定を一つの子ノード毎に、複数の親ノードに対して繰り返し行う。

Belief
propagaConアルゴリズム
.)()|()()(
,)()()(
,)()(
,)()|()(
).()()Pr(
∏∑∑
∏
∏
∏∑
≠≠
≠
=
=
=
==
==
ik
kUkX
ikx
XUi
jk
YkXXYj
Yj
YjX
Ui
UiXu
uUxPxu
xxx
xx
UiuUXPx
xxxX
πλλ
λππ
λλ
ππ
πλα
)(xλ)(xπ X
U1 Ui
Y1 Yj
……
……
)(xXYπ
)(uXUλ
Xへの入力
Xへの入力
Xからの出力
Xからの出力
)(uUXπ
)(xYXλ

ベイジアンネットの 
ベイズ的世界観
•  ドメインを全て確率変数として表現
•  ドメインの状態は各確率変数の同時分布
•  観測可能、決定的な場合を包含
•  末端の変数は事前確率分布を仮定

•  関係性と構造を全体システムとしてモデル化
•  目的：知りたい対象の変数の事後確率分布を計算
•  この時、主要な依存関係のみをグラフとして表し、モデル
化することで記述量、計算量を劇的に削減。

P(X1,X2,…,Xn)
=
P(X1|X2)P(X2|…)P(Xn)

ベイジアンネットワーク構築・推論ソフト BayoNet

（1998：IBIS、AI学会などにて発表） 
（2003～：商用ソフトとして販売, COMDEX出展） 
（2005～本格的実用化によりソリューションビジネスも提供）

ベイジアンネット技術とその深化
•  大規模実データの中から、

・非線形・交互作用を含むゆるやかな因果的連鎖構造を自
動的に抽出し、

・計算機上のモデルとして作成し、

・推論やシミュレーション、制御などに活用できる

•  表形式の離散変数（SQL-‐DB)だけでなく、

・センサ、画像、テキスト、電子カルテ、ID-‐POSデータなど、
日常で集積されつつある大規模データを適用可能にする
技術研究

BN
+
テキストマイニング/
潜在クラス分析
/
特徴抽出

・応用による社会問題解決の同時遂行が重要

確率的行動モデル
•  行動:

例えば購買行動
(yes
or
not)

ある商品を購入した人が10人、

同じ条件で購入しなかった人が90人いた場合,

P(buy=yes)
=
10/(10+90)
=
0.1

•  条件ごと異なる購買確率:
P(buy|condiCon)

•  例えば化粧品の購買確率,

P(buy|female)
>
P(buy|male)

•  平日と週末により異なる場合,

P(buy|female,
weekend)>P(buy|female,
weekday)

消費者行動の計算モデリング
会員入会
メルマガ受信
来店
入店・閲覧
購買
興味ドライバー
来店ドライバー
購買ドライバー
入店ドライバー
商品情報

ノベルティ

話題

季節感

　　：
実物を見たい

買い物の日

イベント

同行者として

なんとなく

　　：
経験価値・生活満足度向上
メルマガクーポン
新規顧客
デジタル

サイネージ
接客支援ツール
実物を見たい

フィッティング

素材感

時間がある

ディスプレイに

惹かれて

　　：
実感（似合う、機能）

揃える（色・デザイン）

安心（保有・確保）

接客に惹かれて

　　：
リピート

事象指向の計算モデル化技術
サービス工学における最適設計ループの実現のための

•  大規模データ(ID-‐POS,
アンケート,
操作履歴,
テキスト)

•  カテゴリセット抽出（PLSA,
クラスタリング,
質的調査）

•  構造・関係モデル構築(BN,
情報量基準)

•  Man-‐Machine
Lifelong
Learning(IT+コミュニティの学習)

時
主
客
場動
ID-‐POS
アンケート
Log
テキスト
etc
顧客セグメント・潜在クラス
機能・情緒ベネフィット
IT+コミュニティ
→　ダイナミクス
（サービスシステム）
5W1Hを反映した
構造的計算モデル
POSEIDON
APOSTOOL　　　　BayoNet
類型化
構造化

大規模ID-‐POSデータの活用事例

–  データの件数約数十億トランザクション

ID-‐POS：「誰が」「商品」を「どの店舗で」「いつ買ったか」

•  付加的なデータも加え、因果的な構造としてモデル化する
ことで、「どういう理由で」購買したかを推定し、

「もしもこうしたら、どうなる」というシミュレーションにも活
用できる計算モデルを構築する

データイメージ

**

Center
for
Service
Research,
AIST

•  ID付POSデータなど大量データが蓄積

•  数千人規模のアンケートも容易に実施可能

•  ただし、データ分析、データマイニングだけでは、結果の
活用が限定的（従来通りの施策の実施のため）飛躍的
生産性向上に結び付きにくい。

•  そこで、大規模データを計算モデル化し、その結果をIT
で活用できるようにする。

•  「顧客の見える化」「生活者起点」を促進するために

大規模データからの計算モデル化の事例紹介
大規模データ活用技術

スーパーでの購買行動のモデル化

大規模データからのモデリング
•  カテゴリマイニング：小売商材−顧客の自動分類

–  ライフスタイルや価値観に関するアンケート結果から、利用者
視点の商品カテゴリ初期値を作成

–  ID-‐POSデータから、商品カテゴリに対して、似たような購買

行動をとる顧

客カテゴリを

作成

–  商品−顧客カ

テゴリの機械

学習（ベイジ

アンネット）を

繰り返す

[PLSA]
y
x
u
P(u)
P(x|u) P(y|u)
Customer xi
Item yj
Observed variables
Latent class uk
スーパーのID-POS データ
“購買履歴+customer and item ID”
•  期間：Oct.1. 2008 – Sep.30.2009 (1 year)
•  データ数 : 669,511,467 transactions.
ProbabilisCc
Latent
SemanCc
Analysis
(PLSA)
Step 1 : 顧客と商品の共起行列を作成
Step 2 : 対数尤度を最大化するような P(x|u), P(y|u), P(u) をEM法で探索
Step 3 : uを増やし1,2を繰り返して情報量規準により潜在クラスの数を決定
Step 4： argmaxu P(u|x) and P(u|y) により顧客xと商品yが所属
　　　　　する潜在クラスu を決める。
うち、アンケートにも回答している
3,981 人のデータと売上が上位の
1,000 items　を抽出
→ 約420万 transactions を対象
P(xi, yj) = P(xi | uk)P(yj | uk)
k
∑ P(uk)

Step1
:
共起行列
User1 buy Item1 and Item M,
User2 buy Item1 and Item2,
:
User N buy Item2
ID POS data
Co-occurrence matrix
顧客iと商品j共起頻度: Nij
共起行列：N11, …. NNM

Step3
:
潜在クラスの数を増やしながら情報量規準

　　　　を観測→　最小のモデル（潜在クラス数 U
）を採用
122600000

122800000

123000000

123200000

123400000

123600000

123800000

124000000

124200000

124400000

124600000

AICscore
The number of latent item category U
Averagely, optimal
number

Step4: 潜在クラス分析(PLSA)による顧客ー商品の同時分類
ID-POSデータに基づく購買履歴から顧客と商品群を自動で同時に分類
顧客１

 
属
確
率

顧客２
 
属
確
率
 

顧客３
 
属
確
率

顧客４
 
属
確
率

・・・
商品１
 
属
確
率

商品２
 
属
確
率
 

商品３
 
属
確
率

商品４
 
属
確
率

・・・
カテゴリ１
カテゴリ２０
・・・
顧客と商品を 
各カテゴリへ分類
推定結果：顧客がある意味カテゴリに属する確率
推定結果：商品がある意味カテゴリに属する確率
カテゴリ数は情報量規準により
２０カテゴリと自動的に決定

計算結果
計算結果
・2008年9月から2009年9月までの1２カ月分のID-POSデータ
・アンケート対象者３９８１人と購買回数上位1000商品に関して同時分類
・確率的潜在意味解析法(PLSA法)の適用により自動的に分類
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
推定されたカテゴリ所属確率が最大となったカテゴリへ分類

ライフスタイルアンケート結果の分析による

６つの消費・生活因子の抽出
第１因子：こだわり消費派：高くても健康に良いものを選び，産地への関心，こだわりのブランドがある

第２因子：家庭生活充実派：料理が好きで食事も生活も充実している．気分も安定している

第３因子：アクティブ消費派：外向的で，新商品や話題の商品は試しに買ってみる．ただ無駄遣いは多い

第４因子：節約消費派：チラシを見てお得な商品を買う．安ければ少々遠い店にも行く．高い商品は買わない

第５因子：堅実生活派：几帳面で家計簿をつけ，無駄遣いはしない．毎日の献立はスーパーに行く前に決める

第６因子：パパっと消費派：スーパーでの買い物はできるだけ早くすませたい．お弁当を作ることがある
因子分析から，特長のある６つの因
子が抽出できた．ベイジアンネット
ワークによっても同様の傾向が検出
された．

(因子の妥当性を確認)

⇒これらの因子の組み合わせとして
消費者の分類を行う

顧客パーソナリティ因子と商品群の関係をPOSデータからベイジアンネット化
（青い線：各ライフスタイルカテゴリーに対して全商品カテゴリーで得点が高い３商品カテゴリー）
（赤い線：各商品カテゴリー内で1番得点が高いライフスタイルカテゴリー）
大規模ID-POSとアンケート結果の統合（計算モデル化）
ライフスタイルカテゴリー

（アンケートから抽出）
新しい商品カテゴリー

（ID-‐POSから抽出）
堅実生活派
節約消費派
こだわり消費派
家庭生活充実派
アクティブ派
パパっと消費派
野菜
既存の

商品分類
肉・
魚・卵
冷凍・
レトル
ト

総菜
飲料
水・酒
類
日用
雑貨
デモグラ

日常行
動・生活
時間

食に対す
る意識

健康意識

消費傾向

パーソナ
リティ

アンケート
項目
果物自炊的
お手軽夕食的
酒飲み健康的
パン食的
野菜自炊的
おやつ的
洋風朝食的
牛乳・清涼飲料的
しっかり自炊的
PB的
健康飲料的
菓子のお伴的
お手軽栄養的
肉不使用自炊的
しっかり野菜的
和風朝食的
おかずもう一品的
見切り品的
日用品的
肉自炊的

商品属性

魚
類
惣
菜
肉
類
・・・

PLSA+BNによる顧客行動のモデル化
商品
②　変換した意味カテゴリと顧客属性、商品属性、状況を表すベイジアンネットを構築
⇒個人性、状況依存性を因果的にモデル化し、確率推論により購買行動が予測できる
【PLSI+Bayesian networkの統合モデリング】
①　PLSAにより数千～数万の顧客や商品を数十個のカテゴリに次元圧縮（変換）
健康志向
・・・
顧客
・・・
曜
日
曜
日
時
間
帯
低
価
格
ブ
ラ
ン
ド
こ
だ
わ
り
・・・
年
齢
家
族
ス
タ
イ
ル
・・・

0

0.2

0.4

0.6

0.8

1

購買行動の
確率シミュレーション
購買確率
意味カテゴリ

状況

顧客属性

料理好き
意味カテゴリ
数千〜数万人
数十カテゴリ
数千〜数万アイテム

利用者の特徴を表すベイジアンネットモデル
顧客特徴データベースを用いて、カテゴリ分類、ID-POS解析、 
アンケートデータ解析の結果を統合した、ベイジアンネットワークモデルを構築した。
ベイジアンネットワーク：関係の強い変数間の関係を自動的に発見することができる方法論。
また、全体や各変数の確率も効率的に計算可能。
顧客の特徴についてのベイジアンネットワーク
（データ数3695件、計算時間約1分、Greedy サーチ、構造探索スコア：AIC）

Class06
おやつ的
Class07
洋風朝食的
利用者の心理特性（アンケート結果）をモデル化したベイジアンネットの例
各商品カテゴリを購入している利用者の解釈　（アンケート回答との関係性）

コトの理解(5W1H)
•  Who:
どんな顧客が

•  What:
何を

•  Why:
なぜ

購入しているか、

についての理解ができる。

（さらにWhen,
Where,
Howも追加する）

さらに、その顧客がどの位来店するかがわかれば
、店舗でのアクションが最適化できる。

利用者の購買行動を表すベイジアンネットモデル
対象ジャーナルデータを用いて、カテゴリ分類、ID-POS解析、 
アンケートデータ解析の結果を統合した、ベイジアンネットワークモデルを構築した。
ジャーナルデータについてのベイジアンネットワーク
（データ数420万件、計算時間約48時間、Greedy サーチ、構造探索スコア：AIC ）

ベイジアンネットを用いたシミュレーション
作成したモデルを用いて状況依存性についての確率推論を行った。

Ｐ（回答”家庭生活充実してない”| お手軽夕食商品, 夕方に購入）　→　高い確率
お手軽夕食的クラスタ商品
0

0.05

0.1

0.15

0.2

0.25

0.3

家庭生活充実していない
それ以外
夕方
0
0
1
1
夏
0
1
0
1

時間情報と場所情報の活用
•  Who:
どんな顧客セグメントが

•  What:
何を

•  When:
いつ

•  Where：どこで

•  Why:
なぜ

購入しているか、についての消費者行動理解

その顧客セグメントが何人位いるか、どのように行動
するかがわかれば、店舗でのアクションが最適化で
きる。

空間情報を用いた消費者行動分析の事例

〜ショッピングモールの共通ポイントカードデータ〜
•  関東のあるショッピングモールにおける大規模なID-‐POSデー
タの利用を考える。
–  2011年4月〜2012年3月

–  280万レコード、15万人分

(敷地面積：約8万m2,
約200店舗）
•  経営者の課題

–  在庫管理

–  店舗配置
–  顧客理解

把握
有効な
施策

ショッピングモールのポイント利用履歴

データからの潜在クラス分析
•  顧客と購買店舗エリアとの関係から潜在クラス抽出
•  使用データ
–  購買履歴データ200店舗1年分
–  店舗エリアは3階分計15エリア
ID
store
size
zone
category
10001
A店
50
1A
レストラン
10002
B店
100
2B
ファッション
10003
C店
20
3D
ライフスタイル
:
:
:
:
:
10999
Z店
50
2A
ファッション

•  顧客と空間が右の７つのエリアに同時分類
areaG
area
E
areaD
areaC
area
B
areaF
areaA
areaF areaF
areaF
areaF
area
E
areaEareaC
areaB
3F
2F
1F
PLSAにより抽出された顧客の買い回り行動
（空間）に関する潜在クラス

PLSAによる潜在クラス分析 
大まかな傾向
•  areaA：優良顧客タイプ１
•  areaB：優良顧客タイプ２
•  areaC：食事と買い物
•  areaD：一般生活型
•  areaE：高齢者優良顧客
•  areaF：若者ファッション型
•  areaG：書籍少数店舗
消費者の行動をより具体的に分析するため、

潜在クラスを説明するベイジアンネットを構築

顧客クラスAの構造 

３０代
areaA
平均利用金額
普通
女性
ファッション
フロア遷移
1回
来店周期
１週間
正の相関
負の相関
レストラン
•  ３０代・女性、年間利用金額が普通

•  来店周期は一週間より頻繁で、フロア間移動は多い

特性 
（年代分布等）
•  ３０代・女性・市外が多い。
•  リピート率は他より低めだが、一日の利用金額が高め
⾏行行ラベル areaA areaB areaC areaD areaE areaF areaG 総計
女性 20135 14292 15099 19968 18539 20500 13518 122051
男性 3260 2969 3039 2757 3423 4107 6631 26186
0 3 3
10 16 19 28 139 21 172 186 581
20 2470 2162 2828 1646 1002 4555 3726 18389
30 7908 4049 4914 4826 3899 6211 4334 36141
40 5805 4527 4140 7152 5165 7653 4809 39251
50 3397 3460 3027 4065 4367 3339 3699 25354
60 1843 1736 1714 2453 4192 987 1692 14617
70 529 404 551 873 1797 209 752 5115
80 75 83 105 156 370 61 176 1026
90 4 5 4 15 1 13 42
不明 1349 821 826 1411 1134 1416 762 7719
女性 20135 14292 15099 19968 18539 20500 13518 122051
男性 3260 2969 3039 2757 3423 4107 6631 26186
0 3 3
10 16 19 28 139 21 172 186 581
20 2470 2162 2828 1646 1002 4555 3726 18389
30 7908 4049 4914 4826 3899 6211 4334 36141
40 5805 4527 4140 7152 5165 7653 4809 39251
50 3397 3460 3027 4065 4367 3339 3699 25354
60 1843 1736 1714 2453 4192 987 1692 14617
70 529 404 551 873 1797 209 752 5115
80 75 83 105 156 370 61 176 1026
90 4 5 4 15 1 13 42
不明 1349 821 826 1411 1134 1416 762 7719

特性 
（よく利用するジャンル等）
—  総計の利用ジャンル割合と類似している。
—  レストランが少ないことからファッションかライフスタイルが多い
0%#
10%#
20%#
30%#
40%#
50%#
60%#
70%#
80%#
90%#
100%#
areaA# areaB# areaC# areaD# areaE# areaF# areaG#

顧客クラスBの構造
•  年間利用金額が高いが、来店周期は1週間。フロ
ア間の移動は１回、移動距離は少ない
フロア遷移
１回
areaB
来店周期
１週間
年間利用金額
多い
ライフスタイル
女性
移動距離
２０マス以下
正の相関
負の相関

特性 
（年代分布等）
•  市内・一日の利用金額・リピート率が高い。
•  年代は３０〜５０代と幅広い。
女性 20135 14292 15099 19968 18539 20500 13518 122051
男性 3260 2969 3039 2757 3423 4107 6631 26186
0 3 3
10 16 19 28 139 21 172 186 581
20 2470 2162 2828 1646 1002 4555 3726 18389
30 7908 4049 4914 4826 3899 6211 4334 36141
40 5805 4527 4140 7152 5165 7653 4809 39251
50 3397 3460 3027 4065 4367 3339 3699 25354
60 1843 1736 1714 2453 4192 987 1692 14617
70 529 404 551 873 1797 209 752 5115
80 75 83 105 156 370 61 176 1026
90 4 5 4 15 1 13 42
不明 1349 821 826 1411 1134 1416 762 7719
女性 20135 14292 15099 19968 18539 20500 13518 122051
男性 3260 2969 3039 2757 3423 4107 6631 26186
0 3 3
10 16 19 28 139 21 172 186 581
20 2470 2162 2828 1646 1002 4555 3726 18389
30 7908 4049 4914 4826 3899 6211 4334 36141
40 5805 4527 4140 7152 5165 7653 4809 39251
50 3397 3460 3027 4065 4367 3339 3699 25354
60 1843 1736 1714 2453 4192 987 1692 14617
70 529 404 551 873 1797 209 752 5115
80 75 83 105 156 370 61 176 1026
90 4 5 4 15 1 13 42
不明 1349 821 826 1411 1134 1416 762 7719

特性 
（よく利用するジャンル等）
—  総計の利用ジャンル割合と類似している。
—  レストランも少なくなくファッション・ライフスタイルも多い
0%#
10%#
20%#
30%#
40%#
50%#
60%#
70%#
80%#
90%#
100%#
areaA# areaB# areaC# areaD# areaE# areaF# areaG#

人間の心理的特性のモデル化
Ｕ：ユーザの特徴を表すベクトル
（年齢や所得など）
Ｘ：コンテンツ（レストラン情報）の属性ベクトル
（客層や平均予算など）
Ｅ：ユーザUがXをどのくらい「好き」だと思うか
（例えば１から５までの５段階評価）

Ｕ、ＸからＥを予測する確率モデル
P(E=5|U=u, X=x)＝８０％
:
P(E=1|U=u, X=x)＝５％

アンケートデータ
（統計）

リコメンデーションの例（CFからBN）
・協調フィルタリング(CF)
（ex. ｱﾏｿﾞﾝ、ｱｽｸﾙ）:P(X) ∝∑類似度(u) 購入経験(u,X)
　　　　　　　　　　　　　　　　　　　　　　　　　　　　u

　
　　　　　
　　　　　　　
・アスペクトモデル：P(X)= ∑P(X|H)P(H|U)
H

構造を持つ確率モデル＝　

ユーザが対象が興味深いと評価する確率を推定して、
その確率の高いコンテンツ（X）を推奨。
より複雑な依存関係(選択理由、個人属性など)を取り込めばよい。
ユーザ
他の
ユーザu
コンテンツ
x
ユーザ
アスペクト
H
コンテンツ
x
購買履歴
類似度
関心
内容

ユーザ・状況属性の追加
•  ユーザUにXを評価させた統計データから条件付確率を獲得。
•  情報量の高い属性、特徴ベクトルを抽出。
Ｘ１
　Ｘ２
　　Ｘ３
　　　Ｘ４
Ｕ１
　Ｕ２
　　Ｕ３
　　　Ｕ４
　　　　Ｕ５
Ｅ（好き）
S（状況）
n  意味のある状況Sを導入した「状況依存モデル」の状況の発見。
年齢などの
ユーザ属性
対象
の特徴
P（E｜X , U , S)

ユーザ適応型カーナビ（レストラン推薦） 
（本村・岩崎「ベイジアンネットワーク技術」東京電機大出版局）
ベイジアンネットワーク
推論
Ｓ
U
Ｈ1
Ｈ2
AC
ユーザ嗜好モデル
車両用情報システム
学習
CBカレー
ステーキXY店
ビストロAB
60
40
30
1
2
3
・
・
・
・
・
・
提案候補 /スコア
ジャンル
コストレストラン音楽
距離情報
センター
コンテンツプロバイダ
同乗者
性別
年齢
季節
時間
現在地
コンテンツデータ
状況データ
ユーザデータ
提案コンテンツ
推論結果
履歴
ステーキ店
：
ベイジアンネットワーク
推論
Ｓ
U
Ｈ1
Ｈ2
AC
ユーザ嗜好モデル
車両用情報システム
学習
CBカレー
ステーキXY店
ビストロAB
60
40
30
1
2
3
・
・
・
・
・
・
提案候補 /スコア
ジャンル
コストレストラン音楽
距離情報
センター
コンテンツプロバイダ
同乗者
性別
年齢
季節
時間
現在地
コンテンツデータ
状況データ
ユーザデータ
提案コンテンツ
推論結果
履歴
ステーキ店
：

例：カーナビでのレストラン選択のモデル

（デンソーITLとの共同研究、iPhoneアプリ化）
状況

気温
可処分所
得
自動車
ﾕｰｻﾞ層
急ぐ
時間
運転歴
ﾚｽﾄﾗﾝ

ｶﾃｺﾞﾘ
主客層
平均
予算
高級感
ﾒｲﾝ

ﾃﾞｨｯｼｭ
ﾌﾗﾝﾁｬｲｽﾞ
食事の好み
（休日夜）
年齢層
状況
レストラン属性
ユーザー属性

携帯電話によるユーザ適応型知的情報サービス： 
小野（KDDI研究所）・本村・麻生:User
Modeling
2007など
２７００人へのアンケート結果からモデルを構築、デモサービスを実演 à プレス発表・NHK放映

•  映画推薦サービスにより集積する大規模データをマーケティングに活用

（ＫＤＤＩ研究所、松竹との共同研究）

観測・モデル化（状況を入力）
個人プロファイル（年齢、性別等）
過去の履歴情報（視聴、購買等）
推薦
数千人アンケート、過去の視聴履歴
など大規模データ収集・嗜好性モデル構築
映画ＤＢ
「恋人と、
　映画館で、
　感動したい」
誰と
どんな気分
性別
年齢
ジャンル
製作国
癒された
感動した
好む
確率
プロフィール
コンテンツ情報
状況
感じ方
評価
結果
「30代、男性、 
ストーリー重視」
TPOに応じた
コンテンツ
推薦エンジン
（嗜好性モデル）
数万コンテンツ
（パートナー企業提供）
利用しながらモデル更新（連続・動的最適化）
デートにぴったりの
映画でうれしい★
手段→映画館
誰と→恋人と
気分→感動したい
状況
他のサービスにも利用できる再利用可能な計算モデル（知的基盤）
水平展開
auOneラボのサービス

どんな映画？
どんな顧客？
映画宣伝支援システムの利用例

予測結果
「実話に基づいている」という

具体的な点をアピールすることにより、

ユーザーの鑑賞意欲を

効果的に増加できると推測できる。
※差分=P(UI|C(U), V=positive) – P(UI|V=positive)

２０代の結果
３０代の結果
２０代と３０代では、同じ映画であっても

訴求ポイントが明確に異なる
２０代向けの雑誌には、

ハリウッドナンバー１ビューティー、
キャサリン・ゼタ＝ジョーンズ主演最
新作という切り口で紹介
３０代向けの雑誌には、

「シャーロット・グレイ」の実力派女流監
督、ジリアン・アームストロング最新作と
いう切り口で紹介

例：通信販売支援へのベイジアンネット活用
　既存データからは推測できない顧客のニーズやCSRの販売ノウハウをモデル化して活用
行
動
予
測

行
動
予
測

顧客データ
商品データ
購買履歴データ

　既存データベース　
従
来
分
析

ー
分
析

カスタマーサポートセンター
モデライズ社
ベイジアン・アプローチ　
　顧客全体　
お薦め商品潜在顧客
抽出
　
ー
センターの画面に
・勧める商品
・理由
・売込フレーズ
を応答時に表示　
商品知識
　顧客ニーズ知識　
　ベイジアンネット　
*

*

：クロスセル以外の様々な分析
　や予測にも共通的に活用可能
　CSRによる売込結果　
　新たな購買履歴データによるモデルの改良
約５００万件/月

の大量データ

ベテラン社員の知識と販売データから

現場の知識をモデル化し組織全体で活用
底上
げ
0 50 100 150 200 250
売り上個数
オペレータ数
平均
下位オペレータを
システムが底上げ
上位オペレータの
知識をシステム化
ベイジアンネットとして
モデル構築

フィードバック
店頭
POSデータ
全店舗集計

レシートデータ

独自のＤＢ
履歴データ
顧客
POS
商品
POS

イベント、
天気など
状況パラメータ
顧客行動履歴

ベイジアンネット
最適クーポン
購買傾向の基本統計量
レコメンド
活用
入力
予測モデル
カテゴリーマ
イニング
（ＰＬＳＩ）
店舗間比較
キャンペーン企
画

商品企画
店舗施策
顧客モデル化

勤怠管理
生産管理
分析エンジン
APOSTOOL

メルマガ

クーポンに

よる再来店

店頭端末：POSEIDON
小売現場での活用事例
(2011.5〜)
店頭端末

（POSEIDON）　全国30店舗導入

全国30店舗、利用総数約4000件
購買回数向上, 会員誘導効果が大

POSEIDON・APOSTOOL:
サービスの支援技術
「１０．食事中、食事後アンケート」画面へ
「７．スタッフのいちおし」画面へ
「８．銀座四丁目のおすすめ」画面へ
「９．こだわりの逸品」画面へ
店舗スタッフごとの

お薦め料理
小柴, 竹中, 本村:ステイクホルダー分析と実データに基づく経営者支援システムの開発
人工知能学会社会とAI研究会, 2012年3月研究奨励賞受賞

活きたビッグデータ活用

ライセンシング→共同研究
技術：

ID有/無データからの顧客・商品分類技術：PLSIを用いた潜在クラス分析，

需要予測コーザルDB，サービス接点でのインタラクション支援技術，など

組み合わせ自由な機能(API)を使って、ユーザ（店長・マネージャ）のニーズに

もとづいて，機能・UI設計，需要予測システムを提供した後に、共同研究

APOSTOOL
（サービス分析機能）
Trident
（データ収集配信基盤）
POSEIDON
（サービス接点インタラクション支援）
顧客分類
需要予測
･･･
天候収集・記録
データ整形・集計
DB,Webサーバ，

WiFiルータ，CMS,etc.
飲食系のITコンサル企業で活用中 ITベンダ経由で小売企業にて活用中
ユーザ
（顧客・店長等）
APOSTOOL Web-‐‑‒API
店頭バックヤード

「コト」指向ビッグデータ活用
•  サービス工学の一つのアプローチ：

「サービス現場で生成される大規模データ活用」と「コト
：生活現場での情報収集と提示」

•  「利用者セグメント」と「状況」により場合分けされた層
別の分析　

→　生活者行動分析の高精度化

•  コト＝5W1Hを含めた複雑なダイナミクスの理解へ

•  包括的データに基づく全体システムのモデリングへ

生活現場での課題解決アプローチ
•  現場情報を包括的にデータとして収集

•  この時、データを入力すると何かが得られる、実用的な
サービスとして設計することが重要

•  行動変容を促す生活現場での「アクションリサーチ」の実践

•  現場に介入し、問題解決をはかる仕組み作りを目指す。

•  「現場に入る」ために：初期の解決すべき課題

•  「現場でループをまわす」ために：持続的な観測を可能に

•  「現場でループが回り続ける」ために：解決課題の継続的探索

•  初期課題は何か？　→　コミュニティ参加によりヒアリング

•  初期課題の例：医療・看護、事故予防、生活支援、復興支援

業務支援ツールへの拡張（医薬看護介護も含む）
0.0
10.0
20.0
30.0
40.0
50.0
60.0
連絡
バイタル測定
移動
記録作成
声掛け
準備・片付け
更衣介助
備品確認
その他の処置
消毒
（分）
リーダー
作業内容の可視化
記録ツール
（iPhoneなど）
業務プロセスの可視化
開始時刻
看護実施（2011/5/23）
作業名：
介助
終了時刻
対象利用者
電子カルテ呼び出し機能：
ナースステーション　アラート情報
業務日誌入力機能
基本情報
1
2
3
4
5
6
誘導
声掛け
排泄介助
移乗介助
品質
作業の評価入力画面
直接関与／
非直接関与時間の可視化
26.9%
44.8%
73.1% 55.2%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
プロセス変更前変更後
⽐比率率率（％）
非直接関与時間
直接関与時間
1
2
3
4
5
6
速さ強さ丁寧さ
スキルの可視化
行動時点記録
新人・メンバー
「サービス現場」における人の活動（ソーシャルダイナミクス）を支援する情報技術として
をパッケージ化、提供予定 (佐賀大学, 長崎大学病院、小児歯科学会他)

顧客接点支援端末
時空間データベース
分析ツールキット
制御モジュール

タブレット端末による看護業務見える化
•  7’
Androidタブレット＋看護支援アプリ.

•  バーコードスキャナー＋WiFiアクセスポイント

による操作履歴をデータベース化して、業務分析

Android tablet
Micro-server
Bar-code scanner

コミュニティ参加型サービス工学

（ホールシステムズアプローチの援用）

事前知識を活用して、統計データの情報を補う

認知・評価構造の定量的モデリング
定量調査
アンケート
評価グリッド
Bayesian network
認知・評価構造モデル
統計的学習（頻度データ）
初期構造（潜在変数）
統計的言語処理
欠損（未回答）データの場合
→EMアルゴリズム
”Y.Motomura, T.Kanade :Probabilistic Human Modeling based on
Personal Construct Theory”, J.Robot&Mechatronics, 17/6, (2005).

日常生活を知識化する
•  例：子どもの事故予防の場合

•  事故(unusual)の因果的関係をモデル化

•  個々のケースの原因(行動、モノ)を知り、制御することで事故を予防可能に

その子の
日常
ケガ
事故発生
ので
～が～した
～が～して
それぞれの日常生活の理解
予防すべき事故原因

}  平常状態(usual)から異常(unusual)までを定量的に評価

}  起きても仕方ない事故と特殊な事故を見分けていく

}  許容できる日常と危険状態のボーダーを制御していく

国立成育医療センター
電子カルテ
事故調査表・テキスト
事故サーベイランスシステム
ベイジアンネットによる大規模データからのモデリング：
子供の事故データ（約200件/月）の例

事例：事故データを計算論的にモデル化することで

　　　　　　　　　　　　　　　将来の事故予測・予防に活用
ベイジアンネット
事故の程度・確率
環境要因
子供の属性、生活時間
子供の日常生活行動
カルテ
事故調査表
事故サーベイ

ランスシステム
子どもの事故データ（約200件/月）

事故履歴データからの知識化
1. 使用データ：国立成育医療センター子供の事故
n  使用データ件数：1,791件（2,430件中）
n  事故の種類を6種類に限定
n  事故に関係したモノと事故直前の行動のどちらも空欄
の場合は用いていない
0
100
200
300
400
500
600
700
800
転落
転倒
衝突
やけど
誤飲
誤嚥
はさむ
交通事故
噛まれる
刺される
窒息
おぼれる
その他
使用データ

代表語
品詞
単語
遊ぶ
動詞
遊ぶ
あそぶ
いじる
つかまり立ち
動詞
つかまり立ち
掴まり立ち
掴まりたち
つかまり立つ
　
　

… …
　
　…
　
　…
　
　…
　
　…
表4　作成した類義語辞書（一部）
2.  類義語辞書
n  表記ゆれやターミノロジーの問題の解消のため，類義
語辞書を作成
n  表記ゆれは，同音・同意味の単語で文字表記が異なる
こと
n  ターミノロジーの問題は，同じ意味を有する単語が別の
言い回しで呼ばれるような問題のこと
自由記述テキストデータの加工

自由記述テキストデータの加工
n 作成した類義語辞書，特徴辞書にもとづき
テキストデータ →　属性ベクトルに変換
全
身
動
作

頭
部
動
作

上
半
身
動
作

下
半
身
動
作

触
動
作

取
後
動
作

上
下
動
作

水
平
動
作

静
止
動
作

ー
大

ー
中

ー
小

立

飲

触

走
触

立

立

走

飲

走

立

飲

起

噛

開

跳

開

飲

跳

触

寝

跳

起

触

モノ・行動を属性に変換

変換後の事故データの構造モデル化

n 「転落」の危険確率の推定結果
事故発生確率の予測（確率推論）

子どもの危険行動シミュレーション
  140万人の会員を有する企業（ベネッセ
コーポレーション）と共同で開発と評価．
2005年12月12日より会員向けサービス開始
2007年3月より一般向け英語版・日本語版公開�

持続的発展可能な事故予知支援システム
ユーザ履歴
データベース
WEBサービスの
提供・アンケート
ユーザの理解・
モデル化
（
国
家
）
事
故
予
防

医
療
費
削
減

子どもの事故予知支援サービス
アンケート
21,482件（07/1/29現在）
4,471人保護者に
61,147件動画配信
（07/1/29現在）
行動モデル・事故シミュレータ
で動画作成
（保護者の知らない事故
・最近多発している事故）
社会・研究の進化・深化
WEB

サービス
の改善
事故
データベース
認識ずれを補
正するコンテン
ツ作成
（個人レベル）
安心・安全 
サービス
意識と現
実のずれ
検出
05/12/12開始
科学的知見
現象
技術
理論
構築
社会
応用
サービス
現象
記述
理論
構築
Kuhn型
一体型

超音波受信器307個�
超音波発信器�
（3次元タグ）�
魚眼カメラ�
日常生活空間を模擬した部屋�
4×4×2.7[m]

子供の行動パターン認識（ベイズ推定）�

子供の行動は場所に依存して発生している
水色　：「立っている」
白色　：「歩いている」
紫色　：「座っている」
緑色　：「よじ登っている」
橙色　：「這い這い」
黄色　：「うつ伏せ」
青色　：「仰向け」
桃色　：「寝返り」
　行動ラベルの場所依存性

ラベル空間�

ベイジアンネットを用いた状況依存ベイズ推定モデル

（本村・西田：情報処理学会CVIM誌,
2007
他）
( ) ( ) ( )SCPCxPSxCP iii ×∝,
�

超音波センサ,動画像�
学習・判別�

ベイジアンネットワーク�
（確率的因果構造の導入）�

高次自己相関特徴・Naïve Bayes識別器（尤
度の計算）�
ボトムアップ
トップダウン

センサデータから構築した行動予測モデル
•  行動推定を行うための確率変数

–  　　　方向の速度：

–  子供の高さ：

–  １秒前の行動：

–  子供の位置情報

•  子供の位置情報
室内の絶対座標系
での表現モデル�
クッション�
テーブル�
壁�
壁�
クッション�
クッション�
モノとの相対距離
で表したモデル
)(Z t
yx, )(V yx, t
)1(C −t

センサデータと画像による子供の行動認識への応用�

モデルの再利用性の評価
サンプル数
最尤推定
モデル1
モデル2
被検者2
3089
49.33％
65.98％
75.17％
被検者3
2328
37.20％
51.37％
59.54％
•  被験者１のセンサデータを使用してモデルを構築し，他の被験者のデー
タに対して行動を推定
•  再利用性を考慮したモデル2が識別率が安定して高い
モデルの再利用性の評価
異なる被験者に対しても安定したラベル化が可能に。

子供の日常生活理解へ

被験者2 ：「1歳3か月男児」モデル1 ：「室内環境における因果構造モデル」
被験者3 ：「1歳か2月男児」モデル2 ：「再利用可能な因果構造モデル」

日常生活の確率的因果構造のモデル化

長期生活型情報収集システムによる観測と分析
加速度センサ
エコモニター
ウェアラブルカメラ
位置計測センサ

動画・発言→ラベル化
時間
(sec)
行動
目的
X,Y,Z(mm)
1 立つ
TVオン
2797,1809,-2254
2　
TVオン　
1649,1000,-2858
3　
TVオン　
1721,631,-2881
4 TVｵﾝ
TVオン
1997,268,-1978
5　
TV視聴　
1733,711,-2868
6　
TV視聴　
1737,1464,-2863
7 座る
TV視聴
1997,1811,-1978
8　
飲む
1721,1910,-2281
9　
飲む　
1649,1890,-2258
10 飲む
飲む
2797,1879,-2254
11 飲む
飲む
2687,1904,-2253

大規模データから構築したベイジアンネットモデル

日常生活行動を予測するベイジアンネット
温度
時間
色・形
モノ
明るさ
場所
TV 視聴
温度
時間
色・形
モノ
明るさ
場所
行動
温度
色・形
モノ
明るさ
時間：夜
場所：ソファ
TV 視聴：０．９
ベイジアンネットワークでできること
　・大量のデータから依存関係のモデルを構築
　・モデルを用いた事象の起こりやすさの予測

実験例２　（掃除行動の分析）
•  掃除行動実験
　　・5人の被験者対象
　　・ほぼ同じ状態の部屋を自由に掃除してもらう
　　　　→5人の行動の違いを見る
•  掃除中、思ったこと感じたことを発言してもらう
　　　　→5人の発言の違いを見る
やるぞ！
やだなぁ
ＡＢ

個人属性・行動・欲求の確率的因果構造
行動計測結果とプロトコル分析による欲求構造と

個人属性との間の関係を計算論的にモデル化できた

気仙沼〜絆prj: 五右衛門が原仮設住宅
浄化槽コンテナ
※帝人
技術支援トレーラ
多目的支援トレーラ
（仮設診療所等）
物販・支援トレーラ
仮設住宅エリア
§  「技術支援トレーラ」1台の運用・管理は産総研にて実施。
§  全トレーラの設置に関する規制や国、関係組織との調整は、
「産総研　スマートライフ　コンソーシアム」が担当。
§  「物販・支援トレーラ」については、コンソーシアムが市
に無償貸与契約を結び
§  市より公募をかけ、物販支援の運用業者を募る。
(2) 実証拠点整備

トレーラーハウスの運用
•  トレーラーハウス3棟を設置
–  1: 物販、カフェスペース
–  2: 多目的室
–  3: 研究者居住・ワークスペース

サーバー
カード認証機
ありがとうカード
仮設住民カード
としてデザイン
（裏面にバーコード）
どこで、どんな時、どんな
ニーズが生まれているかを
動的に分析・モデル化
現場を支援する
アプリやサービス
設計に活用
地域内サービス行動観測・分析技術

「被災後の子どもの心の支援に関する研究」

厚労科研：イベントを通じた支援情報サービスと分析
子ども
イベントなど
での相談会
気仙沼仮設商店街
南町Cadocco 12/8,23

好き・嫌い�
楽しい�
怖い・危険�
快適・安心�
笑い・怒り�
欲しい・�
買いたい�
動きが�
〜だから�
場所が�
〜だから�
状況が�
〜だから�
モノが�
〜だから�
センサ統合�
データー統合
日常の
大量データ�
再利用可能な計算モデル
認識モデル�
生成モデル�
サービス適用��
PLSI
SQL DB, etc…
Web, 携帯電話
SNS, etc…�
時間・空間的に展開し�
統計的学習�
確率分布を出力�
人間の認知評価構造・
生活行動モデル�
実サービス�
アンケート
・インタビュー

サービス
社会実装
研究開発（基礎から応用まで）
社会受容
法・制度
認証
コト:研究対象は生活現場にある
初期の課題解決をしながら
社会実装と研究開発を同時に推進
結果として死の谷とダーウィン
の海を先に渡ってしまう
合わせて
同時に検討

まとめ

行動履歴系ビッグデータからのモデル構築と活用技術
•  “Data
to
AcCon”

具体的行動につながる『ビッグデータの活用』のために

•  サービス現場の『インタラクション』を通じたデータ収集とモデル化

•  実社会の中のダイナミクスとして持続させる仕組み化

•  「コト」（人,コミュニティ,場,支援技術を創るため）の
工学
適用
（サービス・システム再設計）
現場観測
（生活現場への埋込）
モデル化
（カテゴリ・コンテクスト
・ダイナミクス）
モデル化（計算モデル化）シミュレーション
大規模データ
の活用技術

東大計数特別講義20130528

Recomendados

Recomendados

Más contenido relacionado

Similar a 東大計数特別講義20130528

Similar a 東大計数特別講義20130528 (20)

Último

Último (6)

東大計数特別講義20130528