More Related Content More from Hiroko Onari (14) 2部グラフとソーシャルネットワーク2. 2部グラフとは
WHAT
IS
A
BIPARTITE
GRAPH?
• 2部グラフ(bipartite
graph)とは、グラフGの点集合を2つの集合、V1,
V2に分割し、
Gの全ての辺はV1のノードとV2のノードを結ぶようにしてできあがるグラフ
V 1 ∪ V 2 = G, V 1 ∩ V 2 = ∅
G
V1 V2
3. 2
TYPES
OF
NETWORK
DATA
FORMAT
• ネットワークデータの持ち⽅方として、最もベーシックなフォーマットは、「隣接⾏行行列」
と「エッジリスト」がある。
• ⼩小規模なデータであれば隣接⾏行行列でもよいが、⼤大きくなりすぎるネットワークデータで
はエッジリストを使う⽅方がよい。しかし、⼤大規模データになると、KVSにしたりといっ
た⼯工夫や分散処理を取り⼊入れないとネットワークの計算できないので注意が必要。
0 1 1 1 1
1 0 0 1 0
隣接⾏行行列 A = 1
1
0 0 0 0
1 0 0 1
v1 v2 1 0 0 1 0
From, To
v1, v2
v3 v4 v1, v3
v1, v4
v1, v5
v5 左のグラフをデータ変換 v2, v1
エッジリスト v2, v4
v3, v1
v4, v1
v4, v2
v4, v5
v5, v1
v5, v4
4. テロリストネットワークがわかる2部グラフ
• 2部グラフを使うことで、例えば、誰がどこにいたかという情報を収集することで、誰
と誰が知り合いである可能性があるということをソーシャルグラフ的に表すことができ
る。
• 911のテロリストに関し、我々は誰と誰が知り合いかは知ることができない。しかし、
どのテロリストがどこにいたかという情報を収集することでどのテロリストとどのテロ
リストが関係するかというのがみえてくる。
テロリストF
テロリストAは2つの
集会に出ているの
で、媒介中心性があ
テロリストC テロリストA るとみなすとか。 テロリストA テロリストE
テロリストB テロリストD
ニューヨークでの集会 サンフランシスコでの集会
5. テロリストネットワークがわかる2部グラフ
• ノードはそれぞれテロリストをあらわ
し、⾊色はハイジャックした⾶飛⾏行行機のフ
ライト別となっている。
• どのテロリストとどのテロリストがつ
ながっているかは、誰かどこに誰とい
たかという情報からエッジを作成。
• こうみると、案外、疎なネットワーク
である。しかし、これは情報が不⾜足し
ていることに起因する。
6. テロリストネットワークがわかる2部グラフ
• ロスでのミーティング情報を付与する
と、より⼈人間のネットワークっぽくな
りました。
• このように、ソーシャルグラフがなく
ても、誰がどこにいたかという情報か
ら、ソーシャルグラフもどきがつくれ
てしまうのである。
• こういうのは何かに役⽴立立ちそう。
7. テロリストネットワークがわかる2部グラフ
• さらに、次数中⼼心性や媒介中⼼心性、近
接中⼼心性を求めることで、テロリスト
ネットワークの中⼼心⼈人物を計算するこ
とができる。これは凄い。
• 完全な情報ではないにせよ、収集でき
る情報からこのような活⽤用もできると
いうのは⾯面⽩白い。
• 興味ある⼈人は、この論⽂文参照。
http://firstmonday.org/htbin/cgiwrap/bin/ojs/
index.php/fm/article/view/941/863
9. DVDレンタル購買履歴を
ネットワークにする
• 3つの映画(攻殻機動隊、NUMB3RS、ゴッドファーザー、チャーリーズ・エンジェ
ル)と、映画鑑賞した⼈人(Alice,
Bob,
Carol,
David,
Elvis)がいたとする。で、それ
ぞれ以下のような映画鑑賞をしたとする。
※これは複雑ネットワークを使ったサイジニアのデクワスという製品の発想
Alice Ghost
In
the
Shell
Bob
NUMB3RS
Carol
God
Father
David
Elvis Charlieʼ’s
Angel
10. DVDレンタルの購買履歴を
ネットワークにする
• 隣接⾏行行列をつかってデータをみてみる。
• 映画と映画鑑賞した⼈人の隣接⾏行行列を⾏行行列積にすると、それぞれどの映画が多くみられた
か、誰が多く映画がみたかがわかる。映画はNUMB3RSとCharlieʼ’s
Angelが3で最もみ
られた映画であり、Davidが最も映画鑑賞した⼈人であることがわかる。
12. DVDレンタルの購買履歴を
ネットワークにする
• エッジリストで計算してみる。igraphというパッケージを使えば計算がめさめさ速い。
• 媒介中⼼心性は、Charlieʼ’s
Angel(15.5)とDavid(17.0)と⾼高く、近接中⼼心性も、
Charlieʼ’s
Angel(0.533)とDavid(0.571)と⾼高い。三⾓角形はどれもないので、クラス
ター係数は0かNaNである。
13. DVDレンタルの購買履歴を
ネットワークにする
• コミュニティー抽出の発想をとりいれる。
• 映画ネットワーク(左図)と映画鑑賞者ネットワーク(右図)に分類する。
14. DVDレンタルの購買履歴を
ネットワークにする
• 映画コミュニティと映画鑑賞者コミュニティのそれぞれのネットワーク指標を計算する
• コミュニティにしたことで、クラスター係数が算出された。三⾓角形があるということは
その三者の関係性は強いとみなすことができるので、その発想からレコメンドができた
りもする。例えば、AliceはGhost
In
the
Shellを観ていて、同じ映画をDavidも観てい
るので、AliceにDavidのみた映画をレコメンドするなど(これは単純化した例)。
15. なぜ3⼈人いると噂が広まるのか
• 世の中の様々な三角形について紹介。職場の人間関係、仕事の能率化、クチコミ、無縁
社会、院内感染の防止、金融危機、環境問題、スポーツ選手のランキングなど。今回LT
で話したサイジニアについても紹介している。
• 『なぜ3人いると が広まるのか』増田直紀、日経プレミアムシリーズ
http://www.amazon.co.jp/dp/4532261554/
※わたしもちょろっと名前がでているよ!