[JAWS2012]CRFを用いたメディア情報の抽出とLinked Data化～ソーシャルメディアとマスメディアの比較事例～

CRFを用いた
メディア情報の抽出とLinked Data化
～ソーシャルメディアとマスメディアの比較事例～
JAWS 2012 発表資料

<WEB・ネットワーク・ソーシャルメディア>
2012/10/26
10:40~12:30 会場(A)

電気通信大学大学院情報システム学研究科
越川兼地, 川村隆浩, 中川博之, 田原康之, 大須賀昭彦

UID: 29 CRFを用いたメディア情報の抽出とLinked Data化
～ソーシャルメディアとマスメディアの比較事例～
発表者: 越川兼地所属: 電気通信大学大須賀・田原研究室

マス/ソーシャルメディア
報じられる情報の差に着目
Ｊ
換意ス異メ
Ａ
しト種
，味情メデＷ
ツイッターから構築した
事象ネットワーク(RDF)
構
築ネかィ
報ディＳ
較に機
事関オ
日応
配用
を現見
提す
事可
視
しッらア
たト事に
ア
比新
象投
聞
ネ
例す備事案るえ象化ッワを稿較
をるスさ例すエる情すトーさ
紹話プれとるーるワ表の
ークた現れ研
介題たし．ジ化報こ
すのレクにすテ発表日
輸てェをと
る比イ送先
ン
ト実
のでを変るキ究 10月26日金
．，
セッション情報: <WEB・ネットワーク・ソーシャルメディア> 10:50～12: 40

事象情報の見える化エージェント
デモ
ある事象(出来事)に関する本研究で構築した
事象ネットワークをお見せします．
<ネットワークの説明>
例山手線
• ノード:
状態
– 概念 (キーワード) 時間

9時頃運転見合わせ
• エッジ:
– ノード間の関係を明示的に表す．
後述
3

デモ(動画: 事象ネットワークの可視化)

デモ動画

4

本研究の提案エージェント/貢献

• 提案するエージェント:
「メディアの情報から
事象情報(出来事)を見える化する」

• 貢献
「事象把握の容易化につながる」
– 各メディアでの主張・論点がわかり，
多角的な視点での事象理解に貢献．

5

背景
ソーシャルメディアの爆発的普及．

マス・ソーシャルメディアで報道・投稿される
情報の違いが顕在化．
=> 「話題に上る」，「問題視される」など
世間を賑わしている．
e.g. 偏向報道, 情報操作

我々は，メディア間の情報差分が重要な情報に
つながると考えている．
6

問題点
多くの事象(出来事)について，
マス・ソーシャルメディアから情報収集/整理
し偏りのない情報理解を確立するのは困難．

目的
各メディア情報から事象情報の見える化
を行うエージェントを提案する．

7

目次
デモ
背景

提案システム
応用事例

まとめ
今後の課題
8

システムの入出力

9

提案システム概要

5. CRFを用いた
事象の抽出

5. CRFを用いた事象属性の推定

ソリューション: [Lafferty 2001]

条件付き確率場(CRF: Conditional Random Field)
を用いて形態素毎に事情属性を推測する.

事象情報を表現するために定義した属性
(次スライドで説明)

[Lafferty 2001] Lafferty, J., McCallum, A., and Pereira, F.: Conditional random fields: Probabilistic models for
segmenting and labeling sequence data, in Proc. ICML2001 (2001)

12

事象の表現方法
事象情報を表現するために，[Nguyen 12]の
行動属性を拡張し9つの事象属性を定義した．
事象属性意味
Subject 主題
Action 動作
What 動作の目的語
Target (new) 動作の対象者
Status (new) 主題の状態
Where 事象の起こる場所
When 事象の起こる時刻及び場面
Because of (new) 事象の因果関係
According (new) 情報の発信元
[Nguyen 12]
The-Minh Nguyen, Takahiro Kawamura, Yasuyuki Tahara, and Akihiko Ohsuga: Self-Supervised Capturing of Users’ Activities from
Weblogs. International Journal of Intelligent Information and Database Systems,Vol.6, No.1, pp.61-76, InderScience Publishers, 2012
13

事象属性と意味ネットワークを用いた
事象の表現方法– 例1
文A:
悪天候のため操縦が難しい．

因果関係
状態

主題

14


オンライン処理オフライン処理

処理フロー 15


5-1 データの分割(訓練/テスト)

処理フロー 16


5-1 データの分割(訓練/テスト) 5-2 訓練データの作成

処理フロー 17

前工程までの処理

Dataset

Data (一部)
オスプレイ形態素解析
軍用機シリーズが
ブックオフにあったので
10冊買ってきた…

18

5. CRFを用いた事象属性の推定:
訓練データの作成方法

人手で形態素毎に
事象属性ラベルの
付与を行う.

19

5. CRFを用いた事象属性の推定:
訓練データの作成方法

人手で形態素毎に
事象属性ラベルの
付与を行う.

B: Begin 表現の始まり
I: Inside表現の途中
O: Outside表現以外
20



処理フロー 21


5-3 学習モデルの構築

処理フロー 22


5-4 学習モデルを用いて 5-3 学習モデルの構築
事象属性を推測
処理フロー 23

② 事象属性を推定する:
4.事象ラベルの推測精度 1/2
評価実験概要:
正解データを用意し，5-交差検定を行った．
精度指標(Precision/Recall/F値)は各回(5回)の平均
値により算出した.(20%をテストデータとした.)

正解データの概要:
ラベル文の Subjec Because_ Accordin
メディア Action What Target Status Where When
数数 t of g

Twitter 2,482 170 274 307 262 10 160 46 75 16 39
朝日新聞
デジタル 1,228 55 93 188 131 28 29 40 44 17 4

24

結果:
メディア指標 Subject Action What Target Status Where When Because_of According 平均

Twitter Presicion 64.14% 74.79% 50.17% - 68.71% 82.48% 74.20% - 80.00% 70.64%
Recall 59.24% 74.32% 39.76% - 33.16% 46.45% 45.76% - 38.48% 48.17%
F-
measure
61.10% 74.35% 43.87% - 44.60% 55.60% 54.51% - 47.67% 54.53%
朝日新聞
デジタル Presicion 70.50% 81.02% 58.53% 63.75% 87.50% 88.93% 70.81% - - 74.43%
Recall 48.61% 82.76% 43.56% 60.71% 50.98% 66.38% 74.44% - - 61.07%
F-
measure
57.35% 81.38% 49.37% 60.14% 59.72% 75.07% 71.81% - - 64.98%

Presicionはそこそこの精度．

25

結果:
メディア指標 Subject Action What Target Status Where When Because_of According 平均

Twitter Presicion 64.14% 74.79% 50.17% - 68.71% 82.48% 74.20% - 80.00% 70.64%
Recall 59.24% 74.32% 39.76% - 33.16% 46.45% 45.76% - 38.48% 48.17%
F-
measure
61.10% 74.35% 43.87% - 44.60% 55.60% 54.51% - 47.67% 54.53%
朝日新聞
デジタル Presicion 70.50% 81.02% 58.53% 63.75% 87.50% 88.93% 70.81% - - 74.43%
Recall 48.61% 82.76% 43.56% 60.71% 50.98% 66.38% 74.44% - - 61.07%
F-
measure
57.35% 81.38% 49.37% 60.14% 59.72% 75.07% 71.81% - - 64.98%

Twitterデータセット側の再現率の低さが目立つ．
要因: ソーシャルメディア側の表現の崩れ，表現自体の多
さなどのメディア独自の特性から学習データの不足がその
一因と考えられる．
26



処理フロー 27


[{ “When”: “10月から”,
“Action”: “本格運用される”,
“Subject”: “オスプレイ” },
{…},]

5-5 事象の抽出
(using ヒューリスティックルール) 処理フロー 28

提案システム概要

[{ “When”: “10月から”,
言語 “Action”: “本格運用される”,
ライブラリを “Subject”: “オスプレイ” },
用いて変換 {…},]
(Python: rdflib)

なぜLinked Data形式で出力？
① 分析面での利点
概念間の関係性が明示されたネットワークを表
現できる．太 2 二
郎何関係？郎
何関係？ 1 花
② 供給のしやすさ重みつき有向グラフ子
本システムで得た構造化された事象情報の利用
機会を高めるために，将来性を考慮してLinked
Data形式で出力することを選んだ．
いずれは Linked Open Data (LOD)に。
30

なぜLinked Data形式で出力？
① 分析面での利点
概念間の関係性が明示されたネットワークを表
現できる．太 2
恋人二
二
太
郎
郎何関係？郎
郎

友人
何関係？ 1 花
花
② 供給のしやすさ子
重みつき有向グラフ子
RDF
本システムで得た構造化された事象情報の利用
機会を高めるために，将来性を考慮してLinked
Data形式で出力することを選んだ．
いずれは Linked Open Data (LOD)に。
31

目次
デモ
背景

提案システム
応用事例

まとめ
今後の課題
32

メディア比較事例:
話題: 「オスプレイ」

オスプレイに関する比較事例を紹介します．

1月 4月
7月 10月

応用事例: データセットについて
対象期間: 2012 4/01 ~ 2012 8/16
フィルタリングキーワード: 「オスプレイ」
フィルタリング後のデータセット情報:
フィルタリングを 1ツイートあたり
メディア通過率 [%] 総文字数
通過したツイート数の文字数
Twitter 3,084 0.0255% 76 234,168

運営元１記事あたり
ニュースメディア記事数総文字数
媒体の平均文字数
MSN 産経ニュース新聞社 231 375 86,553
朝日新聞デジタル新聞社 116 358 41,559
日テレ NEWS24 TV局 110 96 10,534
FNN TV局 78 503 39,235
34

ネットワーク可視化の工夫点
ノード・エッジの大小:
=> 頻度情報を表現

ノードの色:
=> メディア毎のソーシャルマス
出現割合を表現
共通の話題

エッジの色: => 関係の種類を識別
subject what when status according

because
action where target
of

※ 使用した可視化ライブラリ: Gephi 0.8.1 beta 35

ネットワークの可視化例

36

ネットワークを通しての考察
1. 話題の多様性
2. 少数意見に関して (略)
3. 2種のオスプレイの存在
4. 偏在性に関して (future work)

37

2. 少数意見に関して (略)

38

考察例1: 「話題の多様性」
ノード数
Twitter × 産経ニュース
Twitter

ノード数: 4218
産経ニュース(新聞)

ノード数: 2134

FNN(TV)
ソーシャルマス
ノード数: 917
共通の話題 39

2. 少数意見に関して

40

考察例3: 「2種のオスプレイの存在」
ソーシャルマス

共通の話題

日本に配備された機体: MV-22オスプレイ

ソーシャルメディア側のネットワークには
「MV-22オスプレイ」, 「CV-22オスプレイ」
といったオスプレイの型番を示す関係が表現されていた． 41


「MV-22オスプレイ」ノードに着目:
=>「MV-22」物資輸送用．「CV-22」の用途は？
42


「事故率」ノードに着目
43

「オスプレイの事故率」に着目

考察例3:
「2種のオスプレイ
の存在」
型番と事故率の関係が反映された(ソーシャル)
「1.93」に着目「13.47」に着目

44

整理: MV-22 / CV-22
オスプレイの型番と事故率の関係
型番用途事故率
MV-22 輸送用 1.93
(日本配備)
米海兵隊所属 - 2.45
航空機平均
CV-22 特殊作戦用(空軍) 13.47

日本に配備される(た)機種「MV-22」
の事故率は低い．
45

まとめ
マスメディアにおいて報道されてなかったこと:
• 異なる機種の存在
• 型番と事故率の関係
• 日本に配備される機体の事故率が低いという事実

本ネットワークを通して，
２種のオスプレイの存在及び事故率との関係が確認でき，
マスメディア側の偏向報道の疑いにたどり着くことができた．

偏向報道の疑い:
「故意に型番と事故率の情報を伏せ，
反対ムードを換気するかのような報道姿勢」

46


47

考察例4: 偏在性に関して (future work)
• ソーシャルメディアから得られる偏在性の
差に着目: (地域間での意見/世論の差)
※ 今回の評価実験では絞り込み後の位置情報付きのツイートが
5件と少なく実現できなかった．

例
「関東地域」・「沖縄地域」か
ら得た事象ネットワークの
比較(地域間での比較)

48

考察例4: 偏在性に関して (future work)
反対 what 関心ない
関
• ソーシャルメディアから得られる偏在性の what
東
差に着目: (地域間での意見/世論の差)
オスプレイ配備
地
域
what

賛成
例 Because of
かっこいい
比較(地域間での比較)

49

考察例4: 偏在性に関して (future work) 沖
反対 what
反対宜野湾市関心ない縄
関
• ソーシャルメディアから得られる偏在性の what
差に着目:東(地域間での意見/世論の差) 地
what
地オスプレイ配備域
域オスプレイ配備
what 静か
what
賛成 Because of
例 Because of かっこいい
賛成 what
保護
Because of比較(地域間での比較)
尖閣諸島

50

目次
デモ
背景

提案システム
応用事例

まとめ
今後の課題
51

まとめ
◎本エージェントのできる(た)こと
○ 事象情報の見える化ができる
○ 異種メディアのネットワーク比較ができる．
○ 比較事例において，いくつかの有用な知見にたどり着
くことができた．

✗本エージェントのできないこと
× 知識(発見)獲得はユーザが目視で行う必要がある．
× ネットワークの重要箇所の特定ができない．
× デマなどの誤情報がネットワークに反映されてしまう
危険がある．

52

今後の課題
<注力したい課題>
•知見獲得の期待できる可視化ツールの開発
– 重要箇所の推定
•ネットワーク指標 (次数・近接・媒介中心性など…)
•頻度情報 (tf-idf)
– 効果的な可視化の実現

• 同じ概念をまとめる(シソーラスなどを使う)
• 抽出精度の改善
• ラベル付けコストの改善
–半教師あり学習の導入など
53


55

考察例2: 少数意見に関して

ソーシャルメディアでは，マスメディアには皆無だった情報
「オスプレイ賛成派」の意見がネットワークに反映された．
(少数派意見へのアクセスが容易)
56

[JAWS2012]CRFを用いたメディア情報の抽出とLinked Data化～ソーシャルメディアとマスメディアの比較事例～

Recomendados

Recomendados

Más contenido relacionado

Similar a [JAWS2012]CRFを用いたメディア情報の抽出とLinked Data化～ソーシャルメディアとマスメディアの比較事例～

Similar a [JAWS2012]CRFを用いたメディア情報の抽出とLinked Data化～ソーシャルメディアとマスメディアの比較事例～ (20)

Más de Kenji Koshikawa

Más de Kenji Koshikawa (7)