Más contenido relacionado Similar a [JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~ (20) Más de Kenji Koshikawa (7) [JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~2. UID: 29 CRFを用いたメディア情報の抽出とLinked Data化
~ ソーシャルメディアとマスメディアの比較事例 ~
発表者: 越川 兼地 所属: 電気通信大学 大須賀・田原研究室
マス/ソーシャルメディア
報じられる情報の差に着目
J
換意ス 異 メ
A
し ト種
, 味情メ デ W
ツイッターから構築した
事象ネットワーク(RDF)
構
築ネかィ
報デ ィ S
較に 機
事関オ
日応
配用
を現見
提す
事可
視
し ッ らア
た ト 事に
ア
比 新
象投
聞
ネ
例す 備事 案るえ 象化 ッ ワ を稿 較
をるス さ例 すエ る 情す トー さ
紹話プ れと るー る ワ 表 の
ーク た現れ 研
介題 たし . ジ化 報こ
すの レ ク に すテ 発表日
輸て ェ を と
る比イ 送先
ン
ト 実
ので を 変 るキ 究 10月26日 金
. ,
セッション情報: <WEB・ネットワーク・ソーシャルメディア> 10:50~12: 40
3. 事象情報の見える化エージェント
デモ
ある事象(出来事)に関する本研究で構築した
事象ネットワークをお見せします.
<ネットワークの説明>
例 山手線
• ノード:
状態
– 概念 (キーワード) 時間
9時頃 運転見合わせ
• エッジ:
– ノード間の関係を明示的に表す.
後述
3
8. 目次
デモ
背景
提案システム
応用事例
まとめ
今後の課題
8
12. 5. CRFを用いた事象属性の推定
ソリューション: [Lafferty 2001]
条件付き確率場(CRF: Conditional Random Field)
を用いて形態素毎に事情属性を推測する.
事象情報を表現するために定義した属性
(次スライドで説明)
[Lafferty 2001] Lafferty, J., McCallum, A., and Pereira, F.: Conditional random fields: Probabilistic models for
segmenting and labeling sequence data, in Proc. ICML2001 (2001)
12
13. 事象の表現方法
事象情報を表現するために,[Nguyen 12]の
行動属性を拡張し9つの事象属性を定義した.
事象属性 意味
Subject 主題
Action 動作
What 動作の目的語
Target (new) 動作の対象者
Status (new) 主題の状態
Where 事象の起こる場所
When 事象の起こる時刻及び場面
Because of (new) 事象の因果関係
According (new) 情報の発信元
[Nguyen 12]
The-Minh Nguyen, Takahiro Kawamura, Yasuyuki Tahara, and Akihiko Ohsuga: Self-Supervised Capturing of Users’ Activities from
Weblogs. International Journal of Intelligent Information and Database Systems,Vol.6, No.1, pp.61-76, InderScience Publishers, 2012
13
20. 5. CRFを用いた事象属性の推定:
訓練データの作成方法
人手で形態素毎に
事象属性ラベルの
付与を行う.
B: Begin 表現の始まり
I: Inside表現の途中
O: Outside表現以外
20
24. ② 事象属性を推定する:
4.事象ラベルの推測精度 1/2
評価実験概要:
正解データを用意し,5-交差検定を行った.
精度指標(Precision/Recall/F値)は各回(5回)の平均
値により算出した.(20%をテストデータとした.)
正解データの概要:
ラベル 文の Subjec Because_ Accordin
メディア Action What Target Status Where When
数 数 t of g
Twitter 2,482 170 274 307 262 10 160 46 75 16 39
朝日新聞
デジタル 1,228 55 93 188 131 28 29 40 44 17 4
24
25. ② 事象属性を推定する:
4.事象ラベルの推測精度 2/2
結果:
メディア 指標 Subject Action What Target Status Where When Because_of According 平均
Twitter Presicion 64.14% 74.79% 50.17% - 68.71% 82.48% 74.20% - 80.00% 70.64%
Recall 59.24% 74.32% 39.76% - 33.16% 46.45% 45.76% - 38.48% 48.17%
F-
measure
61.10% 74.35% 43.87% - 44.60% 55.60% 54.51% - 47.67% 54.53%
朝日新聞
デジタル Presicion 70.50% 81.02% 58.53% 63.75% 87.50% 88.93% 70.81% - - 74.43%
Recall 48.61% 82.76% 43.56% 60.71% 50.98% 66.38% 74.44% - - 61.07%
F-
measure
57.35% 81.38% 49.37% 60.14% 59.72% 75.07% 71.81% - - 64.98%
Presicionはそこそこの精度.
25
26. ② 事象属性を推定する:
4.事象ラベルの推測精度 2/2
結果:
メディア 指標 Subject Action What Target Status Where When Because_of According 平均
Twitter Presicion 64.14% 74.79% 50.17% - 68.71% 82.48% 74.20% - 80.00% 70.64%
Recall 59.24% 74.32% 39.76% - 33.16% 46.45% 45.76% - 38.48% 48.17%
F-
measure
61.10% 74.35% 43.87% - 44.60% 55.60% 54.51% - 47.67% 54.53%
朝日新聞
デジタル Presicion 70.50% 81.02% 58.53% 63.75% 87.50% 88.93% 70.81% - - 74.43%
Recall 48.61% 82.76% 43.56% 60.71% 50.98% 66.38% 74.44% - - 61.07%
F-
measure
57.35% 81.38% 49.37% 60.14% 59.72% 75.07% 71.81% - - 64.98%
Twitterデータセット側の再現率の低さが目立つ.
要因: ソーシャルメディア側の表現の崩れ,表現自体の多
さなどのメディア独自の特性から学習データの不足がその
一因と考えられる.
26
28. 5. CRFを用いた事象属性の推定
[{ “When”: “10月から”,
“Action”: “本格運用される”,
“Subject”: “オスプレイ” },
{…},]
オンライン処理 オフライン処理
5-1 データの分割(訓練/テスト) 5-2 訓練データの作成
5-4 学習モデルを用いて 5-3 学習モデルの構築
事象属性を推測
5-5 事象の抽出
(using ヒューリスティックルール) 処理フロー 28
29. 提案システム概要
[{ “When”: “10月から”,
言語 “Action”: “本格運用される”,
ライブラリを “Subject”: “オスプレイ” },
用いて変換 {…},]
(Python: rdflib)
30. なぜLinked Data形式で出力?
① 分析面での利点
概念間の関係性が明示されたネットワークを表
現できる. 太 2 二
郎 何関係? 郎
何関係? 1 花
② 供給のしやすさ 重みつき有向グラフ 子
本システムで得た構造化された事象情報の利用
機会を高めるために,将来性を考慮してLinked
Data形式で出力することを選んだ.
いずれは Linked Open Data (LOD)に。
30
31. なぜLinked Data形式で出力?
① 分析面での利点
概念間の関係性が明示されたネットワークを表
現できる. 太 2
恋人 二
二
太
郎
郎 何関係? 郎
郎
友人
何関係? 1 花
花
② 供給のしやすさ 子
重みつき有向グラフ 子
RDF
本システムで得た構造化された事象情報の利用
機会を高めるために,将来性を考慮してLinked
Data形式で出力することを選んだ.
いずれは Linked Open Data (LOD)に。
31
32. 目次
デモ
背景
提案システム
応用事例
まとめ
今後の課題
32
34. 応用事例: データセットについて
対象期間: 2012 4/01 ~ 2012 8/16
フィルタリングキーワード: 「オスプレイ」
フィルタリング後のデータセット情報:
フィルタリングを 1ツイートあたり
メディア 通過率 [%] 総文字数
通過したツイート数 の文字数
Twitter 3,084 0.0255% 76 234,168
運営元 1記事あたり
ニュースメディア 記事数 総文字数
媒体 の平均文字数
MSN 産経ニュース 新聞社 231 375 86,553
朝日新聞デジタル 新聞社 116 358 41,559
日テレ NEWS24 TV局 110 96 10,534
FNN TV局 78 503 39,235
34
37. ネットワークを通しての考察
1. 話題の多様性
2. 少数意見に関して (略)
3. 2種のオスプレイの存在
4. 偏在性に関して (future work)
37
38. ネットワークを通しての考察
1. 話題の多様性
2. 少数意見に関して (略)
3. 2種のオスプレイの存在
4. 偏在性に関して (future work)
38
39. 考察例1: 「話題の多様性」
ノード数
Twitter × 産経ニュース
Twitter
ノード数: 4218
産経ニュース(新聞)
ノード数: 2134
FNN(TV)
ソーシャル マス
ノード数: 917
共通の話題 39
40. ネットワークを通しての考察
1. 話題の多様性
2. 少数意見に関して
3. 2種のオスプレイの存在
4. 偏在性に関して (future work)
40
41. 考察例3: 「2種のオスプレイの存在」
ソーシャル マス
共通の話題
日本に配備された機体: MV-22オスプレイ
ソーシャルメディア側のネットワークには
「MV-22オスプレイ」, 「CV-22オスプレイ」
といったオスプレイの型番を示す関係が表現されていた. 41
45. 整理: MV-22 / CV-22
オスプレイの型番と事故率の関係
型番 用途 事故率
MV-22 輸送用 1.93
(日本配備)
米海兵隊所属 - 2.45
航空機平均
CV-22 特殊作戦用(空軍) 13.47
日本に配備される(た)機種 「MV-22」
の事故率は低い.
45
47. ネットワークを通しての考察
1. 話題の多様性
2. 少数意見に関して
3. 2種のオスプレイの存在
4. 偏在性に関して (future work)
47
48. 考察例4: 偏在性に関して (future work)
• ソーシャルメディアから得られる偏在性の
差に着目: (地域間での意見/世論の差)
※ 今回の評価実験では絞り込み後の位置情報付きのツイートが
5件と少なく実現できなかった.
例
「関東地域」・「沖縄地域」か
ら得た事象ネットワークの
比較(地域間での比較)
48
49. 考察例4: 偏在性に関して (future work)
反対 what 関心ない
関
• ソーシャルメディアから得られる偏在性の what
東
差に着目: (地域間での意見/世論の差)
オスプレイ配備
地
※ 今回の評価実験では絞り込み後の位置情報付きのツイートが
域
5件と少なく実現できなかった.
what
賛成
例 Because of
かっこいい
「関東地域」・「沖縄地域」か
ら得た事象ネットワークの
比較(地域間での比較)
49
50. 考察例4: 偏在性に関して (future work) 沖
反対 what
反対 宜野湾市 関心ない縄
関
• ソーシャルメディアから得られる偏在性の what
差に着目:東(地域間での意見/世論の差) 地
what
地 オスプレイ配備 域
※ 今回の評価実験では絞り込み後の位置情報付きのツイートが
域 オスプレイ配備
5件と少なく実現できなかった.
what 静か
what
賛成 Because of
例 Because of かっこいい
「関東地域」・「沖縄地域」か
賛成 what
保護
ら得た事象ネットワークの
Because of比較(地域間での比較)
尖閣諸島
50
51. 目次
デモ
背景
提案システム
応用事例
まとめ
今後の課題
51
52. まとめ
◎本エージェントのできる(た)こと
○ 事象情報の見える化ができる
○ 異種メディアのネットワーク比較ができる.
○ 比較事例において,いくつかの有用な知見にたどり着
くことができた.
✗本エージェントのできないこと
× 知識(発見)獲得はユーザが目視で行う必要がある.
× ネットワークの重要箇所の特定ができない.
× デマなどの誤情報がネットワークに反映されてしまう
危険がある.
52
55. ネットワークを通しての考察
1. 話題の多様性
2. 少数意見に関して
3. 2種のオスプレイの存在
4. 偏在性に関して (future work)
55