SlideShare a Scribd company logo
1 of 27
主観表現と客観表現を用いた
Twitterにおける有益なツイートの推定
†明治大学大学院 理工学研究科
2015.3.4 (Wed)DEIM 2015 A8-1
Outline
2
1. はじめに
2. 事前確認
3. 分析と評価
4. まとめ
有益なツイート発見したい
主観・客観 を使うべき!?
良さそう
有益なツイート発見しよう
発見できた
1. はじめに
3
1.1 背景
• 情報ネットワーク, ソーシャルネットワーク の 発達
• イベント, 流行
→ 膨大なデータ が溢れている
• 有益な情報(ツイート)提示ができていない
4
1.2 目的
• 有益な情報提示
→(短文)ツイート内容のみ解析
設定した有益さ のツイートランキング作成
5
abc. def.
hij.
klm.
Rank 1
Rank 2
Rank N
…
score
2.8 pt
2.6 pt
0.0 pt
上位に有益なツイート
1.3 有益
× スパム除去
→スパムでない情報が有益とは限らない
× ポジティブ情報 (ネガポジ判定)
→ネガティブツイートも有益な可能性
◎ 事実を含めて主観が入った情報
e.g.『iPhone6 発売だって。大きくて使いにくそう。』
→事実 →主観
6
1.4 日本語評価極性辞書
主観→主観語 事実→客観語
• 主観語, 客観語 の 辞書
→ 名詞, 用言 いずれも利用
7
例 種類数
客観的 (経験)
Objective
救う 3,590
主観的 (評価)
Subjective
可愛い 6,955
2. 事前確認
8
2.1 事前確認の目的
9
• 主観語, 客観語 が出現しているか
→ 有益 な情報(RT ツイート)を得られるのか
2.2 対象データ
10
• Twitter ツイート
tweets
normal : 1,102,110 Twitter Streaming APIs
retweet : 133,171 Public API , 2014/10/25-29
all (RT: 11%) : 1,235,281 GET statuses/sample
• 収集対象 (①~⑤の全てを満たすツイート)
①言語設定が「ja」
②ツイートに日本語を含む
③ツイートに「@」や「http」を含まない
④リプライツイートではない
⑤同一RTツイートは,RT経過時間が最短
i) 単一ツイートにおける平均出現語数
ii) 語の出現ツイート割合
2.3 確認①
11
i) Normal Tweet Retweet Tweet
客観語 0.59 words/tweet 1.31 words/tweet
主観語 0.45 words/tweet 0.89 words/tweet
ii) Normal Tweet Retweet Tweet
客観語 37 % 57 %
主観語 31 % 47 %
2.4 確認②
12
• {主観語,客観語}の出現数における
ツイートに着目した際,
RT ツイートの割合
→偏りなければ 11%
e.g.
客観語が3語出現
するツイートの
リツイート割合
通常比結果比
89%
11%
75%
25%
Normal Retweet
2.4 確認② 客観語
13
客観語数 (words)
RT 割合
偏りなし
結果
2.4 確認② 主観語
14
RT 割合
主観語数 (words)
偏りなし
結果
2.5 確認まとめ
15
• 主観語, 客観語 を含むツイートは 有益(RTされ)そう
→多く含むほど,確率Up
⇒着目OK
3. 分析と評価
16
3.1 アプローチ
17
• 主観語と客観語の出現情報
→ ツイートの有益性スコアを付けてランキング
• 先行研究で採用されている特徴量
→ ツイートの文字数は多いほどリツイートされる
ラーメン食べたなう。
六厘舎のつけ麺食べた。美味しかった!
RT 確率↓
RT 確率↑
3.2 評価
18
• 目的
→スコア付け手法が妥当かどうか
⇒有益(RT)なツイートがランキング上位にいるか
• 方法
i ) Precision@k (P@k)
→ RTツイートが上位にいるか判断する指標
ii) Normalized Discounted Cumulated Gain @k (nDCG@k)
→ 推定閲覧数に対するRT数を考慮した指標
3.2 評価 nDCG -1
19
𝑫𝑪𝑮 𝒌 =
𝒊=𝟏
𝒌
𝟐 𝒓𝒆𝒍𝒊 − 𝟏
log 𝟐(𝒌 + 𝟏)
𝒏𝑫𝑪𝑮@𝒌 =
𝑫𝑪𝑮 𝒌
𝑰𝑫𝑪𝑮 𝒌
𝒓𝒆𝒍: graded relevance value , 𝑰𝑫𝑪𝑮: Ideal DCG
関連度 10
関連度 9
関連度 1…
Rank 1
Rank 2
Rank 10
関連度 8
関連度 10
関連度 3
…
0
システム
出力結果
Rank 1
Rank 2
Rank 10
理想
(Ideal)
Rank k
Rank k
• 各ツイートのリツイート割合
𝒓𝒆𝒕𝒘𝒆𝒆𝒕_𝒓𝒂𝒕𝒆 =
𝒓𝒆𝒕𝒘𝒆𝒆𝒕 𝒄𝒐𝒖𝒏𝒕
𝒇𝒐𝒍𝒍𝒐𝒘𝒆𝒓 𝒄𝒐𝒖𝒏𝒕+𝟏
• 関連度=リツイート割合の低い順の順位に相当する値
3.2 評価 nDCG -2
20
RT
tweet_1
follower
RT
tweet_1
tweet_2
tweet_3
retweet_rate 関連度 (rel)
0.50
0.33
0.67
0.2
0.1
0.3
3.3 実験手法
21
i ) proposal → 主観語+客観語+ツイート文字数
ii ) word → 主観語+客観語
iii ) length → ツイート文字数
iv ) follower → フォローワー数
v ) random → 乱数
> >>
22
3.4 評価結果 P@k
top k proposal word length follower random
1 0 0 1 1 0
10 0.9 0.9 0.5 1.0 0.1
100 0.66 0.68 0.49 1.00 0.10
1000 0.596 0.576 0.469 0.988 0.116
10000 0.5055 0.4473 0.4750 0.9137 0.1123
1% 0.4985 0.4339 0.4747 0.9040 0.1114
最良 中間 中間 最悪
> >>
23
3.4 評価結果 nDCG@k
top k proposal word length follower random
1 0.0000 0.0000 0.0326 0.1474 0.0000
10 0.2781 0.2761 0.2292 0.0803 0.0000
100 0.3251 0.3304 0.2354 0.1097 0.0309
1000 0.3195 0.3113 0.2586 0.1023 0.0474
10000 0.2820 0.2509 0.2582 0.1774 0.0533
1% 0.2834 0.2465 0.2619 0.1985 0.0537
最良 中間 中間 最悪
4. まとめ
24
4.1 まとめ
• 主観表現と客観表現を用いると
有益なツイートを取得できる
• 提案手法によるスコア付けを行い
ランキング Top 1% における評価に着目
→ 良い結果
25
4.2 課題
• 提案手法の改善 → 文末表現
• 本当に有益? → ユーザによる評価
• ユーザの好み
• 情報の組み合わせ → フィルタリング以外も
26
27
ご清聴ありがとうございました

More Related Content

Viewers also liked

Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Japanese Club
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori
 
Kanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseKanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseShinichi Kudo
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理Wataru ONO
 
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房Takehiko Ito
 

Viewers also liked (6)

Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
Kanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseKanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnamese
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理
 
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
 

Similar to 主観表現と客観表現を用いたTwitterにおける有益なツイートの推定

Twitter User Recommendation
Twitter User RecommendationTwitter User Recommendation
Twitter User RecommendationTakuto Kimura
 
Twitter web application
Twitter web applicationTwitter web application
Twitter web applicationMiki Takashi
 
Learning to rank for IR
Learning to rank for IRLearning to rank for IR
Learning to rank for IRtakaya imai
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)Kosetsu Tsukuda
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニングYudai Shinbo
 
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~江上 ゼミナール
 

Similar to 主観表現と客観表現を用いたTwitterにおける有益なツイートの推定 (10)

Twitter User Recommendation
Twitter User RecommendationTwitter User Recommendation
Twitter User Recommendation
 
Twitter web application
Twitter web applicationTwitter web application
Twitter web application
 
Learning to rank for IR
Learning to rank for IRLearning to rank for IR
Learning to rank for IR
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
 
最終報告会
最終報告会最終報告会
最終報告会
 
Katayama m
Katayama mKatayama m
Katayama m
 
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~
 
matsuo m
matsuo mmatsuo m
matsuo m
 

Recently uploaded

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (12)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

主観表現と客観表現を用いたTwitterにおける有益なツイートの推定