Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
TwitterでのUser Recommendation             @TokyoWebmining#232012.10.27            @americiumian
本日の概要   自己紹介・発表の目的 (1 slide)   なぜTwitterユーザ推薦? (3 slides)   Twitterユーザ推薦方式の紹介 (20 slides)   どのように評価するか? (5 slides)   ...
自己紹介・発表の目的   @americiumian       チーズケーキとかまぼこの        ある大学の情報系院生       学部時代はネットワーク        トラヒック制御の研究       現在はTwitterを対...
4   なぜTwitterユーザ推薦?       Twitterとは       Twitterから情報を得るには       ユーザ推薦の何がうれしいか
Twitterとは            Twitter                SNSの一種                リアルタイムで情報の収集・発信・共有・コミュニケー                 ションを行うマイクロブ...
Twitterから情報を得るには   follow       他ユーザのtweetを見ることができるようにすること       -er : 自分をfollowしているユーザ                               f...
よいユーザが推薦できると何がうれしいか   Twitterでしか得られない情報を効率的に得られる       キーワードで探すとノイズが多い+API制限       followすると今後もその話題についての情報が得られる   影響力の...
8   Twitterユーザ推薦法の紹介       よいユーザとは?       目的別ユーザ推薦法
よいユーザとは?   例えば                   vs   一概には決められない       有名人を推薦すべき?       同じ会社の人を推薦すべき?       自分と似た傾向のつぶやきをする人を推薦すべき?  ...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
TwitterRank   目的       総合的に影響力の高いユーザを推薦する   手法のアイデア       ユーザは同じトピックを共有するユーザをフォローしやすい           どのトピックをつぶやきやすいか調べる   ...
手法概要 1. Tweetを収集       2. LDAを用いて     3. 各ユーザ,どのトピックの                      トピックを抽出        発言が多いか調べる                       ...
結論   実験結果       影響力のある人物を抽出できた(定性的評価)       以下の手法に比べ,良い結果を出した           フォロワー数           フォロワーグラフにおけるPageRank        ...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
属性伝播に着目した推薦   目的       同じ興味,所属のユーザを推薦する       *この論文では,同じ所属のクラスタを発見するにとどまる   手法のアイデア       ユーザは同じ属性を持つユーザをフォローすることが多い ...
手法概要 属性の伝播とは ある属性を持つユーザn人以上に followされている時,属性が伝搬 している,と判断する1. ターゲットユーザがfollowしている   ユーザセット(第一世代)を得る2. 第一世代がn人以上followしている  ...
結論   実験       あるユーザにfolloweeを属性別で分類してもらう       そのユーザセットを元に,属性伝播の基準(n)や世代数        (m)を変えてグラフを構成       実際に属性が伝搬しているかどうかタ...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
TURKEYSで用いる Twitterの機能   retweet (RT)       あるユーザのtweetを、本文を変えることなく、        引用者情報を付加して再投稿すること(情報の共有)   reply (@...)    ...
Twitter User Rank using KEYword Search   目的       ある話題について影響力のあるユーザを推薦する   手法のアイデア       ある話題に関して,価値のあるRTやreplyをしている  ...
手法概要      クエリ                クエリを含むtweet            tweet/Retweet, replyしたユーザ                        +それに対するreply         ...
結論   実験結果       以下の手法よりもよい結果           tweet数           follow関係           ユーザ同士の関係のみを考慮したTURKEYS   課題       とてもポピュ...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
Friendship and location analysis and prediction   目的       実際の友達関係を推定       ユーザの位置推定   手法のアイデア       同じような語彙を使う人は友達の可...
手法1. tweetの語彙類似度   2. tweetの位置情報   3. どの程度followeeが   を用いてユーザ間の        を用いて,同じ場所に      かぶっているかを計算   類似度を計算           いた度合い...
結論   実験方法       tweetから”@***”は除いて実験した       フォロー関係の一部を隠して,推測   実験結果       50%のエッジを隠しても上手く動いた       全てのエッジを隠してもある程度動い...
手法のまとめ               TwitterRank   属性伝播法      TURKEYS   Flap目的とするユーザ       総合的影響力        同属性のユーザ    ある話題で影響   実際の友達       ...
29   どうやって評価する?        ユーザの評価は難しい        個々のユーザを評価            主観評価            ユーザによる評価        ランキング全体を評価            ...
ユーザ推薦の評価は難しい   follower数が多いとよい?       たくさんfollowして,フォロー返しを待てば,        follower数は増やせる       Webページの被リンク数とは異なる   tweet数が...
個々のユーザの評価 – 主観評価   概要       推薦されたユーザのtweetを実際に見て評価する   利点       手法のどこが悪いか発見しやすい       手軽に評価できる   欠点       元となる ユーザ/...
個々のユーザの評価 - ユーザ評価   評価方法       推薦ユーザを見せ,質問にn段階で答えてもらい,評価           ”フォローしたいか”           ”目的に沿ったユーザか” etc...       同様の...
ランキング全体の評価   DCG(Discounted Cumulative Gain)       0. システムはランク付けされたユーザリストを出力       1. 何らかの指標を用いて全ユーザに関連度Rを付与       2. ...
DCGの具体的な計算例理想         A       B      C     D      E 関連度       3       3      2     2      1                 関連度3 : すごく関係ある...
まとめ   なぜTwitterユーザ推薦?       興味のある情報が得られる       商品の宣伝にも   何を目的とするか,が大事       目的に応じてアルゴリズムは異なる   評価は難しい       個々の評価  ...
付録1. Twitter研究の主なトピックまとめ    ユーザ推薦    評判分析    実世界の動向(株価・売上)の予測    ユーザの属性推定    トピック同定    トレンド分析    自動要約    情報の信頼性評価 ...
付録2. Twitterアカウントの増やし方         1. gmailアカウントを作る             example@gmail.com         2. example+(任意)@gmail.comで登録     ...
今回紹介した論文   総合的に影響力の高いユーザを推薦       Weng, J.; Lim, E.-P.; Jiang, J.; and He, Q. 2010.        TwitterRank:Finding Topic-Sen...
今回紹介した論文   ある話題について影響力の高いユーザを推薦       Tomoya Noro, Fei Ru, Feng Xiao, Takehiro Tokuda        Twitter User Rank Using Key...
手法の参考文献   LDA       [Blei+2003] Latent Dirichlet allocation, JMLR       latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」  ...
その他参考文献   ユーザ推薦以外のTwitter研究       マイクロブログマイニングの現在   他のランキングの評価手法       Web Data Mining           http://www.cs.uic.ed...
Próxima SlideShare
Cargando en…5
×

Twitter User Recommendation

6.186 visualizaciones

Publicado el

Publicado en: Tecnología
  • Dating for everyone is here: ❶❶❶ http://bit.ly/39mQKz3 ❶❶❶
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí
  • Sex in your area is here: ❤❤❤ http://bit.ly/39mQKz3 ❤❤❤
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí

Twitter User Recommendation

  1. 1. TwitterでのUser Recommendation @TokyoWebmining#232012.10.27 @americiumian
  2. 2. 本日の概要 自己紹介・発表の目的 (1 slide) なぜTwitterユーザ推薦? (3 slides) Twitterユーザ推薦方式の紹介 (20 slides) どのように評価するか? (5 slides) まとめ (1 slide) 付録・参考文献 2
  3. 3. 自己紹介・発表の目的 @americiumian  チーズケーキとかまぼこの ある大学の情報系院生  学部時代はネットワーク トラヒック制御の研究  現在はTwitterを対象とした レコメンデーションの研究発表目的 Twitterユーザ推薦の概要をつかんで頂く  目的・アイデア・手法の概要・結果に絞って説明します  詳細は各論文へ 3
  4. 4. 4 なぜTwitterユーザ推薦?  Twitterとは  Twitterから情報を得るには  ユーザ推薦の何がうれしいか
  5. 5. Twitterとは  Twitter  SNSの一種  リアルタイムで情報の収集・発信・共有・コミュニケー ションを行うマイクロブログサービス  特徴  1 tweetは140字以内  登録ユーザ数は5億人以上 (2012年7月) [2]  1日のtweet数は3億4000万以上 (2012年3月) [1]  情報インフラとしての役割[1] http://jp.techcrunch.com/archives/20120321six-year-old-twitter-now-has-140m-active-users-sending-340m-tweets-per-day/ [2] http://jp.techcrunch.com/archives/20120730analyst-twitter-passed-500m-users-in-june-2012-140m-of-them-in-us- 5 jakarta-biggest-tweeting-city/
  6. 6. Twitterから情報を得るには follow  他ユーザのtweetを見ることができるようにすること  -er : 自分をfollowしているユーザ follow  -ee : 自分がfollowしているユーザ  friendとも A B Search  クエリを含む最新tweetを検索  最新1500件 or 最新1週間分に限る  ノイズも多い 6
  7. 7. よいユーザが推薦できると何がうれしいか Twitterでしか得られない情報を効率的に得られる  キーワードで探すとノイズが多い+API制限  followすると今後もその話題についての情報が得られる 影響力のあるユーザが分かれば宣伝してもらえる  ソエンド  qrustスコア(影響力スコア)の高いユーザ に対し,宣伝ツイートをしたらクーポン発行  Klout  Kloutスコア(影響力スコア)が高いユーザ に対し,空港のラウンジ無料招待 7
  8. 8. 8 Twitterユーザ推薦法の紹介  よいユーザとは?  目的別ユーザ推薦法
  9. 9. よいユーザとは? 例えば vs 一概には決められない  有名人を推薦すべき?  同じ会社の人を推薦すべき?  自分と似た傾向のつぶやきをする人を推薦すべき? どのようなユーザを推薦したいか 決める必要がある 9
  10. 10. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 10
  11. 11. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 11
  12. 12. TwitterRank 目的  総合的に影響力の高いユーザを推薦する 手法のアイデア  ユーザは同じトピックを共有するユーザをフォローしやすい  どのトピックをつぶやきやすいか調べる  各トピックで影響力の高い人を見つける  リンク解析手法を適用する  総合して,影響力の高い人を見つける  重み付き和を求める 12
  13. 13. 手法概要 1. Tweetを収集 2. LDAを用いて 3. 各ユーザ,どのトピックの トピックを抽出 発言が多いか調べる 𝑟 𝑡 𝑃𝑅 𝑡4. 3の解析を元に 5. 各トピックについて 6. トピック頻度で JSダイバージェンスで フォロー関係グラフを構成する 重み付けして ユーザ間の類似度を測る 重みは類似度とtweet数を考慮 スコアリング 13 PageRankでスコアリングする
  14. 14. 結論 実験結果  影響力のある人物を抽出できた(定性的評価)  以下の手法に比べ,良い結果を出した  フォロワー数  フォロワーグラフにおけるPageRank  トピックの頻度を考慮しないTwitterRank 課題  “follow”の理由を推測して分類する必要がある  (tweet数が多いほどよいユーザとは限らない)  (botに弱い) 14
  15. 15. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 15
  16. 16. 属性伝播に着目した推薦 目的  同じ興味,所属のユーザを推薦する  *この論文では,同じ所属のクラスタを発見するにとどまる 手法のアイデア  ユーザは同じ属性を持つユーザをフォローすることが多い  ある大学の人は同じ大学の人をフォローしやすい  ある属性を持った多くの人にフォローされていれば, その人も同じ属性を持っているのでは?  属性が伝播している  同じ属性を持つユーザで,フォローしていない人を推薦 16
  17. 17. 手法概要 属性の伝播とは ある属性を持つユーザn人以上に followされている時,属性が伝搬 している,と判断する1. ターゲットユーザがfollowしている ユーザセット(第一世代)を得る2. 第一世代がn人以上followしている ユーザセット(第二世代)を得る3. 2を繰り返すことで第m世代までの ユーザセットを得る 17
  18. 18. 結論 実験  あるユーザにfolloweeを属性別で分類してもらう  そのユーザセットを元に,属性伝播の基準(n)や世代数 (m)を変えてグラフを構成  実際に属性が伝搬しているかどうかターゲットユーザに 判断してもらう  同じ属性のコミュニティを発見することができた 課題  botや有名人アカウントに影響されやすい  属性の規模に応じて,nやmを決める必要がある 18
  19. 19. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 19
  20. 20. TURKEYSで用いる Twitterの機能 retweet (RT)  あるユーザのtweetを、本文を変えることなく、 引用者情報を付加して再投稿すること(情報の共有) reply (@...)  他のユーザとの会話や言及  会話のchainを辿れる 20
  21. 21. Twitter User Rank using KEYword Search 目的  ある話題について影響力のあるユーザを推薦する 手法のアイデア  ある話題に関して,価値のあるRTやreplyをしている ユーザは,followする価値がある  グラフを構成し,影響力のあるユーザを推薦する  リンク解析手法 21
  22. 22. 手法概要 クエリ クエリを含むtweet tweet/Retweet, replyしたユーザ +それに対するreply User Influence Score(UI) 1. tweetがユーザに与える影響力を表す,Tweet Count Score(TC) (Re)tweet 関係を加味した隣接行列を作る1. あるユーザのtweetが 2. ユーザがtweetに与える影響力を表す 含まれる割合を計算 retweet,reply関係を加味した隣接行列を作る 3. HITSに似た手法を用いてスコアリング 𝑇𝑈𝑅𝐾𝐸𝑌𝑆 𝑈 = 𝑇𝐶(𝑈) 𝑤 × 𝑈𝐼(𝑈)1−𝑤 22
  23. 23. 結論 実験結果  以下の手法よりもよい結果  tweet数  follow関係  ユーザ同士の関係のみを考慮したTURKEYS 課題  とてもポピュラーなキーワードには弱い  論文中では“福島”  tweetのテキストを考慮する必要がある 23
  24. 24. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 24
  25. 25. Friendship and location analysis and prediction 目的  実際の友達関係を推定  ユーザの位置推定 手法のアイデア  同じような語彙を使う人は友達の可能性が高い  近くに長い間いる人は友達の可能性が高い  tweetの位置情報を用いる 25
  26. 26. 手法1. tweetの語彙類似度 2. tweetの位置情報 3. どの程度followeeが を用いてユーザ間の を用いて,同じ場所に かぶっているかを計算 類似度を計算 いた度合いを計算 𝑇(𝑢, 𝑣) 𝐶(𝑢, 𝑣) 𝑀 𝐸 (𝑢, 𝑣) 決定木を用いて学習 26
  27. 27. 結論 実験方法  tweetから”@***”は除いて実験した  フォロー関係の一部を隠して,推測 実験結果  50%のエッジを隠しても上手く動いた  全てのエッジを隠してもある程度動いた 課題  友達関係推測と位置推測の組み合わせ  (位置情報付きtweetが多くないと使えない) 27
  28. 28. 手法のまとめ TwitterRank 属性伝播法 TURKEYS Flap目的とするユーザ 総合的影響力 同属性のユーザ ある話題で影響 実際の友達 のあるユーザ 力のあるユーザユーザからの入力 なし フォロー関係 クエリ tweet情報 フォロー関係対cold-start性 ◯ × ◯ ×注意すべきこと tweet数,フォ フォロー先が同属 一般語への対処 位置情報付 ローの信頼性 性とは限らない ツイートの量 28
  29. 29. 29 どうやって評価する?  ユーザの評価は難しい  個々のユーザを評価  主観評価  ユーザによる評価  ランキング全体を評価  DCG
  30. 30. ユーザ推薦の評価は難しい follower数が多いとよい?  たくさんfollowして,フォロー返しを待てば, follower数は増やせる  Webページの被リンク数とは異なる tweet数が多いとよい?  情報の発信量は多いが,ノイズが混じる可能性も高い 30
  31. 31. 個々のユーザの評価 – 主観評価 概要  推薦されたユーザのtweetを実際に見て評価する 利点  手法のどこが悪いか発見しやすい  手軽に評価できる 欠点  元となる ユーザ/クエリ に依存しやすい  自分の手法にバイアスがかかる(?) 31
  32. 32. 個々のユーザの評価 - ユーザ評価 評価方法  推薦ユーザを見せ,質問にn段階で答えてもらい,評価  ”フォローしたいか”  ”目的に沿ったユーザか” etc...  同様の対抗手法がある場合,同じ条件で推薦を行い, 手法名を隠してユーザに見せ,同様の質問で評価 利点  手法の優位性を示しやすい 欠点  手間がかかる 32
  33. 33. ランキング全体の評価 DCG(Discounted Cumulative Gain)  0. システムはランク付けされたユーザリストを出力  1. 何らかの指標を用いて全ユーザに関連度Rを付与  2. 以下の計算式で,𝑝位までの結果に対するDCGを計算 𝑝 𝑅𝑖 𝐷𝐶𝐺 𝑝 = 𝑅1 + 𝑅 𝑖 : 𝑖位のユーザの関連度 𝑖=2 𝑙𝑜𝑔2 𝑖 nDCG(Normalized Discounted Cumulative Gain)  DCGを,理想的な順位(スコアの降順の時の順位)の時の DCG(IDCG)で正規化したもの 𝐷𝐶𝐺𝑝 nDCG = 𝐼𝐷𝐶𝐺𝑝 33
  34. 34. DCGの具体的な計算例理想 A B C D E 関連度 3 3 2 2 1 関連度3 : すごく関係ある 関連度2 : 少し関係ある 3 2 1 1 関連度1 : 不適切 𝐼𝐷𝐶𝐺 = 3 + + + + = 8.193 𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5手法1 D B C E A 関連度 2 3 2 1 3 3 2 1 3 正規化 𝐷𝐶𝐺5 = 2 + + + + = 8.054 𝑛𝐷𝐶𝐺 = 0.983 𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5手法2 A E B D C 関連度 3 1 3 2 2 1 3 2 2 正規化 𝐷𝐶𝐺5 = 3 + + + + = 7.754 𝑛𝐷𝐶𝐺 = 0.946 𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5 34
  35. 35. まとめ なぜTwitterユーザ推薦?  興味のある情報が得られる  商品の宣伝にも 何を目的とするか,が大事  目的に応じてアルゴリズムは異なる 評価は難しい  個々の評価  ランキング全体の評価 35
  36. 36. 付録1. Twitter研究の主なトピックまとめ  ユーザ推薦  評判分析  実世界の動向(株価・売上)の予測  ユーザの属性推定  トピック同定  トレンド分析  自動要約  情報の信頼性評価  Social sensorとしての利用  緊急時のコミュニケーション手段としての利用  Tweet用のテキスト処理ツールの開発 36
  37. 37. 付録2. Twitterアカウントの増やし方  1. gmailアカウントを作る  example@gmail.com  2. example+(任意)@gmail.comで登録  未登録のアドレスとして扱われる  全てexample@gmail.comで管理可能 37
  38. 38. 今回紹介した論文 総合的に影響力の高いユーザを推薦  Weng, J.; Lim, E.-P.; Jiang, J.; and He, Q. 2010. TwitterRank:Finding Topic-Sensitive Influential Twitterers. In ACM WSDM. 自分と似たユーザを推薦  康大樹, 島田諭, 関洋平, 佐藤哲司. 属性伝播モデルを用 いたマイクロブログのフォロー先推薦法. DEIM Forum 2011,No. A1-3, 2011. 38
  39. 39. 今回紹介した論文 ある話題について影響力の高いユーザを推薦  Tomoya Noro, Fei Ru, Feng Xiao, Takehiro Tokuda Twitter User Rank Using Keyword Search. 22nd European Japanese Conference on Information Modelling and Knowledge Bases, pp.48-65. 2012 Jun 実際の友達を推定して推薦(+ユーザの位置推定)  Sadilek, A.: Kautz, H.; and Bigham, J. P. 2012. Finding your friends and following them to where you are. In Proc. of the fifth ACM int’l conference on Web search and data mining.  slide : http://www.slideshare.net/nokuno/finding-your- friends-and-following-them-to-where-you-are- wsdm2012 39
  40. 40. 手法の参考文献 LDA  [Blei+2003] Latent Dirichlet allocation, JMLR  latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」  LDA入門 JSダイバージェンス  Jensen-Shannonダイバージェンス - 機械学習の「朱鷺の杜 Wiki」 PageRank, HITS  Google PageRankの数理 ―最強検索エンジンのランキング 手法を求めて―  Googleページランクの数理1【アイマス教養講座】 40
  41. 41. その他参考文献 ユーザ推薦以外のTwitter研究  マイクロブログマイニングの現在 他のランキングの評価手法  Web Data Mining  http://www.cs.uic.edu/~liub/WebMiningBook.html 41

×