SlideShare una empresa de Scribd logo
1 de 57
ニコニコ動画における
関連動画情報を用いた
カテゴリ特徴の把握
Yusuke Fukasawa(@fukkaa1225)
The University of Tokyo Graduate School
System Innovation
1
Agenda
2016/3/26
2
 1. 自己紹介
 2. 本日のテーマ
 3. 手法やデータ元について
 4. カテゴリの中心性分析
 5. カテゴリ遷移確率分析
 6. クラスター分析
 7. おわりに
Agenda
2016/3/26
3
 1. 自己紹介
 2. 本日のテーマ
 3. 手法やデータ元について
 4. カテゴリの中心性分析
 5. カテゴリ遷移確率分析
 6. クラスター分析
 7. おわりに
あなたはだれですか?
• 深澤祐援(ふかさわゆうすけ)と申します
• @fukkaa1225
• 普段はマルチエージェントシミュレーショ
ン・機械学習などの分野での研究をしており
ます
• 修士一年なので就活中です
自己紹介
なんでここにいるんですか?
• 以前”マリオメーカー問題”の可視化及び分析
をまとめたスライドを公開した際に、幸運に
もありらいおんさんから反応を頂き、お話す
ることが出来ました
• その後、今度は伊予柑さんから「今回やって
みない?」ということで今に至ります
• みなさまどうぞよろしくお願いいたします
自己紹介
お二方に感謝です!
“マリオメーカー問題”の分析
自己紹介
Agenda
2016/3/26
7
 1. 自己紹介
 2. 本日のテーマ
 3. 手法やデータ元について
 4. カテゴリの中心性分析
 5. カテゴリ遷移確率分析
 6. クラスター分析
 7. おわりに
突然ですが
みなさん
本日のテーマ
突然ですが
ニコニコ動画
使ってますか?
本日のテーマ
私の回遊行動ネットワーク
本日のテーマ
• ある日の回遊履歴をネットワークで可視化し
ました
全ユーザの行動を知る
という野望
• ユーザー全体の行動がどうなっているのかも
知りたい
• 今回はまずカテゴリごとの特徴を捉える
• カテゴリ特徴からユーザーの行動傾向の分析
が出来ればいいなと
本日のテーマ
本当はユーザ行動モデルの
推定までしたかったのですが
今回は
その足掛かり
ということで
本日のテーマ
Agenda
2016/3/26
13
 1. 自己紹介
 2. 本日のテーマ
 3. 手法やデータ元について
 4. カテゴリの中心性分析
 5. カテゴリ遷移確率分析
 6. クラスター分析
 7. おわりに
どういうデータを使うのか
• 関連動画情報を使います
• API(getrelation)で取得しました
手法やデータ元について
これ
データ取得手順
Niconicogetrelation
というAPIで取得
手法やデータ元について
カテゴリタグで動画を100件取得
(ゲーム,VOCALOIDなど28種)
取得した各カテゴリ100件を
シード動画とし
その関連動画を取得する
シード動画と関連動画を
ネットワークとして結ぶ
スナップチャット
検索APIで取得
(毎朝5時更新)
イメージ図で
説明します
計測期間:2016/02/21~2016/03/20
データ取得手順
Niconicogetrelation
というAPIで取得
手法やデータ元について
カテゴリタグで動画を100件取得
(ゲーム,VOCALOIDなど28種)
取得した各カテゴリ100件を
シード動画とし
その関連動画を取得する
シード動画と関連動画を
ネットワークとして結ぶ
スナップチャット
検索APIで取得
イメージ図で
説明します
計測期間:2016/02/21~2016/03/20
データ取得手順
Niconicogetrelation
というAPIで取得
手法やデータ元について
カテゴリタグで動画を100件取得
(ゲーム,VOCALOIDなど28種)
取得した各カテゴリ100件を
シード動画とし
その関連動画を取得する
シード動画と関連動画を
ネットワークとして結ぶ
スナップチャット
検索APIで取得
イメージ図で
説明します
計測期間:2016/02/21~2016/03/20
ネットワークのイメージ図
手法やデータ元について
シード動画
関連動画
シード動画同士では
一方の関連動画に
なっている場合のみ
リンクが張られます
かなり全体として連
結成分のないネット
ワークになりますが
上手く繋がることも
あります
実際にできたネットワーク
手法やデータ元について
ヘアボール形状と呼ば
れるものになってしま
います
データ分析の概観
手法やデータ元について
関連動画ネットワークの
各ノードの中心性を計算
する
中心性が高いカテゴリ?
中心性が低いカテゴリ?
カテゴリの
中心性分析
カテゴリ間の
遷移確率推定
あるカテゴリの動画を見
たユーザが次にどのカテ
ゴリの動画を見るのか
ループ構造が強いカテゴ
リ、他と補完しあうカテ
ゴリ?
カテゴリの
クラスター分析
データ分析の概観
手法やデータ元について
カテゴリの
中心性分析
カテゴリ間の
遷移確率推定
関連動画ネットワークの
各ノードの中心性を計算
する
中心性が高いカテゴリ?
中心性が低いカテゴリ?
データ分析の概観
手法やデータ元について
カテゴリの
中心性分析
カテゴリ間の
遷移確率推定
あるカテゴリの動画を見
たユーザが次にどのカテ
ゴリの動画を見るのか
ループ構造が強いカテゴ
リ、他と補完しあうカテ
ゴリ?
データ分析の概観
手法やデータ元について
カテゴリの
中心性分析
カテゴリ間の
遷移確率推定
カテゴリの
クラスター分析
カテゴリ規模に関する情報と中心性
や遷移確率、というデータを使って
カテゴリのクラスター分析をする
Agenda
2016/3/26
24
 1. 自己紹介
 2. 本日のテーマ
 3. 手法やデータ元について
 4. カテゴリの中心性分析
 5. カテゴリ遷移確率分析
 6. クラスター分析
 7. おわりに
中心性指標 PageRank
• 今回はPageRankで見ていきます
• PageRankについて
• Googleの検索で用いられているwebページの重要
度を測るアルゴリズム
• 平たく言って「値が高ければ高いほどその
ノードは重要である」くらいの意味で使って
います
カテゴリの中心性分析
平均PageRankの比較
カテゴリの中心性分析
平均PageRankの高いカテゴリ
カテゴリの中心性分析
平均PageRankの低いカテゴリ
カテゴリの中心性分析
カテゴリ規模と中心性
カテゴリの中心性分析
PageRankが
低い5カテゴリ
PageRankが
高い5カテゴリ
 ニコニコ動画講座
 ニコニコインディーズ
 ニコニコ手芸部
 旅行
 自然
 ゲーム
 音楽
 VOCALOID
 アニメ
 エンターテイメント
カテゴリ規模と中心性
カテゴリの中心性分析
PageRankが
低い5カテゴリ
PageRankが
高い5カテゴリ
 ニコニコ動画講座
 ニコニコインディーズ
 ニコニコ手芸部
 旅行
 自然
 ゲーム
 音楽
 VOCALOID
 アニメ
 エンターテイメント
規模が大きいカテゴリほど中心性は低く、
規模が小さいカテゴリの方が中心性は高いか?
散布図-コメント数と中心性
コメント数
中央値
PageRank
カテゴリの中心性分析
相関係数
-0.16
散布図-マイリスト数と中心性
カテゴリの中心性分析
マイリスト数
中央値
PageRank
相関係数
-0.05
散布図-再生数と中心性
カテゴリの中心性分析
再生数
中央値
PageRank
相関係数
-0.15
PageRankとカテゴリ規模は
緩やかな負の相関を持つ
カテゴリの中心性分析
PageRank
コメント数 マイリスト数 再生数
-0.16
-0.05
-0.15
 関連動画ネットワー
クにおける”重要
性”(広がりやすさ)は、
そのカテゴリが小さ
ければ小さいほど高
くなる
 と解釈できるかもし
れない
Agenda
2016/3/26
35
 1. 自己紹介
 2. 本日のテーマ
 3. 手法やデータ元について
 4. カテゴリの中心性分析
 5. カテゴリ遷移確率分析
 6. クラスター分析
 7. おわりに
カテゴリ遷移確率?
シード動画からリンクを
張っているノードのカテゴ
リ比率のこと
左図だと
 ゲーム→ゲーム…2/3
 ゲーム→アニメ…1/3
 VOCALOID→VOCALOID…1/2
 VOCALOID→演奏してみた…1/2
“ゲーム”カテゴリの動画を
見た人は、2/3の確率で次
も”ゲーム”の動画を見ると
解釈する
カテゴリ遷移確率分析
ゲーム VOCALOI
D
ゲーム
ゲーム アニメ
VOCALOID
演奏してみた
具体例1:”ゲーム”(3月20日)
カテゴリ遷移確率分析
• 言わずと知れた巨大カテゴリ
• 自己回帰率は高め
具体例2:”ニコニコ動画講座”
(3月20日)
カテゴリ遷移確率分析
• 人にノウハウを教える動画な
ど、小規模なカテゴリ
• 広く浅く分散している
値が小さい
カテゴリ規模と再帰率
カテゴリ遷移確率分析
平均再帰率が
高い5カテゴリ
平均再帰率が
低い5カテゴリ
 その他(0.14)
 自然(0.16)
 歴史(0.17)
 ニコニコ動画講座(0.18)
 日記(0.18)
 踊ってみた(0.75)
 政治(0.72)
 R-18(0.67)
 料理(0.66)
 VOCALOID(0.66)
カテゴリ規模と再帰率
カテゴリ遷移確率分析
平均再帰率が
高い5カテゴリ
小規模カテゴリの再帰率は低いが
再帰率が高いカテゴリは種類が様々
 その他(0.14)
 自然(0.16)
 歴史(0.17)
 ニコニコ動画講座(0.18)
 日記(0.18)
 踊ってみた(0.75)
 政治(0.72)
 R-18(0.67)
 料理(0.66)
 VOCALOID(0.66)
平均再帰率が
低い5カテゴリ
散布図-コメント数と再帰率
カテゴリ遷移確率分析
自己再帰率
コメント数
中央値
相関係数
0.22
散布図-マイリスト数と再帰率
カテゴリ遷移確率分析
自己再帰率
マイリスト数
中央値
相関係数
0.29
散布図-再生数と再帰率
カテゴリ遷移確率分析
自己再帰率
再生数
中央値
相関係数
0.30
再帰率とカテゴリ規模は
正の相関を持つ
カテゴリの中心性分析
再帰率
コメント数 マイリスト数 再生数
0.22
0.29
0.30
 カテゴリ規模が大き
ければ大きいほど、
そのカテゴリ内で回
遊行動を終了する可
能性が高い
 が、小さくても再帰
率が高いカテゴリも
あるようだ
Agenda
2016/3/26
45
 1. 自己紹介
 2. 本日のテーマ
 3. 手法やデータ元について
 4. カテゴリの中心性分析
 5. カテゴリ遷移確率分析
 6. クラスター分析
 7. おわりに
最後にクラスタリングします
• これまでの情報を用いてカテゴリをクラスタ
リングしていきます
• 必ずしも再帰率・PageRankとカテゴリ性質が
リンクしないケースもあるのではないかとい
う予想
• データ数は少なめなので、階層クラスタリン
グで可視化します
クラスター分析
クラスター分析の可視化
クラスター分析
クラスター1
クラスター2
クラスター3
クラスター4
ちなみに
クラスター分析
 なぜかR-18のみどの
クラスターにも入り
ませんでした
 以降は無視した分析
をしています
PageRankと再帰率
クラスター分析
クラスター1
クラスター2
クラスター3
クラスター4
0.000033 0.000034 0.000035 0.000036 0.000037 0.000038 0.000039 0.00004 0.000041 0.000042
0 0.1 0.2 0.3 0.4 0.5 0.6
再帰率 PageRank
0.00% 0.20% 0.40% 0.60% 0.80% 1.00% 1.20%
再生数に対するマイリスト率
クラスター分析
クラスター1
クラスター2
クラスター3
クラスター4
0.00% 0.50% 1.00% 1.50% 2.00% 2.50% 3.00%
再生数に対するコメント率
クラスター分析
クラスター1
クラスター2
クラスター3
クラスター4
まとめ
PageRankと再帰率
クラスター分析
クラスター1
(エンターテイメント)
クラスター2
(東方/アニメ)
クラスター3
(ゲーム/踊ってみた)
クラスター4
(自然/動物)
PageRankが低く
再帰率が高い
PageRankが高く
再帰率が低い
まとめ
コメント・マイリスト率
クラスター分析
コメント率高い
マイリスト率高い
コメント率低い
マイリスト率低い
クラスター2
(東方/アニメ)
クラスター3
(ゲーム/踊ってみた)
クラスター1
(エンターテイメント)
クラスター4
(自然/動物)
まとめ
コメント・マイリスト率
クラスター分析
コメント率高い
マイリスト率高い
コメント率低い
マイリスト率低い
クラスター2
(東方/アニメ)
クラスター3
(ゲーム/踊ってみた)
クラスター1
(エンターテイメント)
クラスター4
(自然/動物)
PageRank・再帰率の割に
コメント・マイリスト率が低い
PageRank・再帰率の割に
コメント率が高い
Agenda
2016/3/26
55
 1. 自己紹介
 2. 本日のテーマ
 3. 手法やデータ元について
 4. カテゴリごとの特徴
 5. カテゴリ遷移確率分析
 6. クラスター分析
 7. おわりに
カテゴリ特徴の把握から
ユーザ行動モデルの推定へ
• 今回はこうしてカテゴリの特徴からユーザの
行動を推定するだけでした(まだ詰め切れてい
ない部分もありますが)
• 今後は体系的に説明できるモデルをつくるな
り、シミュレーションするなりで広げていけ
るかなと
• Youtubeなど他の動画サイトでも同じようなこ
とが出来るならば比較したい
おわりに
長々失礼いたしました
おわりに
ご清聴頂き
ありがとうございました

Más contenido relacionado

Similar a ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握

誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村Tsubasa Yumura
 
大学におけるICT教育の事例
大学におけるICT教育の事例大学におけるICT教育の事例
大学におけるICT教育の事例Hiroki OKAZAKI
 
博士のキャリアデザインワークショップ講演
博士のキャリアデザインワークショップ講演博士のキャリアデザインワークショップ講演
博士のキャリアデザインワークショップ講演Takayuki Itoh
 
論文に関する基礎知識2015
論文に関する基礎知識2015論文に関する基礎知識2015
論文に関する基礎知識2015Mai Otsuki
 
同志社大学大学院への進学:授業や研究、習得したこと、大変だったこと
同志社大学大学院への進学:授業や研究、習得したこと、大変だったこと同志社大学大学院への進学:授業や研究、習得したこと、大変だったこと
同志社大学大学院への進学:授業や研究、習得したこと、大変だったことTakeshi Kuboyama
 
140808_SLA甲府大会_manual
140808_SLA甲府大会_manual140808_SLA甲府大会_manual
140808_SLA甲府大会_manualsliiic
 
「図書館情報入門」の 再プログラム
「図書館情報入門」の再プログラム「図書館情報入門」の再プログラム
「図書館情報入門」の 再プログラムYuji Nonaka
 
effectsパッケージを用いた一般化線形モデルの可視化
effectsパッケージを用いた一般化線形モデルの可視化effectsパッケージを用いた一般化線形モデルの可視化
effectsパッケージを用いた一般化線形モデルの可視化Yu Tamura
 
大学ゼミにTOCfEをさりがなく取り入れる_2014TOCfEシンポジウム_08
大学ゼミにTOCfEをさりがなく取り入れる_2014TOCfEシンポジウム_08大学ゼミにTOCfEをさりがなく取り入れる_2014TOCfEシンポジウム_08
大学ゼミにTOCfEをさりがなく取り入れる_2014TOCfEシンポジウム_08TOC for Education, Japan Branch
 
DevLOVE関西「勉強会勉強会」
DevLOVE関西「勉強会勉強会」DevLOVE関西「勉強会勉強会」
DevLOVE関西「勉強会勉強会」Yoh Nakamura
 
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話Yuya Kato
 
20130426 研究遂行abc all
20130426 研究遂行abc all20130426 研究遂行abc all
20130426 研究遂行abc allHiroaki Yoshimoto
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報Takayuki Itoh
 
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-Yasushi Hara
 
2015年度第4回DCC産学交流フォーラム:JMOOC運営報告
2015年度第4回DCC産学交流フォーラム:JMOOC運営報告2015年度第4回DCC産学交流フォーラム:JMOOC運営報告
2015年度第4回DCC産学交流フォーラム:JMOOC運営報告CHES_waseda_univ
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016Mai Otsuki
 
いきいき研究室増産プロジェクトFourm2011報告書
いきいき研究室増産プロジェクトFourm2011報告書いきいき研究室増産プロジェクトFourm2011報告書
いきいき研究室増産プロジェクトFourm2011報告書Yusuke Yamamoto
 
患者安全のためのチームワーク理論、実践、教育と評価
患者安全のためのチームワーク理論、実践、教育と評価患者安全のためのチームワーク理論、実践、教育と評価
患者安全のためのチームワーク理論、実践、教育と評価Takahiro Matsumoto
 

Similar a ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握 (20)

誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
 
大学におけるICT教育の事例
大学におけるICT教育の事例大学におけるICT教育の事例
大学におけるICT教育の事例
 
02 matsushita
02 matsushita02 matsushita
02 matsushita
 
博士のキャリアデザインワークショップ講演
博士のキャリアデザインワークショップ講演博士のキャリアデザインワークショップ講演
博士のキャリアデザインワークショップ講演
 
論文に関する基礎知識2015
論文に関する基礎知識2015論文に関する基礎知識2015
論文に関する基礎知識2015
 
同志社大学大学院への進学:授業や研究、習得したこと、大変だったこと
同志社大学大学院への進学:授業や研究、習得したこと、大変だったこと同志社大学大学院への進学:授業や研究、習得したこと、大変だったこと
同志社大学大学院への進学:授業や研究、習得したこと、大変だったこと
 
140808_SLA甲府大会_manual
140808_SLA甲府大会_manual140808_SLA甲府大会_manual
140808_SLA甲府大会_manual
 
「図書館情報入門」の 再プログラム
「図書館情報入門」の再プログラム「図書館情報入門」の再プログラム
「図書館情報入門」の 再プログラム
 
effectsパッケージを用いた一般化線形モデルの可視化
effectsパッケージを用いた一般化線形モデルの可視化effectsパッケージを用いた一般化線形モデルの可視化
effectsパッケージを用いた一般化線形モデルの可視化
 
大学ゼミにTOCfEをさりがなく取り入れる_2014TOCfEシンポジウム_08
大学ゼミにTOCfEをさりがなく取り入れる_2014TOCfEシンポジウム_08大学ゼミにTOCfEをさりがなく取り入れる_2014TOCfEシンポジウム_08
大学ゼミにTOCfEをさりがなく取り入れる_2014TOCfEシンポジウム_08
 
DevLOVE関西「勉強会勉強会」
DevLOVE関西「勉強会勉強会」DevLOVE関西「勉強会勉強会」
DevLOVE関西「勉強会勉強会」
 
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
 
20130426 研究遂行abc all
20130426 研究遂行abc all20130426 研究遂行abc all
20130426 研究遂行abc all
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
 
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
 
2015年度第4回DCC産学交流フォーラム:JMOOC運営報告
2015年度第4回DCC産学交流フォーラム:JMOOC運営報告2015年度第4回DCC産学交流フォーラム:JMOOC運営報告
2015年度第4回DCC産学交流フォーラム:JMOOC運営報告
 
20171130 DC研究会 招待講演
20171130 DC研究会 招待講演20171130 DC研究会 招待講演
20171130 DC研究会 招待講演
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016
 
いきいき研究室増産プロジェクトFourm2011報告書
いきいき研究室増産プロジェクトFourm2011報告書いきいき研究室増産プロジェクトFourm2011報告書
いきいき研究室増産プロジェクトFourm2011報告書
 
患者安全のためのチームワーク理論、実践、教育と評価
患者安全のためのチームワーク理論、実践、教育と評価患者安全のためのチームワーク理論、実践、教育と評価
患者安全のためのチームワーク理論、実践、教育と評価
 

ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握