Enviar búsqueda
Cargar
ニコニコ動画のコメント解析
•
Descargar como PPTX, PDF
•
13 recomendaciones
•
16,830 vistas
Keisuke Ogaki
Seguir
トピック 1. ごちうさ難民はどこへ行ったか 2. コメントによる動画要約 3. ニコニコ動画を表現するマルチモーダル特徴の検討
Leer menos
Leer más
Ingeniería
Denunciar
Compartir
Denunciar
Compartir
1 de 57
Descargar ahora
Recomendados
ニコニコ動画データセット分析環境作ってみたその後
ニコニコ動画データセット分析環境作ってみたその後
(shibao)芝尾 (kouichiro)幸一郎
Re dashで作るニコニコデータセット分析環境
Re dashで作るニコニコデータセット分析環境
(shibao)芝尾 (kouichiro)幸一郎
ニコニコデータビューアー・改
ニコニコデータビューアー・改
(shibao)芝尾 (kouichiro)幸一郎
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
WEBFARMER. ltd.
Connect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
WEBFARMER. ltd.
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
WEBFARMER. ltd.
Nips20180127
Nips20180127
WEBFARMER. ltd.
位置情報にまつわるデータ補間技術
位置情報にまつわるデータ補間技術
Hiroaki Sengoku
Recomendados
ニコニコ動画データセット分析環境作ってみたその後
ニコニコ動画データセット分析環境作ってみたその後
(shibao)芝尾 (kouichiro)幸一郎
Re dashで作るニコニコデータセット分析環境
Re dashで作るニコニコデータセット分析環境
(shibao)芝尾 (kouichiro)幸一郎
ニコニコデータビューアー・改
ニコニコデータビューアー・改
(shibao)芝尾 (kouichiro)幸一郎
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
WEBFARMER. ltd.
Connect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
WEBFARMER. ltd.
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
WEBFARMER. ltd.
Nips20180127
Nips20180127
WEBFARMER. ltd.
位置情報にまつわるデータ補間技術
位置情報にまつわるデータ補間技術
Hiroaki Sengoku
ニコニコ動画タグネットワーク
ニコニコ動画タグネットワーク
Teruki Shinohara
tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
【 #Unity会 】このUnityがすごい2015年版
【 #Unity会 】このUnityがすごい2015年版
ui nyan
可視化法学 smips登壇
可視化法学 smips登壇
(shibao)芝尾 (kouichiro)幸一郎
Bq sushi(BigQuery lessons learned)
Bq sushi(BigQuery lessons learned)
(shibao)芝尾 (kouichiro)幸一郎
S23
S23
TH Schee
iPhone/Android アプリをまとめて省エネ開発する技術
iPhone/Android アプリをまとめて省エネ開発する技術
vaccho
インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版
Yusei Yamanaka
ニコニコ動画iOSアプリの UX・マネタイズ・技術の話
ニコニコ動画iOSアプリの UX・マネタイズ・技術の話
Kentaro Matsumae
20200429 algyan lt
20200429 algyan lt
hiyohiyo
ニコニコ超開発
ニコニコ超開発
Akihiko Koizuka
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
Atsushi Nakamura
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
Atsushi Hashimoto
可視化法学(Found it project#9)
可視化法学(Found it project#9)
(shibao)芝尾 (kouichiro)幸一郎
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
Chainer meetup2016 03-19pub
Chainer meetup2016 03-19pub
Yuta Kashino
ソーシャルメディアプロデューサー養成講座(映像編集・活用)
ソーシャルメディアプロデューサー養成講座(映像編集・活用)
forest_tsuruoka
SIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
Techcrunch hackathon 2013
Techcrunch hackathon 2013
Nao Tokui
OpenCV 3.0 on iOS
OpenCV 3.0 on iOS
Shuichi Tsutsumi
Más contenido relacionado
Similar a ニコニコ動画のコメント解析
ニコニコ動画タグネットワーク
ニコニコ動画タグネットワーク
Teruki Shinohara
tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
【 #Unity会 】このUnityがすごい2015年版
【 #Unity会 】このUnityがすごい2015年版
ui nyan
可視化法学 smips登壇
可視化法学 smips登壇
(shibao)芝尾 (kouichiro)幸一郎
Bq sushi(BigQuery lessons learned)
Bq sushi(BigQuery lessons learned)
(shibao)芝尾 (kouichiro)幸一郎
S23
S23
TH Schee
iPhone/Android アプリをまとめて省エネ開発する技術
iPhone/Android アプリをまとめて省エネ開発する技術
vaccho
インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版
Yusei Yamanaka
ニコニコ動画iOSアプリの UX・マネタイズ・技術の話
ニコニコ動画iOSアプリの UX・マネタイズ・技術の話
Kentaro Matsumae
20200429 algyan lt
20200429 algyan lt
hiyohiyo
ニコニコ超開発
ニコニコ超開発
Akihiko Koizuka
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
Atsushi Nakamura
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
Atsushi Hashimoto
可視化法学(Found it project#9)
可視化法学(Found it project#9)
(shibao)芝尾 (kouichiro)幸一郎
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
Chainer meetup2016 03-19pub
Chainer meetup2016 03-19pub
Yuta Kashino
ソーシャルメディアプロデューサー養成講座(映像編集・活用)
ソーシャルメディアプロデューサー養成講座(映像編集・活用)
forest_tsuruoka
SIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
Techcrunch hackathon 2013
Techcrunch hackathon 2013
Nao Tokui
OpenCV 3.0 on iOS
OpenCV 3.0 on iOS
Shuichi Tsutsumi
Similar a ニコニコ動画のコメント解析
(20)
ニコニコ動画タグネットワーク
ニコニコ動画タグネットワーク
tokyo_webmining_no51
tokyo_webmining_no51
【 #Unity会 】このUnityがすごい2015年版
【 #Unity会 】このUnityがすごい2015年版
可視化法学 smips登壇
可視化法学 smips登壇
Bq sushi(BigQuery lessons learned)
Bq sushi(BigQuery lessons learned)
S23
S23
iPhone/Android アプリをまとめて省エネ開発する技術
iPhone/Android アプリをまとめて省エネ開発する技術
インターネット生放送を支える技術としくみ2015年版
インターネット生放送を支える技術としくみ2015年版
ニコニコ動画iOSアプリの UX・マネタイズ・技術の話
ニコニコ動画iOSアプリの UX・マネタイズ・技術の話
20200429 algyan lt
20200429 algyan lt
ニコニコ超開発
ニコニコ超開発
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
可視化法学(Found it project#9)
可視化法学(Found it project#9)
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Chainer meetup2016 03-19pub
Chainer meetup2016 03-19pub
ソーシャルメディアプロデューサー養成講座(映像編集・活用)
ソーシャルメディアプロデューサー養成講座(映像編集・活用)
SIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Techcrunch hackathon 2013
Techcrunch hackathon 2013
OpenCV 3.0 on iOS
OpenCV 3.0 on iOS
ニコニコ動画のコメント解析
1.
ニコニコ米解析 @Hi_king
2.
@Hi_king レコメンドエンジン作ったりしてます もともとは画像処理が専門でした
3.
今日の目標 コメント解析面白いので、皆さん一度やってみま しょう ニコニココメントデータセットを利用することで手 軽に始められます
http://www.nii.ac.jp/cscenter/idr/nico/nico.html ただし、今日のトピックでは最新のコメントや動画 情報も利用するので、このデータで全く同じことを できるわけではないです
4.
米ってどんなデータ? 動画とコメントが持つ情報 動画 米 • テキスト •
時間 • タグ • 画像 • 音声 • 視聴者、投稿者
5.
本日のトピック ごちうさ難民はどこへ行ったか コメントによる動画要約 動画を表現するマルチモーダル 特徴の検討
6.
7.
この話で使う特徴 動画 米 • テキスト • 時間 •
タグ • 画像 • 音声 • 視聴者、投稿者
8.
なんで?なんで?(ごちうさ) そのコメントの異様(褒め言葉)さで衝撃を与えたア ニメ、”ご注文はうさぎですか” アニメが終わった途端に絶望感を感じ、ごちうさを みることをやめられなくなった人々の叫びだった
適当なアニメをレコメンドすればいいんじゃね! http://pyon.hi-king.me/
9.
10.
特徴量は、コメントの出現数 候補は2014春アニメの第一話に ついたコメントのうちの上位
つまり、同じ定型文がどれくら い出現しているか。 繰り返し正規化 一時期話題になった coooooolllllllllの論文[1] とりあえず4文字以内の繰り返し を一つにまとめてみた 動画同士の距離はコサイン類似 度 wwwwwwwwwwwww www 888888888888888888 8888888 ペロペロペロペロ ★≡=― ★≡=― ★≡=― ★≡=― [1] "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos)
11.
https://twitter.com/search?f=realtime&q=難民救済力%20lang:ja
12.
ブヒリティ “ニコニコ養豚場の特徴としては、コメントの大半が「ぶひ いぃぃぃ」等の豚の鳴き声で占められており…” (http://dic.nicovideo.jp/a/ニコニコ養豚場) 要するに、かわいい女の子がキャッキャしてるのを眺めている我々の ことである。
13.
ブヒリティ? キルラキルはあざとい系アニメじゃないはず。。。
14.
ブヒリティ?
15.
強きものに屈服する 豚たち。。。 ぶひい、というコメントが必ずしも萌えを表すものではなかった (“服をきた豚ども!”という台詞に呼応してる)
16.
まとめ ニコニコには多数の定型文が存在し、正規化された コメントの出現頻度でも、動画が似ている、あるい は視聴者が似ている、という情報を得ることが出来 る。 コメント単体で見ると字面が一緒でも、動画のコン テクストに呼応して別の意味を持っている場合もあ る
17.
18.
この話で使う特徴 動画 米 • テキスト • 時間 •
タグ • 画像 • 音声
19.
動画は楽しい でもすべての面白い(可愛い,クレイジーな,etc…) 動画を観るには人生は短すぎる
最速で動画を見るツールが欲しい
20.
一枚絵とagifで動画の雰囲 気を観よう 動画の中からコメントが盛り 上がってるシーンを抽出 あつめてagifに
シーンごとのコメントから ワードクラウドを作る デモします
21.
ヒストグラム? コメントのヒストグ ラム取ればいいん じゃね? コメ数が3σを超えて いるフレームがキー フレーム
前のフレームに対し て独立と仮定してい るので、同じシーン が連続して抽出され るミスがある
22.
カーネル密度推定 ガウスカーネルで密度推 定する 平均1枚/分になるように 盛り上がりTOPnの頂点 を取る
+σを超える頂点も取って る 根拠はないです
23.
次への課題 コメントの投稿は、基本的に先行することはなくて、 遅れモデルになる。 刺激(シーン)に対する反応(コメント)って考えるとポ アソン分布なのかな
形態素解析でワードクラウド作るのは読みにくい cooooolllllllll論文のように、正規形の抽出すればいい かも シーンのクラスタリングには画像・音声を使うもの がよく研究されてるので、比較してみたい
24.
25.
この話で使う特徴 動画 米 • テキスト • 時間 •
タグ • 画像 • 音声 • 視聴者、投稿者 全部考えてみる!
26.
最適な特徴量? ごちうさ難民探しでは、同じコメントがどれくらい 現れているかを特徴量にしてたけど、本当にそれで いいのかしら?定量評価できてない。 簡単なタスクを設定して、特徴量間の比較をしてみ よう
27.
動画 特徴量 • いろんなのを 結合 識別器 •
ランダムフォ レスト固定 カテゴリ • アニメ、ゲー ム等29カテゴ リ タスク マルチモーダル特徴を用いて、動画の属するカテゴ リの推定を行う
28.
動画 特徴量 • いろんなのを 結合 識別器 •
ランダムフォ レスト固定 カテゴリ • アニメ、ゲー ム等29カテゴ リ タスク マルチモーダル特徴を用いて、動画の属するカテゴ リの推定を行う 目的は、このタスクを解くことではなく、 どのような特徴量がつくれて、どうはたらくかを確かめること
29.
画像
30.
画像特徴量 局所特徴量(SIFT等) 大域特徴量
エッジベース(GIST) 色あい(カラーヒストグラム) CNN(畳み込みニューラルネット)
31.
局所特徴量 画像中のあるパーツが存在することを認識する 人間の目、猫の耳など
一つの画像から不定個数の特徴量が出現 たとえば、猫の出る動画一覧とか、そういう機能に向い ているはず。タグ認識くらいの細かいタスクだと強力か も ただし、動画の膨大な画像に対して10個程度のラベルしか ついていない問題だときびしいかもしれない。教師データ は別に用意する必要があるかも
32.
大域特徴量 画像全体に対して一つ定まる特徴 色使い
エッジの密度・構図(GIST) http://people.csail.mit.edu/torralba/code/spatialenvelope/
33.
CNN CNN(畳み込みニューラルネット)も比較に使う 局所特徴をどんどん構造化してくモデル。物体認識で成功している
トレーニング済みのモデルを利用して、中間層を特徴量にする ほんとはニコニコのサムネに対してファインチューニングしたほうがいい Caffeのcaffenetモデルを利用 http://nbviewer.ipython.org/github/BVLC/caffe/blob/master/examples/filter_visualizati on.ipynb この層の値を特徴量に
34.
実験結果 特徴量 正答率 ランダム 3.48% GIST
13.18% CNN 26.43% • データ: 2876サンプル • 29カテゴリから100サンプルずつ。 • ニコニコ新検索で”人気順” • 学習方法: 2776で学習、100でテストを繰り返すクロスバリデーション
35.
CNNの混同行列 歌ってみたは、元のVOCALOIDのサムネをそのまま使ってる場合が多いので無理か 技術部が作ってみた、科学と混同されるのは妥当だけど、どういう特徴だろう
(車載,旅行) や (アニメ, アイドルマスター)など、妥当な間違いが多い
36.
音
37.
音特徴量 音声(意味のある語を発声したもの) MFCC
音程(基本周波数)を取り除いた後の、語による特性(声動 特性)を表している。音声認識できる 音楽(語に落としこむのが目的ではない) スペクトログラム分析(周波数x時間の画像) 使われている楽器 盛り上がり BPM 基本周波数の軌跡(メロディライン)
38.
パワーの統計特徴量 音楽として統制の とれたジャンルと、 ホームビデオ的な ジャンルでは、音 量の分布に差があ る。 Max,
min, avg, std の4次元の統計量 を特徴として用い てみた 初音ミクさんが歌う「あったかいんだからぁ♪」 熊に手を振ったらこうなった
39.
周波数領域の瞬時特徴量 やはり、音声といえば周波数分 解。 発話内容を認識したり、音楽 ジャンル(ロック
<-> クラシッ ク)を認識したりするタスクで は、周波数分解が活躍する。 今回のタスクを解くのにうまい やり方が思いつかなかったので、 動画の中でパワーが最大となる ところの瞬時スペクトルをその 動画の特徴としてみた このウィンドウの瞬時周波数スペクトル
40.
実験結果 特徴量 正答率 ランダム 7.23% 音量統計量
18.81% 瞬時特徴 20.69% 両方 24.82% • データ: 1382サンプル • 動画の取得に結構失敗したため画像の例よりサンプルが少ない • さらに、カテゴリの割合がばらついている。 • 学習方法: 1282で学習、100でテストを繰り返すクロスバリデーション
41.
音声結合特徴の混同行列 演奏してみた、は認識できているけど、VOCALOIDと歌って みたは混同している。声質までは認識できていないか 動物の精度もよい。ホームビデオ感がとらえられている?
42.
コメントテキスト
43.
コメント特徴量の候補 • 正規化済み生コメントのままつかう • Ngramに分解 •
形態素解析 • tfidfフィルタリングの追加
44.
“あずにゃんペロペロペロペロ” をアニメと認識させる 分解方法 分解結果 生コメント あずにゃんペロペロペロ ペロペロペロ 全く同じコメントが少な いから難しい 正規化
あずにゃんペロ テンプレが認識される。 けどあずにゃんじゃない 対象ではだめ 2gram [あず, ずに, にゃ…] “あず”や”ペロ”という特徴 語が現れるので認識しや すくなる 形態素解析 [あずにゃん, ペロ] 2gramより、意味を持っ た次元になる。ただし辞 書が整ってない場合はお かしな位置で切られてし まう
45.
Tf-IDF TF: コメントの出現回数じゃなくて、出現確率にす る。コメントが少ない動画でも認識されるように
IDF: どんな動画でも出現するコメントの重要度を減 らす。例えばwは重要じゃないとされる
46.
今回用いた特徴 1. ユニコード正規化(NFKC) 2. 4文字以内の繰り返しを正規化 3.
1-gramと2-gramのベクトルに分解 4. 教師データ内での出現頻度上位10000次元に制限(計 算資源の都合) 5. tfとidfのフィルタかける
47.
実験結果 特徴量 正答率 ランダム 3.45% 生コメント10000次元
42.30% 1gram+2gram10000次元 54.65% 1gram+2gram10000次元tf-idf 57.97% • データ: 2896サンプル • 29カテゴリから100サンプルずつ。 • すごい検索で”人気順” • 学習方法: 2796で学習、100でテストを繰り返すクロスバリデーション
48.
考察 tf-idfがたいして効かないのは、人気動画のみで、か つコメント数を最新1000件という制限をかけている のが擬似的にtfになっているのと、ランダムフォレ ストの次元削減により、idfと同様な重み低減が既に 行われているからかと思われる。
49.
マルチモーダル
50.
マルチモーダル特徴? いままで画像、言語、音と個別に比較した特徴を結 合する それぞれのベクトルを単純に結合
重みはランダムフォレストによって調整できるため
51.
実験結果 特徴量 次元数 正答率
サンプル数 ランダム 7.24% 2876 コメント 10000 57.97% コメント+CNN 10960 58.84% 特徴量 次元数 正答率 サンプル数 ランダム 3.48% 1382 コメント 10000 62.42% コメント+音 10068 63.14% コメント+音+CNN 11028 63.58% 個別実験と同じ、その日の人気TOP100動画
52.
大規模データで再実験 サンプルサイズを大きくし、超人気動画以外も取ってみ る。 新検索で人気順各カテゴリ1000
-> 約29000動画 一時的に結果公開します http://vps.hi- king.me/deeptag/category/categories_bigram_cnn 特徴量 次元数 正答率 サンプル数 ランダム 8.13 26053 コメント 10000 57.12% コメント+CNN 14096 58.26%
53.
コメント+CNNの混同行列
54.
音楽, アニメ 音楽, 歌ってみた アニメ,
エンターテイメント たしかに、視聴者も近く、サムネイルも似ているものが混同している コメント+CNNの混同行列
55.
コメント数毎の正答率 だいたい300コメント集まれば精度が頭打ちになる 10コメント以下でも、壊滅的な精度ではない
画像特徴が精度向上に結びついてない原因か 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0-9 30-39 60-69 90-99 120-129 150-159 180-189 210-219 240-249 270-279 300-309 330-339 360-369 390-399 420-429 450-459 480-489 510-519 540-549 570-579 600-609 630-639 660-669 690-699 720-729 750-759 780-789 810-819 840-849 870-879 900-909 930-939 960-969 990-1000 正答率 コメント数 コメント数と各特徴量による正答率 画像 コメント 画像+コメント
56.
考察 動画+コメントという体験はマルチモーダルなものであ り、特徴量を結合することで解析精度が上がることもあ る。しかしコメントがほぼ上位互換 音声情報や画像情報だけでもそれなりの識別は可能であ り、タスク次第では有用性はある。
より細かいクラス分類。たとえばボカロカテゴリ内のジャ ンル判定とかで使えるかも。 “似た雰囲気のもの”を探す特徴は意外と研究されていな いと感じる。問題の定義自体が難しいかもしれない。
57.
本日のトピック ごちうさ難民はどこへ行ったか コメントによる動画要約 動画を表現するマルチモーダル 特徴の検討 @Hi_king
Descargar ahora