SlideShare una empresa de Scribd logo
1 de 9
PGXでつぶやきの類似度による
グラフを作成してみた。
オーイシ
データについて
• Twitterに”#nowplaying”ハッシュタグをつけてつぶやかれ
たツイート(2015-04 ~ 2016-05)からアーティスト名を抽
出。
• あるアーティストについて一度でもつぶやいたアカウント
(829アカウント)を抜き出し類似度をベクトル空間モデル
で算出。
• つぶやきの類似度からアカウントをクラスタリングする。
データのインポート、フィルタ、JSON変換など
• Cytoscape.js AND PGXで検索すると↓このエントリが
見つかると思います。
• https://gist.github.com/dogrunjp/4c5781c551a260154
5829b6b0d1e8b02
可視化
• タブ区切りデータをPGXにインポート。速い!
• とりあえず類似度に閾値を設定し、グラフを出力してみ
ました。
edge.score < 1 && > 0.7
edge.score < 0.7 && > 0.5
edge.score < 0.5 && > 0.3
こんな分析をしたい。
• 今回は類似度(=エッジのプロパティ)の閾値を変えた
グラフを表示しただけなので、PGXのアルゴリズムを使
ったグループ抽出を行いたい。(例)wcc [弱連結成分]
アルゴリズムなどがある。
• 時間軸をエッジのプロパティに反映し、時間経過による
クラスタの変化を可視化したい。
グラフ分析、オススメします。
• コト(コンテクストを含めたモノゴトの性質)の分析がで
きます。
• サイエンス以外の分野でもジャーナリズム、政府統計を使
った提案…などグラフデータ分析でアウトプットの質の向
上が期待できる分野は多いのではないでしょうか。

Más contenido relacionado

Más de Nao Oec

Pgx user meeting_20170602
Pgx user meeting_20170602Pgx user meeting_20170602
Pgx user meeting_20170602Nao Oec
 
RESASを使った静岡市の新しい産業の創成手法サンプル
RESASを使った静岡市の新しい産業の創成手法サンプルRESASを使った静岡市の新しい産業の創成手法サンプル
RESASを使った静岡市の新しい産業の創成手法サンプルNao Oec
 
Python neo4j cytoscapejsでデータ可視化入門
Python neo4j cytoscapejsでデータ可視化入門Python neo4j cytoscapejsでデータ可視化入門
Python neo4j cytoscapejsでデータ可視化入門Nao Oec
 
Dockerで作るd3.jsインタラクション共有&DL環境
Dockerで作るd3.jsインタラクション共有&DL環境Dockerで作るd3.jsインタラクション共有&DL環境
Dockerで作るd3.jsインタラクション共有&DL環境Nao Oec
 
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識Nao Oec
 
コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会Nao Oec
 
Open streetmapハンズオン@静岡まとめ
Open streetmapハンズオン@静岡まとめOpen streetmapハンズオン@静岡まとめ
Open streetmapハンズオン@静岡まとめNao Oec
 
Shizuokapy 3 oec_nlp
Shizuokapy 3 oec_nlpShizuokapy 3 oec_nlp
Shizuokapy 3 oec_nlpNao Oec
 
iLeafletとは何か
iLeafletとは何かiLeafletとは何か
iLeafletとは何かNao Oec
 

Más de Nao Oec (9)

Pgx user meeting_20170602
Pgx user meeting_20170602Pgx user meeting_20170602
Pgx user meeting_20170602
 
RESASを使った静岡市の新しい産業の創成手法サンプル
RESASを使った静岡市の新しい産業の創成手法サンプルRESASを使った静岡市の新しい産業の創成手法サンプル
RESASを使った静岡市の新しい産業の創成手法サンプル
 
Python neo4j cytoscapejsでデータ可視化入門
Python neo4j cytoscapejsでデータ可視化入門Python neo4j cytoscapejsでデータ可視化入門
Python neo4j cytoscapejsでデータ可視化入門
 
Dockerで作るd3.jsインタラクション共有&DL環境
Dockerで作るd3.jsインタラクション共有&DL環境Dockerで作るd3.jsインタラクション共有&DL環境
Dockerで作るd3.jsインタラクション共有&DL環境
 
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
Shizuokapy4_データヴィジュアライズのための簡単なWeb API開発まめ知識
 
コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会
 
Open streetmapハンズオン@静岡まとめ
Open streetmapハンズオン@静岡まとめOpen streetmapハンズオン@静岡まとめ
Open streetmapハンズオン@静岡まとめ
 
Shizuokapy 3 oec_nlp
Shizuokapy 3 oec_nlpShizuokapy 3 oec_nlp
Shizuokapy 3 oec_nlp
 
iLeafletとは何か
iLeafletとは何かiLeafletとは何か
iLeafletとは何か
 

PGXでつぶやきの類似度によるグラフを生成してみた