SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
オープンソースを利用した新時代
を生き抜くのためのデータ解析
中原 孝信 ( 専修大学 商学部 )
2014年6月26日(木)KSKアナリティクス主催
第二部:【統計・データマイニング ソリューションセミナー】
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
ビッグデータの特徴
データの形式が非定型	
  
マルチメディアデータ
テキストデータ
更新頻度が頻繁	
データ量が膨大	
  
アクセスログデータ
ソーシャルメディデータ
ウェブサイトデータ
データが多様	
オフィスデータ
オペレーションデータ
カスタマーデータ
競競争争力力のの源源泉泉ははデデーータタ!!!!
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
大量データが集まれば価値に
出所)	
  h�p://www.google.org/flutrends/intl/ja/about/how.html	
量が集まると今まで見えなかった事が見えてくる事がわかってきた。
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
Twitterが株式市場を予測する
出所)	
  h�p://www.wired.com/wiredscience/
2010/10/twi�er-­‐crystal-­‐ball/	
インディアナ大学の情報工学の研究者
ダウ・ジョーンズ工業株平均
$40 million
市場のムード/センチメントを測定でき
れば、株価予測が可能となる?
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
データサイエンティスト
  ビッグデータの分析をビジネスに活用するために、
「データサイエンティスト」が脚光を浴びる
  コンピュータ・サイエンス、統計解析、高度な
データ分析の専門家
  次の10年で最もセクシーな仕事
  全ては欧米発
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
スモールデータを利用し尽くす
  まずは自社で所有しているデータから
–  ビッグデータの解析手法をスモールデータに適用
  ビッグデータを分析すると…
–  興味深い分析結果が得られてもビジネスに活かせると
は限らない
  基本は仮説検証型の分析
–  ドメイン知識に基づいた仮説
–  データと仮説と分析手法のマッチング
–  分析することで仮説を検証
  データ分析基盤
–  オープンソース・プラットフォーム
–  データ分析ツール:Nysol
–  統計パッケージ:R Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
日本型データサイエンティスト
  ビジネスの現場で、課題解決のための仮説を設
定し、データ分析で検証し、事業部門に働きか
ける存在
  現場からのボトムアップでデータ解析が実施さ
れるような環境を構築
  現場の人たち全員がデータ分析官
日本型データサイエンティストの黎明期を担う
のは、分析に対する感度の高い皆さんです!!
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
ビッグデータをどのように活用するか!?
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
外部データとして有効活用
1.  Web APIを用いたデータ収集
–  Web APIとは、Webサイトの開発などのために、イ
ンターネット経由で利用できるAPI(Application
Programming Interface)
2.  Web文書をダンロード
–  HTML文書の中から必要な情報を収集する
  ニュースなどのコンテンツの全文取得
  掲示板
  文書中のリンクURL
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
ビッグデータも前処理が命
  データマイニングは前処理が命
  実は前処理までがビッグデータ!!
  分析のためのデータ加工
–  大量データの変換処理
–  非定型データから定型データへの変換
Ex.)
 テキストデータ → 形態素解析 
 MapReduce or Hadoop 
→ インデックス処理 or テキストデータの構造化
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
膨大なデータが集まれば何か分かりそう!
  センチメント分析:消費者の商品やイベントに
関する感情を測定する分析:主にテキストデー
タが対象
  Tweetを対象にロンドンオリンピックで何がつ
ぶやかれていたかを要約することが目的。
  オリンピックの各種イベントとtweetのセンチメ
ント(楽観-悲観)の関係を分析する。
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
センチメントの推定
名名詞詞 極極性性
おめでた
お楽しみ
お家騒動
勝利
違反
:
pos
pos
neg
pos
neg
:
出所)	
  h�p://cl.naist.jp/~inui/research/EM/sen�ment-­‐lexicon.html	
  
上記URLより以下の2つの辞書をダウンロードして利用した。	
  
	
  1)	
  日本語評価極性辞書(用言編)ver.1.0(2008年12月版)	
  
	
  2)	
  日本語評価極性辞書(名詞編)ver.1.0(2008年12月版)	
  
Twitter のつぶやきから、世の中のセンチメント(ムード、
感情)の極性(悲観[neg]⇔楽観[pos])を推定する。
用用言言 極極性性
悔しい
辞める
憎い
楽しい
頑張る
:
neg
neg
neg
pos
pos
:
→ 日本語評価極性辞書を利用
日本語評価極性辞書(名詞編)の例 日本語評価極性辞書(用言編)の例
pos 単語:3,352、neg 単語:3,958 pos 単語:2,108、neg 単語:3,172
これらの辞書に登録された悲観単語と楽
観単語が tweet に出現した回数をカウン
トすることでセンチメントを推定する。
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
センチメントとニュース* を重ねてみると
男子サッカー韓国に敗れる。韓
国選手竹島プラカード掲げる。	
開会式	
 メダルラッシュ	
韓国、中国女子バトミントン無
気力試合、佐々木監督、対ブ
ラジル戦で2位でもよい発言	
韓国ヨット監督飲酒運転
追放、競泳韓国選手失格	
北島メダル逃す、韓国選
手が絡む誤審、開会式イ
ンド一般女性更新	
北朝鮮と韓国
国旗間違える	
竹島プラカード問
題まだ消えず	
楽
観
強
� 
 
 
 
 
 
 
 
 
 
悲
観
強
�
	
  
男子サッカー
スペイン破る	
サッカー女子	
  
銀メダル	
バレー女子	
  
銅メダル	
ボクシング	
  
村田金メダル	
閉会式	
サムスンヘッドフォ
ンでIOCに圧力	
競泳選手「プール
で用をたす」発言	
* 日別のtweet内容の視覚化から、日々の主だったニュースを抜粋した	
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
掲示板データを利用したバースト検知
  Yahooファイナンス掲示板を利用。
  上場銘柄別に掲示板のタイトルをクローリング。
  投稿間隔がポアソン分布に従うとの過程のもとバースト
検知を実施。
実験で設定したパラメータ:
 パラメータ: burst度=2.0, 同一
状態遷移確率=0.6
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
花王のバースト、株価、投稿数
[bID=10014]	
  
参加,不買,運動,
違う,降りる,スポ
ンサー,講義,と
く,批判,対する	
  
[bID=10032]	
  
不買、運動、企業、
日本、支持、ボケ、
ランキング、参加	
  [bID=10120]	
  
回る、証明、上方、修正、99%	
  
0	
  
100	
  
200	
  
300	
  
400	
  
0	
  
0.2	
  
0.4	
  
0.6	
  
0.8	
  
1	
  
20000104	
  
20000324	
  
20000614	
  
20000831	
  
20001121	
  
20010214	
  
20010508	
  
20010725	
  
20011012	
  
20020107	
  
20020328	
  
20020618	
  
20020903	
  
20021125	
  
20030219	
  
20030512	
  
20030729	
  
20031017	
  
20040113	
  
20040331	
  
20040622	
  
20040908	
  
20041201	
  
20050223	
  
20050518	
  
20050804	
  
20051025	
  
20060118	
  
20060406	
  
20060627	
  
20060913	
  
20061205	
  
20070227	
  
20070521	
  
20070807	
  
20071026	
  
20080122	
  
20080410	
  
20080701	
  
20080918	
  
20081210	
  
20090305	
  
20090528	
  
20090814	
  
20091106	
  
20100129	
  
20100420	
  
20100712	
  
20100930	
  
20101221	
  
20110315	
  
20110607	
  
20110824	
  
20111115	
  
[bID=10096]	
  
歩く、あんた、立つ、
起こす、提供、座る、
サカキ、隠蔽、合掌、
花、捨てる、アホ	
  
[bID=10118]	
  
科学、回収、エコナ、混入、爆
弾、違う、分解、一過性	
  
[bID=10119]	
  
問、審査、認める、返上、めぐ
る、許可、NHK、停止、糾弾	
  
自社に対す不特定多数の意見を集約し、ムードや感情
などを捉えるために、ビッグデータは利用できます。
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
2次データとして利用する際の注意点
  利用できるTwitterの投稿データは、全ツイート
の数%のみ
  ユーザーの偏り:20、30、40代が圧倒的
  デモグラフィック属性が利用できるのは一部
  データの偏りなどの特性を把握した上でデータ
を分析することが重要
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
購買履歴データを使った分析例
  消費者のマインドとして、商品を購入する際に
想起する店を知りたい。
  健康志向と非健康志向の顧客群によるマインド
の違いはどのようなものか?
平成25年度データ解析コンペティションの研究成果Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
健康志向 or 非健康志向
  アンケート調査
–  1食でより多くの食材が摂れるように料理をしますか?
–  1汁3菜を意識して料理を作りますか?
–  1食あたりのカロリーや塩分・脂質・糖分・食物繊維な
どを意識しながら食事を作りますか?
–  自分の健康・体調管理よりも、家族の健康・体調管理
を意識して料理をしますか?
5:	
  あてはまる	
  
4:	
  まああてはまる	
  
3:	
  どちらともいえない	
  
2:	
  あまりあてはまらない	
  	
  	
  
1:	
  あてはまらない	
平均スコアよりも高ければ健康志向
そうでなければ非健康志向
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
マインドの把握
  購買した店とその商品を利用して消費者の購買
行動を概念化 → マインド
セブン&i
系_食品	
ライフ_食
品	
ダイエー
系_食品	
サンドラッ
グ_食品	
その他
スーパー_
日用品	
百貨店_
食品	
その他購入
先_食品	
クリエイト_
食品	
クリエイト_
日用品	
マツモトキヨ
シ_日用品	
マツモトキヨ
シ_食品	
お客さんが購入した店と商品ペアをノードで表し、
購入したことのある店商品ペアをエッジで結ぶ
関係の強い領域を取り出す → 完全グラフの列挙
ダイエー
系_食品	
 その他
スーパー_
日用品	
百貨店_
食品	
その他購
入先_食品	
・・
・・
・・
クリエイト
_日用品	
マツモトキヨ
シ_日用品	
マツモトキ
ヨシ_食品	
ダイエー
系_食品	
百貨店_
食品	
その他スー
パー_日用品	
サンドラッグ
_食品	
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
グラフクリーニング
密度の高い部分をクリークに!!
密度の低い部分の枝を取り除く!!
この方法を「グラフ研磨」と呼ぶ
A B C D
E
F
A B C D
E
F
X
共通する友達が多
いなら枝を追加	
共通する友達が少
ないなら枝を削除	
  
Facebookの友達推薦のアイデア(link prediction)
類似度グラフにグラフ研磨を適用しグラフを再構築
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
グラフ研磨
完全グラフの列挙
元の
グラフ
研磨後
グラフ
店商品ペアの関係が強い
グループ構造
→ マインド
ダイエー系_半生菓子
ダイエー系_生麺・ゆで麺
ダイエー系_食パン
ダイエー系_その他畜産
ダイエー系_牛乳
ダイエー系_菓子パン
ダイエー系_ヨーグルト
ダイエー系_豆腐
ダダイイエエーーママイインンドド
ダイエー系_加工食品
西友系_加工食品
その他一般小売店_生鮮食品
セブン&i系_家庭用品
マツモトキヨシ_化粧品
その他100円ショップ(ダ
イソーなど)_化粧品
小小売売混混合合ママイインンドド
合計約1,400
のマインド
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
回帰モデル: 非健康志向のマインド把握
不健康の代名詞と
なる食品群
コンビニ・自販機
の既成食品
コンビニ飲料
加工食品・菓子・
ツマミ系
  非健康志向の消費
者は、お腹が空い
たらコンビニでス
ナック、即席麺
  喉が乾いたらコー
ラにコンビニ飲料
  スーパーといえば、
惣菜・ソーセー
ジ・加工食品
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
回帰モデル:健康志向のマインド把握
圧倒的にスーパー・ドラッグストアを利用 コンビニでも生菓子派
  健康志向の消費者は、お腹が空いたら家
で料理、食材はスーパーへ、そして日用
品・雑貨といえばドラッグストア
  ご贔屓は「セイジョー」「ダイエー」「生
協」「マツモトキヨシ」「サンドラッ
グ」「ケーヨー」「ヤオコー」
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
まとめ
  自社データに加えて、ビッグデータを活用する
ことで、マクロな視点を補った情報として利用
できます。
  お見せしたデータ解析の事例では全てNYSOLと
Rを使っています。
  オープンソースの特性を知り、得意分野を使い
分ければビジネスに活かすことができます。
共同研究やってます。これまでにも色々な企業とやっ
てきました。データお持ちの企業様大歓迎です!!
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  
今後の世界
  SNSにより人同士がつながりました。
  更にデータがどんどんつながります。
  ものがインターネットにつながる時代
  人同士のつながりにデータ生成器としてマ
シンが加わります。
  データの価値はより一層高まります。
Copyright	
  ©	
  Takanobu	
  Nakahara	
  All	
  Rights	
  Reserved.	
  

Más contenido relacionado

Destacado

あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントShohei Hido
 
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用Takeshi Sakaki
 
オンコロジストなるためのスキル
オンコロジストなるためのスキルオンコロジストなるためのスキル
オンコロジストなるためのスキルmusako-oncology
 
Uncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game TheoryUncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game TheoryRikiya Takahashi
 
新たなRNNと自然言語処理
新たなRNNと自然言語処理新たなRNNと自然言語処理
新たなRNNと自然言語処理hytae
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Shunta Saito
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料tm_2648
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題Daisuke Okanohara
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成knjcode
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 

Destacado (16)

あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
 
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
 
オンコロジストなるためのスキル
オンコロジストなるためのスキルオンコロジストなるためのスキル
オンコロジストなるためのスキル
 
Uncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game TheoryUncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game Theory
 
新たなRNNと自然言語処理
新たなRNNと自然言語処理新たなRNNと自然言語処理
新たなRNNと自然言語処理
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Deep parking
Deep parkingDeep parking
Deep parking
 

オープンソースを利用した新時代を生き抜くためのデータ解析