SlideShare una empresa de Scribd logo
1 de 13
Descargar para leer sin conexión
テキストマイニングの
 イメージと実際
自己紹介
●   ID:AntiBayes
●   あんちべ
●   さくテキ運営
●   つい2週間前転職しました
●   テキストマイニング、自然言語処理楽しい
●   現在はソーシャルゲームなベンチャーでデータマイ
    ニングをすることに
●   発表枠に穴開いたので急遽LTします!!
今何してるの?
●   (話題の)Hadoopを利用して、
●   (ビッグデータ)毎日数百GB〜数TB入ってくるデー
    タを用いて、
●   (かっこいい!)データマイニングしてる!
かっこいい!!時代の最先端!!
●   っていうイメージと実態とのギャップについて
●   ここ2週間の感想
●   Hadoop
●   ビッグデータ
●   データマイニング
Hadoop

    イメージ
●   「利用するのめちゃくちゃ難しいのでは?」
    実際
●   Hive/HiveQLを利用すると、MySQLやOracleと何ら変
    わらない
●   HiveQL例 :: select count(*) from table limit 10
●   SQL使えるなら何ら問題なく使える
●   チューニングや負荷分散は勿論難しいが、それは
    RDBMSも同じ
ビッグデータ(BD)

    イメージ
●   BDがあれば新たな知見が得られるのでは?
    実際
●   BDを用いようが、どのような指標を作ったり解析し
    たりするかを誤れば何も得ることは出来ない
●   結局統計的素養が無いと、BDがあっても有効活用
    は出来ない
BDのクレンジング
●   アンケート調査やマーケティング調査で、データにゴ
    ミや欠損が生じるのは日常茶飯事
●   「BDのクレンジングするか!」→出来ない
●   数百GBのデータ、一括置換や検索するだけで時間
    がかかりすぎる
●   クレンジングしたいなら、生のデータをExcelやスク
    リプトで加工するのではなく、根底のログ出力部分
    から設計修正する必要がある
統計解析の基礎の基礎
●   操作変数、説明変数、統制変数
●   「給料の増加がパフォーマンスの向上に繋がるか」
    を知りたければ、給料増加以外の変数を出来る限
    り固定しなければ、それ以外の効果がパフォーマン
    スに影響与えるため、正確に計測することは出来な
    い
データマイニングの現場
●   ゲーム制作側:新規要素入れるのが仕事
●   データマイニング側:要素を統制するのが仕事
●   本質的に対立してる
●   データマイニングは業務改善のためにやる
    →「データマイニングし辛いからもっと綺麗なデータ
    吐くように事前に十分なリソース割いてゲーム設計
    しろ!でもゲーム開発はスピード勝負だからさっさと
    作れ」
    →開発者負担増大→ゲームの質が低下→あわわ
データ構造の変化(1)
●   ゲーム内のテキストからトレンドを知りたい!
●   ワードカウントしよう!
●   ある時から「釣り」関連のワードが頻出→釣りブー
    ム来てる!?
●   実際の理由:釣りゲームリリースしたから
●   他にも「ログ収集こけました」「1時間単位でログ
    取ってたのを15分単位に変更しました」等々…
●   外的要因が多すぎて、データだけ眺めても何もわか
    らない
データ構造の変化(2)
●   アクセス端末を調べよう
●   昔:={PC, 携帯電話}
●   最近:={PC, 携帯電話, スマートフォン}
●   現在:={PC, ガラケー, iPhone, Android}
●   今後:=タブレットも入れるべきでは?
●   →いつのまにかパターンが増えている
データ構造の変化(3)
●   「課金アイテムα、βの効果測定をしてくれ」
●   「あれ、3月前はαのデータがないよ?」
●   「そういやαは途中から追加したアイテムだった」
●   「βは2ヶ月前に売れ行き跳ね上がってるね!」
●   「そういや効果被ってたγを無くしてβに統一した、
    そのとき単位もついでに変えた」
●   →もうどうしていいかわからない
現時点での感想
●   やっぱり銀の弾丸/魔法の帽子なんて無かった
●   基礎的な統計学の重要性を痛感
●   目的に適したデータを取る
●   目的に適した指標を作る
●   BDだろうがHadoopだろうがそこは関係ない、無視できな
    い
●   統計学をきっちり勉強しよう!!

Más contenido relacionado

Destacado (8)

第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
 
SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニングSPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
 
Credential social media_live_v1_3
Credential social media_live_v1_3Credential social media_live_v1_3
Credential social media_live_v1_3
 
ガチャとは心の所作
ガチャとは心の所作ガチャとは心の所作
ガチャとは心の所作
 
Sakusaku svm
Sakusaku svmSakusaku svm
Sakusaku svm
 
企業における統計学入門
企業における統計学入門企業における統計学入門
企業における統計学入門
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
 
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
 

Similar a テキストマイニングのイメージと実際

ITでみんなを幸せに、ITで自分も幸せに
ITでみんなを幸せに、ITで自分も幸せにITでみんなを幸せに、ITで自分も幸せに
ITでみんなを幸せに、ITで自分も幸せに
suno88
 
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Shota Kubo
 
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
俊仁 小林
 
DMTC 最終プレゼン
DMTC 最終プレゼンDMTC 最終プレゼン
DMTC 最終プレゼン
真悟 平山
 
DMTC 2nd プレゼンテーション
DMTC 2nd プレゼンテーションDMTC 2nd プレゼンテーション
DMTC 2nd プレゼンテーション
真悟 平山
 

Similar a テキストマイニングのイメージと実際 (20)

レガシープロダクトを改善していくための戦い方
レガシープロダクトを改善していくための戦い方レガシープロダクトを改善していくための戦い方
レガシープロダクトを改善していくための戦い方
 
非エンジニアのSQL活用が加速させる事業成長
非エンジニアのSQL活用が加速させる事業成長非エンジニアのSQL活用が加速させる事業成長
非エンジニアのSQL活用が加速させる事業成長
 
ITでみんなを幸せに、ITで自分も幸せに
ITでみんなを幸せに、ITで自分も幸せにITでみんなを幸せに、ITで自分も幸せに
ITでみんなを幸せに、ITで自分も幸せに
 
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
 
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
 
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
 
Google Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオンGoogle Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオン
 
HTML5+wordpressで電子書籍
HTML5+wordpressで電子書籍HTML5+wordpressで電子書籍
HTML5+wordpressで電子書籍
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
 
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
DMTC 最終プレゼン
DMTC 最終プレゼンDMTC 最終プレゼン
DMTC 最終プレゼン
 
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
 
実演・開発の進め方
実演・開発の進め方実演・開発の進め方
実演・開発の進め方
 
データ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfデータ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdf
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
 
タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!
 
LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話
 
DMTC 2nd プレゼンテーション
DMTC 2nd プレゼンテーションDMTC 2nd プレゼンテーション
DMTC 2nd プレゼンテーション
 
20121019-jenkins-akiko_pusu.pdf
20121019-jenkins-akiko_pusu.pdf20121019-jenkins-akiko_pusu.pdf
20121019-jenkins-akiko_pusu.pdf
 

テキストマイニングのイメージと実際

  • 2. 自己紹介 ● ID:AntiBayes ● あんちべ ● さくテキ運営 ● つい2週間前転職しました ● テキストマイニング、自然言語処理楽しい ● 現在はソーシャルゲームなベンチャーでデータマイ ニングをすることに ● 発表枠に穴開いたので急遽LTします!!
  • 3. 今何してるの? ● (話題の)Hadoopを利用して、 ● (ビッグデータ)毎日数百GB〜数TB入ってくるデー タを用いて、 ● (かっこいい!)データマイニングしてる!
  • 4. かっこいい!!時代の最先端!! ● っていうイメージと実態とのギャップについて ● ここ2週間の感想 ● Hadoop ● ビッグデータ ● データマイニング
  • 5. Hadoop イメージ ● 「利用するのめちゃくちゃ難しいのでは?」 実際 ● Hive/HiveQLを利用すると、MySQLやOracleと何ら変 わらない ● HiveQL例 :: select count(*) from table limit 10 ● SQL使えるなら何ら問題なく使える ● チューニングや負荷分散は勿論難しいが、それは RDBMSも同じ
  • 6. ビッグデータ(BD) イメージ ● BDがあれば新たな知見が得られるのでは? 実際 ● BDを用いようが、どのような指標を作ったり解析し たりするかを誤れば何も得ることは出来ない ● 結局統計的素養が無いと、BDがあっても有効活用 は出来ない
  • 7. BDのクレンジング ● アンケート調査やマーケティング調査で、データにゴ ミや欠損が生じるのは日常茶飯事 ● 「BDのクレンジングするか!」→出来ない ● 数百GBのデータ、一括置換や検索するだけで時間 がかかりすぎる ● クレンジングしたいなら、生のデータをExcelやスク リプトで加工するのではなく、根底のログ出力部分 から設計修正する必要がある
  • 8. 統計解析の基礎の基礎 ● 操作変数、説明変数、統制変数 ● 「給料の増加がパフォーマンスの向上に繋がるか」 を知りたければ、給料増加以外の変数を出来る限 り固定しなければ、それ以外の効果がパフォーマン スに影響与えるため、正確に計測することは出来な い
  • 9. データマイニングの現場 ● ゲーム制作側:新規要素入れるのが仕事 ● データマイニング側:要素を統制するのが仕事 ● 本質的に対立してる ● データマイニングは業務改善のためにやる →「データマイニングし辛いからもっと綺麗なデータ 吐くように事前に十分なリソース割いてゲーム設計 しろ!でもゲーム開発はスピード勝負だからさっさと 作れ」 →開発者負担増大→ゲームの質が低下→あわわ
  • 10. データ構造の変化(1) ● ゲーム内のテキストからトレンドを知りたい! ● ワードカウントしよう! ● ある時から「釣り」関連のワードが頻出→釣りブー ム来てる!? ● 実際の理由:釣りゲームリリースしたから ● 他にも「ログ収集こけました」「1時間単位でログ 取ってたのを15分単位に変更しました」等々… ● 外的要因が多すぎて、データだけ眺めても何もわか らない
  • 11. データ構造の変化(2) ● アクセス端末を調べよう ● 昔:={PC, 携帯電話} ● 最近:={PC, 携帯電話, スマートフォン} ● 現在:={PC, ガラケー, iPhone, Android} ● 今後:=タブレットも入れるべきでは? ● →いつのまにかパターンが増えている
  • 12. データ構造の変化(3) ● 「課金アイテムα、βの効果測定をしてくれ」 ● 「あれ、3月前はαのデータがないよ?」 ● 「そういやαは途中から追加したアイテムだった」 ● 「βは2ヶ月前に売れ行き跳ね上がってるね!」 ● 「そういや効果被ってたγを無くしてβに統一した、 そのとき単位もついでに変えた」 ● →もうどうしていいかわからない
  • 13. 現時点での感想 ● やっぱり銀の弾丸/魔法の帽子なんて無かった ● 基礎的な統計学の重要性を痛感 ● 目的に適したデータを取る ● 目的に適した指標を作る ● BDだろうがHadoopだろうがそこは関係ない、無視できな い ● 統計学をきっちり勉強しよう!!