Enviar búsqueda
Cargar
Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
•
9 recomendaciones
•
4,530 vistas
I
id774
Seguir
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 57
Descargar ahora
Descargar para leer sin conexión
Recomendados
Go言語入門者が Webアプリケーション を作ってみた話 #devfest #gdgkyoto
Go言語入門者が Webアプリケーション を作ってみた話 #devfest #gdgkyoto
Shoot Morii
Go言語によるwebアプリの作り方
Go言語によるwebアプリの作り方
Yasutaka Kawamoto
Go言語のスライスを理解しよう
Go言語のスライスを理解しよう
Yasutaka Kawamoto
知って得する標準関数の使い方
知って得する標準関数の使い方
Soudai Sone
PHPBLT#6 PHPの未来に入るかもしれない機能の紹介
PHPBLT#6 PHPの未来に入るかもしれない機能の紹介
sters
Firefox Add-on SDK 入門
Firefox Add-on SDK 入門
Shoot Morii
CakePHPで開発する時に統一しておきたいコーディング内容(080316)
CakePHPで開発する時に統一しておきたいコーディング内容(080316)
柴田 篤志
PHP, Now and Then 2011
PHP, Now and Then 2011
Rui Hirokawa
Recomendados
Go言語入門者が Webアプリケーション を作ってみた話 #devfest #gdgkyoto
Go言語入門者が Webアプリケーション を作ってみた話 #devfest #gdgkyoto
Shoot Morii
Go言語によるwebアプリの作り方
Go言語によるwebアプリの作り方
Yasutaka Kawamoto
Go言語のスライスを理解しよう
Go言語のスライスを理解しよう
Yasutaka Kawamoto
知って得する標準関数の使い方
知って得する標準関数の使い方
Soudai Sone
PHPBLT#6 PHPの未来に入るかもしれない機能の紹介
PHPBLT#6 PHPの未来に入るかもしれない機能の紹介
sters
Firefox Add-on SDK 入門
Firefox Add-on SDK 入門
Shoot Morii
CakePHPで開発する時に統一しておきたいコーディング内容(080316)
CakePHPで開発する時に統一しておきたいコーディング内容(080316)
柴田 篤志
PHP, Now and Then 2011
PHP, Now and Then 2011
Rui Hirokawa
Perl勉強会#2資料
Perl勉強会#2資料
Kiyo Tsunezumi
WebAPIではじめるphp入門
WebAPIではじめるphp入門
Hiroaki Murayama
PHPの今とこれから 2013
PHPの今とこれから 2013
Rui Hirokawa
XPagesで検索してみよう
XPagesで検索してみよう
Masahiko Miyo
PHPの今とこれから2014
PHPの今とこれから2014
Rui Hirokawa
Pycon2014 django performance
Pycon2014 django performance
hirokiky
最新PHP事情 (2000年7月22日,PHPカンファレンス)
最新PHP事情 (2000年7月22日,PHPカンファレンス)
Rui Hirokawa
PHPの今とこれから2021
PHPの今とこれから2021
Rui Hirokawa
PHPの今とこれから2019
PHPの今とこれから2019
Rui Hirokawa
Good Parts of PHP and the UNIX Philosophy
Good Parts of PHP and the UNIX Philosophy
Yuya Takeyama
Tokyo Webmining #12 Hapyrus
Tokyo Webmining #12 Hapyrus
Koichi Fujikawa
メタメタプログラミングRuby
メタメタプログラミングRuby
emasaka
PHPの今とこれから2020
PHPの今とこれから2020
Rui Hirokawa
Pelicanによる www.python.jpの構築
Pelicanによる www.python.jpの構築
Atsuo Ishimoto
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
テンプレートエンジンって何?
テンプレートエンジンって何?
Shoichi Takahashi
ヒカルのGo 資料 Webアプリケーションの作り方
ヒカルのGo 資料 Webアプリケーションの作り方
Yosuke Furukawa
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
Kazuya Wada
Symfony2 How to create your Bundle
Symfony2 How to create your Bundle
chobi e
Perl logging
Perl logging
keroyonn
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
id774
20090622 Vimm4
20090622 Vimm4
id774
Más contenido relacionado
La actualidad más candente
Perl勉強会#2資料
Perl勉強会#2資料
Kiyo Tsunezumi
WebAPIではじめるphp入門
WebAPIではじめるphp入門
Hiroaki Murayama
PHPの今とこれから 2013
PHPの今とこれから 2013
Rui Hirokawa
XPagesで検索してみよう
XPagesで検索してみよう
Masahiko Miyo
PHPの今とこれから2014
PHPの今とこれから2014
Rui Hirokawa
Pycon2014 django performance
Pycon2014 django performance
hirokiky
最新PHP事情 (2000年7月22日,PHPカンファレンス)
最新PHP事情 (2000年7月22日,PHPカンファレンス)
Rui Hirokawa
PHPの今とこれから2021
PHPの今とこれから2021
Rui Hirokawa
PHPの今とこれから2019
PHPの今とこれから2019
Rui Hirokawa
Good Parts of PHP and the UNIX Philosophy
Good Parts of PHP and the UNIX Philosophy
Yuya Takeyama
Tokyo Webmining #12 Hapyrus
Tokyo Webmining #12 Hapyrus
Koichi Fujikawa
メタメタプログラミングRuby
メタメタプログラミングRuby
emasaka
PHPの今とこれから2020
PHPの今とこれから2020
Rui Hirokawa
Pelicanによる www.python.jpの構築
Pelicanによる www.python.jpの構築
Atsuo Ishimoto
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
テンプレートエンジンって何?
テンプレートエンジンって何?
Shoichi Takahashi
ヒカルのGo 資料 Webアプリケーションの作り方
ヒカルのGo 資料 Webアプリケーションの作り方
Yosuke Furukawa
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
Kazuya Wada
Symfony2 How to create your Bundle
Symfony2 How to create your Bundle
chobi e
Perl logging
Perl logging
keroyonn
La actualidad más candente
(20)
Perl勉強会#2資料
Perl勉強会#2資料
WebAPIではじめるphp入門
WebAPIではじめるphp入門
PHPの今とこれから 2013
PHPの今とこれから 2013
XPagesで検索してみよう
XPagesで検索してみよう
PHPの今とこれから2014
PHPの今とこれから2014
Pycon2014 django performance
Pycon2014 django performance
最新PHP事情 (2000年7月22日,PHPカンファレンス)
最新PHP事情 (2000年7月22日,PHPカンファレンス)
PHPの今とこれから2021
PHPの今とこれから2021
PHPの今とこれから2019
PHPの今とこれから2019
Good Parts of PHP and the UNIX Philosophy
Good Parts of PHP and the UNIX Philosophy
Tokyo Webmining #12 Hapyrus
Tokyo Webmining #12 Hapyrus
メタメタプログラミングRuby
メタメタプログラミングRuby
PHPの今とこれから2020
PHPの今とこれから2020
Pelicanによる www.python.jpの構築
Pelicanによる www.python.jpの構築
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
OPcacheの新機能ファイルベースキャッシュの内部実装を読んでみた
テンプレートエンジンって何?
テンプレートエンジンって何?
ヒカルのGo 資料 Webアプリケーションの作り方
ヒカルのGo 資料 Webアプリケーションの作り方
RのffとbigmemoryとRevoScaleRとを比較してみた
RのffとbigmemoryとRevoScaleRとを比較してみた
Symfony2 How to create your Bundle
Symfony2 How to create your Bundle
Perl logging
Perl logging
Destacado
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
id774
20090622 Vimm4
20090622 Vimm4
id774
はじめてのパターン認識勉強会 20130716
はじめてのパターン認識勉強会 20130716
Hiroko Onari
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析
Hiroko Onari
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
Hiroko Onari
Webシステムにおける自動分類器を利用した機械学習と顧客購買行動の予測
Webシステムにおける自動分類器を利用した機械学習と顧客購買行動の予測
id774net
20080706_ecogeek_lt
20080706_ecogeek_lt
id774
20081220 Lt
20081220 Lt
id774
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったこと
Satoshi KOBAYASHI
データベース設計徹底指南
データベース設計徹底指南
Mikiya Okuno
Destacado
(10)
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
20090622 Vimm4
20090622 Vimm4
はじめてのパターン認識勉強会 20130716
はじめてのパターン認識勉強会 20130716
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析
Data scientist casual talk in 白金台
Data scientist casual talk in 白金台
Webシステムにおける自動分類器を利用した機械学習と顧客購買行動の予測
Webシステムにおける自動分類器を利用した機械学習と顧客購買行動の予測
20080706_ecogeek_lt
20080706_ecogeek_lt
20081220 Lt
20081220 Lt
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったこと
データベース設計徹底指南
データベース設計徹底指南
Similar a Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
ThinReports
FluentdとGrothForecastをインストールする
FluentdとGrothForecastをインストールする
regret raym
Hadoopの紹介
Hadoopの紹介
bigt23
Puppetのススメ
Puppetのススメ
Gosuke Miyashita
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
NTT DATA OSS Professional Services
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
Kazuki Ohta
Ruby way-openstack.keynote
Ruby way-openstack.keynote
Uchio Kondo
Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
FukuokaPHP 3
FukuokaPHP 3
ichikaway
社内向けTech Talk資料~Fluentdの基本紹介~
社内向けTech Talk資料~Fluentdの基本紹介~
Daisuke Ikeda
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Daiki Sato
Go言語で作る webアプリ@gocon 2013 spring
Go言語で作る webアプリ@gocon 2013 spring
Takuya Ueda
いまさら聞けないRake入門
いまさら聞けないRake入門
Tomoya Kawanishi
株式会社インタースペース 守安様 登壇資料
株式会社インタースペース 守安様 登壇資料
leverages_event
Doument root設定
Doument root設定
asanu
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
You&I
behatエクステンションの作り方
behatエクステンションの作り方
Ryo Tomidokoro
Hadoop on LXC
Hadoop on LXC
俊夫 森
そろそろRStudioの話
そろそろRStudioの話
Kazuya Wada
Similar a Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
(20)
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
FluentdとGrothForecastをインストールする
FluentdとGrothForecastをインストールする
Hadoopの紹介
Hadoopの紹介
Puppetのススメ
Puppetのススメ
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
Ruby way-openstack.keynote
Ruby way-openstack.keynote
Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
FukuokaPHP 3
FukuokaPHP 3
社内向けTech Talk資料~Fluentdの基本紹介~
社内向けTech Talk資料~Fluentdの基本紹介~
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Go言語で作る webアプリ@gocon 2013 spring
Go言語で作る webアプリ@gocon 2013 spring
いまさら聞けないRake入門
いまさら聞けないRake入門
株式会社インタースペース 守安様 登壇資料
株式会社インタースペース 守安様 登壇資料
Doument root設定
Doument root設定
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
behatエクステンションの作り方
behatエクステンションの作り方
Hadoop on LXC
Hadoop on LXC
そろそろRStudioの話
そろそろRStudioの話
Último
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
Último
(8)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
1.
Twitter クライアント “Termtter”
の紹介 と収集したソーシャルデータを Fluentd + Hadoop で分析する話
2.
自己紹介 ソフトウェアエンジニア 渋家 / 平田ホスピタル
住人 (家がたくさんある) http://id774.net ↑ここに色々書いてあるから読んで ブログやツイッターのリンクは全部上から辿れるので省略
3.
はじめに Twitter クライアント作ったよ
4.
Termtter
5.
特徴 ターミナルから Twitter できる
(べんり) 実装言語は Ruby v1.0.0 リリースは 4 年前 2013 年 2 月からコミッタに 最新版 v2.2.2 を 9/5 にリリース! http://blog.id774.net/post/2013/09/05/397/ ↑ここに色々書いてある
6.
みんな使ってみてね!
7.
おしまい ご清聴ありがとうございました
8.
補足 これだけじゃさみしいので… ここから先はすべて「補足」です
9.
Termtter + Fluentd 最新版
Termtter v2.2.2 は何がすごいの → Fluentd と連携できるようになった Fluentd ってなに → データをなんでも JSON 形式で扱うログ収集ツール → 入出力はプラグインで自由に拡張できる → 実装言語は Ruby → とにかく最近流行ってる
10.
JSON ってなに こういうやつ { “name”: “山田太郎”, “age”:
20 }
11.
JSON の特徴 JavaScript Object
Notation 元々は JavaScript のサブセットだが言語を選ばない キーと値のペアという形式 値に数値、文字列、配列、オブジェクト等の型を持てる データの受け渡しとしてモダンな形式
12.
Fluentd まじ便利
13.
Fluentd の何がすごいか ・プラグインで拡張できる → 新しい入出力方法に対応する場合もプラグインを書 くだけで対応完了! ・なんでも
JSON で扱う → どんな問題領域にも応用可能 とにかく Fluentd にデータを渡してしまえば良い!!! 安心して思考停止できる
14.
プラグインを書けば何でもできる
15.
昔あったよね、そういうやつ… 引用元 : 5分でネットがわかるシリーズ(6):一足早く「Plagger」の便利さを実感してみよう (2/5) [江原顕雄,@IT] http://www.atmarkit.co.jp/ait/articles/0611/21/news109_2.html
16.
Plagger ・だいぶ前 (2006 年頃)
流行った ・Perl で実装されている → 多大な数の CPAN モジュールを利用する ・レシピと呼ばれる YAML ファイルで挙動を定義する ・Plagger というツールとしても有益であったが、何より プラガブルなツールを作ると便利という見本になった
17.
自分でも作った https://github.com/automaticruby/automaticruby
18.
Automatic Ruby ・ Plagger
インスパイア ・ 2012 年に Ruby で初めて実装 ・現時点の最新版 v13.7.0 (2013/07) リリース ・インターネットの情報を何でも集めてどこにでも出力 $ gem install automatic でインストールできます
19.
Automatic Ruby の特徴 ・フィードの配列をプラグイン間で受け渡す ・レシピと呼ばれる
YAML ファイルで挙動を定義する → レシピの形式は Plagger とまったく同じ ・レシピの解釈は順列 → Plagger と違い無限に YAML を順に解析し続ける ・たくさんのライブラリに依存するのは Plagger と一緒 → Gemfile と bundler があるから管理がラクかな ・協力者募集してますので pull request 送ってね!
20.
Fluentd とも連携可能 http://blog.id774.net/post/2013/06/29/381/
21.
Automatic Ruby まじ便利 http://blog.id774.net/post/2012/06/20/98/
http://blog.id774.net/post/2012/10/16/267/
22.
みんな使ってみてね!
23.
おしまい ご清聴ありがとうございました
24.
おしまいじゃないです 終わってないよ 話を元に戻すと… 収集したツイートを Fluentd で収集するという話
25.
先ほどの絵で表すと Termtter
26.
Fluentd 最強伝説 Fluentd にバトンさえ渡せばその先好きなようにできる Amazon
S3 にためる → 全ツイートを無限に永久保存 MongoDB にためる → いろんなアプリから利用する Hadoop にためる → ソーシャルデータ分析
27.
Hadoop に貯めてみた 対象 …
ここ約 3 年位のフォローしている人のツイート 期間 … 2011 ~ 2013 年 フォロー数 … 約 10,000 人 (1 分に 1 回程度クロール) ツイート数 … 約 3,666 万件 データサイズ … 約 20GB もっとクロールしまくればテラバイトやそれ以上の単位 にもなるだろうけど取りあえず自分の観測範囲を分析
28.
ここで MapReduce の基本方針 Key,
Value のうち Value 部分に JSON 文字列を格納 → 型付きのデータ構造をそのまま格納できる Key 部分に Mapper/Reducer で利用するキーを格納 → 一行ごとに JSON Parser を動かすのは非効率 Mapper を分散させて Reducer の数を 1 つに → 分散して処理 → 中間ソート後に集約するだけ
29.
Hadoop Streaming を利用 ・だって
Ruby 使いたいよね ・実行方法が面倒 hadoop jar ~/hadoop/contrib/hadoop-current-streaming.jar ¥ -D hadoop.options ¥ -input httpd_logs ¥ -output logc_output ¥ -mapper /home/who/work/hadoop/script/map.rb ¥ -reducer /home/who/work/hadoop/script/reduce.rb ¥ -inputformat TextInputFormat ¥ -outputformat TextOutputFormat Hadoop Streaming をラップするフレームワークを作成 → 設定ファイルで挙動を一元管理、実行ログ出力、結果 出力、ジョブ成否判定
30.
Hadoop バッチの成否確認 ・ジョブの先行後続関係 → 出力ディレクトリの
_SUCCESS の存在を確認する hadoop fs -get $HDFS_OUT/_SUCCESS>>$JOBLOG 2>&1 test -f _SUCCESS && 成功時処理
31.
Hadoop バッチの連結 (入力) (出力) /user/who/job1
→ /user/who/job2 # job1 /user/who/job2 → /user/who/job3 # job2 /user/who/job3 → /user/who/out # job3 #!/bin/sh /home/who/job1/bin/run > /home/who/job1/log/job.log /home/who/job2/bin/run > /home/who/job2/log/job.log /home/who/job3/bin/run > /home/who/job3/log/job.log
32.
ワードカウント (単語を数える) ・最も基本的な MapReduce
ジョブ 「艦隊」という単語の登場数 2012/04 ~ 2012/08 … 338 2013/04 ~ 2013/08 … 2039 去年のおよそ 6 倍に!!! 一体何が起こったのか… (※ 艦これリリース = 2013/04)
33.
ワードカウント (単語を数える) 「駆逐」という単語の登場数 2012/04 ~
2012/08 … 427 2013/04 ~ 2013/08 … 1666 昨年のおよそ 4 倍に! 調査結果を勝手に送り付ける事例 →
34.
Fluentd + Hadoop
まじ便利 ・ひとつのツイートごとに特徴となる語彙を抽出 → 特徴ベクトルとして JSON に配列を付与 後続ジョブで特徴ベクトルから → 類似度を算出して似たユーザーを探す (クラスタリング) → ネガ・ポジを判定してある映画の評判を探る (ベイズ分類) → 特定の人の発言からメンタル病み具合を診断 (線形判別) いろんなことができる!!!!!べんり!!!!1
35.
みんな使ってみてね!
36.
おしまい ご清聴ありがとうございました
37.
おしまいじゃないです せっかくなのでまだ続きます 巨大なデータの収集 → 機械学習 みたいなのメチャクチャ流行ってる
38.
機械学習 (Google Trends)
39.
エンジニア護送船団の予感!?!? ©日本経済新聞
40.
急に協会ができた
41.
機械学習の普及要因 タスクと手法の分離 →各タスク固有の問題を抽象化 学習方法とタスクを分離可能となった 文書 信号 画像 行動履歴 …等等 特徴を抽象化したデータ (※分野に依存しない) 特徴ベクトル (0,0,0,0,0,0,1,0,0,0,3,0 …) (1,0,1,0,0,0,0,0,-1,0,0,0 …) (0,1,0,0,0,2,0,0,0,0,0,0
…) グラフィカルモデル (※ = 確率変数を頂点、変数間 の依存関係を枝としたグラフ構 造) +-|-+-+-+-+-+-+-+-+|+- |--+-+----+---------| 様々な手法や理論を適用 分類/回帰: SVM (サポートベクトルマシン), ナイーブベイズ, ロジスティック 回帰 … クラスタリング: K-means, MMC, LSI,LDA, GM, … 構造分析: HMM, MRF, CRF, …
42.
流行っているので作った http://newscloud.id774.net/newscloud
43.
ニュースクラウド 1) Automatic Ruby
でニュースを収集 2) Fluentd で JSON 形式に変換して蓄積 3) Web アプリ (Rails) から参照可能に ニュースランキング → 人気語彙の登場順にソート ニュースツリー → 似たニュースを近い位置に配置 ※ どのへんがクラウドなのかはよくわからない
44.
どのへんが機械学習なの ワードカウントの結 果(10 件以上) スコアとカテゴリを表示 ニュースとそのリンク ここ
45.
ナイーブベイズ カテゴリについてはナイーブベイズ分類器で判定 (例) 野球、サッカー、オリンピックの話題 → スポーツ 参院選、婚外子相続の話題
→ 政治 iPS 細胞の話題 → 科学 殺人事件、放火、家宅捜索など → 社会
46.
ナイーブベイズ分類器 ベイズの定理に基づいた教師あり学習 P(B) = 事象
B が発生する確率 (事前確率) P(B|A) = 事象 A 発生後の事象 B の確率 (事後確率) P(A) > 0 のとき以下の公式が成立する
47.
単独でも試せる http://classify.id774.net/classify/
48.
ライブラリ作ったのでよろしく
49.
ニュースツリー
50.
ニュースツリー(似たニュースを近くに) 原発関連 婚外子関連
51.
K 平均法クラスタリング 引用元 : 大阪府立大学大学院工学研究科
電気・情報系専攻知能情報工学分野 教授 本多克宏氏のホームページ http://www.cs.osakafu-u.ac.jp/hi/honda/k-means.htm
52.
階層型クラスタリング 引用元 : 大阪府立大学大学院工学研究科 電気・情報系専攻知能情報工学分野
教授 本多克宏氏のホームページ http://www.cs.osakafu-u.ac.jp/hi/honda/k-means.htm
53.
デンドログラム (樹状図) の描画 1)
ニュース内の特徴語彙を形態素解析にて抽出 2) 語彙全体内における語彙の分布マップを生成 3) 分布をベクトルとしたピアソン積率相関係数を算出 4) 類似度の近いニュースを階層型クラスタリング 5) 生成されたクラスタをもとにデンドログラムを生成 とってもかんたん!!!!1
54.
ライブラリ作ったのでよろしく
55.
まとめ だいぶ話がそれたので話を戻すと 1) Termtter や
Automatic Ruby から Fluentd を経由し てデータを収集するとあれこれ分析できてべんり 2) 機械学習はべんり 3) せっかく Hadoop にデータをためたのだから色々や りたいよね → 夢ひろがりまくりんぐ
56.
さいごに 今日紹介したライブラリ、ウェブサービスの類はすべて ホームページから辿れるので参照してみてください http://id774.net/ またブログの個別の記事にも詳しい説明があります
57.
おしまい 今度こそ本当におしまいです ご清聴ありがとうございました
Descargar ahora