SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
Jubatusにおける⼤大規模分散
   オンライン機械学習

 2011/12/08 @⼤大規模データ処理理勉強会
    株式会社Preferred Infrastructure
      海野  裕也 (@unnonouno)
⾃自⼰己紹介

l    海野  裕也 (@unnonouno)
      l    Preferred Infrastructure (PFI) 研究開発部⾨門リサーチャー
      l    社員20⼈人くらい
      l    検索索・レコメンドエンジンSedueの開発など


l    専⾨門
      l    ⾃自然⾔言語処理理
      l    テキストマイニング
l    Jubatusプロジェクト内での役割
      l    主に特徴抽出エンジン、機械学習エンジンの研究開発




                                 2
Big Data !

l    データはこれからも増加し続ける
        多いことより増えていくということが重要
      l 

        データ量量の変化に対応できるスケーラブルなシステムが求めら
        れる


l    データの種類は多様化
      l    定形データのみならず、⾮非定形データも増加
      l    テキスト、⾏行行動履履歴、⾳音声、映像、信号

l    ⽣生成される分野も多様化
      l    PC、モバイル、センサー、⾞車車、⼯工場、EC、病院


                           3
データを活⽤用する

STEP 1. ⼤大量量のデータを捨てずに蓄積できるようになってきた
STEP 2. データを分析することで、現状の把握、理理解ができる
STEP 3. 状況を理理解し、現状の改善、予測ができる


l 世の中的には、蓄積から把握、理理解に向かった段階

                この本が実際        この⼈人は30代
   本の購買情報       に売れている        男性なので、
   を全て記録で       のは意外にも        この本を買う
   きるように        30代のおっさ       のではない
   なった!         ん達だ!          か?


    蓄積           理理解          予測
               より深い解析へ
                  4
現状の背景

l    既存システムは次の3つの⽬目標を同時に達成することが困難
      l  1)リアルタイム性の確保

      l  2)データを⽔水平分散処理理

      l  3)⾼高度度な解析



l  分散並列列処理理 (MapReduceなど)
    l  スケールアウト構成による性能向上、耐障害性

    l  基本的にバッチ処理理、解析結果はすぐ返ってこない

    l  計算モデルの⾃自由度度が⾼高い分オーバーヘッドも⼤大きい

l  オンライン / ストリーム処理理 (CEPなど)
      l    到着したデータをその場で処理理して解析し、結果を出⼒力力する
      l    多くは単純な処理理しか⾏行行えない

                            5
Jubatus
l    NTT  PF研とPreferred  Infrastructureによる共同開発
      10/27よりOSSで公開  http://jubat.us/




      リアルタイム  
       ストリーム         分散並列列          深い解析
                          6
本⽇日の内容

機械学習の観点から⼤大規模データを⾒見見つめてみる

l  機械学習とは何か
l  線形分類器とは何か
l  ⼤大規模データに対する機械学習




              7
機械学習とは?
l    データから有⽤用な規則、ルール、知識識表現、判断基準な
      どを抽出
l    データがあるところ、どこでも使える
l    様々な分野の問題に利利⽤用可能
                       適用分野	
       レコメンデー
       ションクラス    分類、識識別        市場予測    評判分析
        タリング


        情報抽出      ⽂文字認識識       ロボット    画像解析



                 検索索ランキン
        遺伝⼦子分析                  ⾦金金融   医療療診断
                    グ

                           8
タスク固有の問題と⼿手法の分離離


      特徴抽出	
                                          機械学習	
                   分野に依存しない                                     様々な⼿手法・理理論論を
               特徴を捉えた抽象化されたデータ                                    適⽤用可能
     ⽂文書         (0,        1,        0,  2.5,  -‐‑‒1,  …)   分類/回帰:SVM,  LogReg,  
                 (1,  0.5,  0.1,      -‐‑‒2,    3,  …)       PA,  CW,  ALOW,  Naïve  Bayes
                 (0,        1,        0,  1.5,    2,  …)     CNB,  DT,  RF,  ANN,  …  
                     特徴ベクトル                                  クラスタリング:K-‐‑‒means,  
画像                                                           Spectral  Clustering,  MMC,  
                                                             LSI,  LDA,  GM,  …


     ⾏行行動履履歴     グラフィカルモデル                                   構造分析:HMM,  MRF,  CRF,  …



      センサ情報                              9
現状で実装されているモジュール
 l    現在実装されているのは、⽂文書データからの特徴ベクト
       ルへの変換と、それに対する分類器

                     分野に依存しない                                     様々な⼿手法・理理論論を
                 特徴を捉えた抽象化されたデータ                                    適⽤用可能
       ⽂文書         (0,        1,        0,  2.5,  -‐‑‒1,  …)   分類/回帰:SVM,  LogReg,  
                   (1,  0.5,  0.1,      -‐‑‒2,    3,  …)       PA,  CW,  ALOW,  Naïve  Bayes
                   (0,        1,        0,  1.5,    2,  …)     CNB,  DT,  RF,  ANN,  …  
                       特徴ベクトル                                  クラスタリング:K-‐‑‒means,  
画像                                                             Spectral  Clustering,  MMC,  
                                                               LSI,  LDA,  GM,  …


       ⾏行行動履履歴     グラフィカルモデル                                   構造分析:HMM,  MRF,  CRF,  …



        センサ情報                             10
現在Jubatusで実装されているのは多クラス分類

l    ⼊入⼒力力xに対し、出⼒力力yを予測する


タスク               ⼊入⼒力力x          出⼒力力y

メール分類             メール             スパム or 普通 or 重要等

Twitterのユーザー分析    Tweet           ユーザーの性別、職業、年年齢など

電気使⽤用料料需要の予測      パケット            各サーバーの予測使⽤用量量(連続値)

広告のコンバージョン予測 アクセス履履 クリック、コンバージョンするか
             歴、広告
監視カメラ解析           監視カメラ 部屋の状態(明かりがついている?
                  画像    ⼈人がいるか?など)

                           11
⾮非定形データから特徴ベクトルへの変換
l  ⼊入⼒力力された⽣生データの特徴をキーとバリューで表す
l  変換の⽅方法はデータの種類によって様々
l  Jubatusは、この変換もサポート
               特徴ベクトル	
世の中ではビッグデー        ビッグデータ 2
                           分類結果	
タというキーワードが
注⽬目されていますが,    世の中             1
⼀一⼝口にビッグデータと   キーワード           1         IT関連
いっても⽴立立場や観点に   定義              1
よって定義は様々です.

               スカート        1
               長髪          1
               身長          152           ⼥女女性
               服が黒         1

                    12	
                           他の要素は0とする
多クラス分類の中の、線形分類器が実装されている
l    ⼊入⼒力力は特徴ベクトル
l    各特徴量量にクラスごとの重みがある
l    重みの総和(内積)が各クラスの得点とする


入力:「野球の後のカレーライスはおいしい」	
                          重み	
     スコア最⼤大

                    1:スポーツ 2:グルメ   3:政治
 特徴ベクトル	
             カレー    -1      2      -1
  カレー    1
             仕分け    -1      -1     2
  ライス    1
             ライス    -1      1      1
  野球     1
             野球     2       -1     -1

                   13
線形分類器と呼ばれる所以

体重
     男	
           l    重みの⾜足しあわせは、特
                            徴ベクトルと重みベクト
  女	
                       ルの内積を計算している
                            ということ
                      l    特徴ベクトル空間上での
                            分離離平⾯面を探しているこ
                            とになる




              身長

               14
線形分類器の機械学習

l    機械学習で重みを⾃自動調整する

l    調整の基準や、計算⽅方法で様々な種類が存在する
      l    単純ベイズ
      l    パーセプトロン
      l    最⼤大エントロピー法
      l    サポートベクトルマシン


l    Jubatusではオンライン学習アルゴリズムが実装されて
      いる



                          15
オンライン学習は学習⼿手法の⽅方式の⼀一つ
l    バッチ学習
      l  データを全体を⾒見見て重みを調整する
      l  参考書を全部解いてから答え合わせ



                            学習器

l    オンライン学習
      l  1つずつデータを⾒見見て重みの更更新を繰り返す
      l  ⼀一問ずつ解いて答え合わせ




                               学習器


                     16
オンライン学習の重み更更新のイメージ

l    分類に間違えたら正しく分類できるように微調整
l    微調整の⽅方法の違いで学習⼿手法の良良し悪しが決まる

       特徴ベクトル	



  重み	
 正しいクラス	
   間違えたクラス	
          正しいクラス	
   間違えたクラス	




正解クラスの重みが小さい	
          17	
                               正しく分類できるように調整
オンライン学習の特徴

l    オンライン学習は更更新が早い
l    同じ学習時間に対して、経験的に精度度も⾼高い
      l  普通に考えれば、全部⾒見見たほうががよいのに


l    Jubatusでは最新の⼿手法を含む、様々な⼿手法が実装され
      ている
      l    Perceptron (1958)
      l    Passive Aggressive (PA) (2003)
                                                       近年年急激に
            Confidence Weighted Learning (CW) (2008)
                                                       性能が向上
      l 

      l    AROW (2009)
      l    Normal HERD (NHERD) (2010)


                                    18
オンライン学習を分散化させるのは⾃自明ではない!
       バッチ学習のイメージ	
           オンライン学習のイメージ	
                                  更更新量量計算
          更更新量量計算   ここが重いの        モデル更更新
                    で⾃自明に並列列      更更新量量計算
          モデル更更新    化しやすい         モデル更更新
                                  更更新量量計算
          更更新量量計算                 モデル更更新
                                  更更新量量計算
時間	
      モデル更更新                  モデル更更新

l    オンライン学習の特徴は頻繁な更更新
l    単純な分散では頻繁な同期処理理が必要になってしまい、
      性能の劣劣化が避けられない

                       19
Jubatusの分散⼿手法:緩やかなモデル情報の共有

l    各サーバーのモデル情報を緩やかに共有する
      l    データ⾃自体は共有しないため軽い

l    全サーバー間で同時刻に同じモデルが存在する
      ことは保証しない
      l  サーバー毎に解析が(実⽤用上問題が無い程度度に)異異
          なることを許容
      l  時間が経つにつれ、モデル間の情報は共有されてい
          く
Jubatusにおける分散機械学習のイメージ


                              学習器




l    みんな個別に⾃自学⾃自習
l    たまに勉強会で情報交換
l    ⼀一⼈人で勉強するより効率率率がいいはず!
                    21
3種類の処理理に分解

l    UPDATE
      l    データを受け取ってモデルを更更新(学習)する
l    ANALYZE
      l    データを受け取って解析結果を返す
l    MIX
      l    内部モデルを混ぜ合わせる

l    cf. MAP / REDUCE




                         22
3つの操作:UPDATE


                        学習器




l    内部状態を更更新する(学習する)
l    クライアントが結果を待つ必要は特にない

                 23
3つの操作:ANALYZE


                         分析器




l    分析結果を返すが内部状態を変更更しない
l    クライアントが結果を受け取る

                  24
3つの操作:MIX


                         学習器




l    学習器同⼠士が内部モデルの情報を混ぜ合わせる
l    混ぜる⽅方法は学習⼿手法によって異異なる

                  25
3つの処理理の例例:統計処理理の場合

l    平均値を計算する⽅方法を考えよう
l    内部状態は今までの合計(sum)とデータの個数(count)

l    UPDATE
      l    sum += x
      l    count += 1
l    ANALYZE
      l    return (sum / count)
l    MIX
      l    sum = sum1 + sum2
      l    count = count1 + count2


                                      26
「緩いモデル共有」の特徴

l    分散オンライン機械学習に特化する
      l  独⽴立立に学習するのでスループットが⾼高い
      l  もともと100%の精度度が難しいのを逆⼿手に取り、サー

          バー間で結果が異異なることを許容する


l    任意の並⾏行行計算を実現できるわけではない
      l    逐次処理理した時と厳密に⼀一致しない
      l    MIXするまで他のノード計算結果は反映されない



                       27
これからの予定

l    まだ分散オンライン機械学習の理理論論が不不⾜足
      l  分類学習に適⽤用できることが知られていた
          [Mann2009, McDonald2008]
      l  今はレコメンド(近傍探索索)問題の研究開発をして
          いる
      l  問題によってはオンライン学習させるのも難しい


l    他の問題はまだまだ
      l    クラスタリング、マイニング、etc.
      l    チャレンジングな課題は多い



                        28
まとめ

l    Jubatusの紹介
      l    3つのキーワード:リアルタイム、分散、深い解析
      l    http://jubat.us

l    Jubatusの分類学習の仕組み
      l  線形分類器
      l  オンライン機械学習
      l  分散オンライン学習モデル:UPDATE/ANALYZE/
          MIX




                      29

Más contenido relacionado

La actualidad más candente

最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
Jubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTJubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTYuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
Pythonによる機械学習
Pythonによる機械学習Pythonによる機械学習
Pythonによる機械学習Kimikazu Kato
 
ディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみたディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみた卓也 安東
 
ディープニューラルネット入門
ディープニューラルネット入門ディープニューラルネット入門
ディープニューラルネット入門TanUkkii
 
Pythonによる機械学習入門〜基礎からDeep Learningまで〜
Pythonによる機械学習入門〜基礎からDeep Learningまで〜Pythonによる機械学習入門〜基礎からDeep Learningまで〜
Pythonによる機械学習入門〜基礎からDeep Learningまで〜Yasutomo Kawanishi
 
TensorFlowによるニューラルネットワーク入門
TensorFlowによるニューラルネットワーク入門TensorFlowによるニューラルネットワーク入門
TensorFlowによるニューラルネットワーク入門Etsuji Nakai
 
機械学習 入門
機械学習 入門機械学習 入門
機械学習 入門Hayato Maki
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafKenta Oono
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~Yasutomo Kawanishi
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Etsuji Nakai
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
「深層学習」勉強会LT資料 "Chainer使ってみた"
「深層学習」勉強会LT資料 "Chainer使ってみた"「深層学習」勉強会LT資料 "Chainer使ってみた"
「深層学習」勉強会LT資料 "Chainer使ってみた"Ken'ichi Matsui
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LTAkifumi Eguchi
 

La actualidad más candente (20)

最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
Jubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCTJubatusにおける機械学習のテスト@MLCT
Jubatusにおける機械学習のテスト@MLCT
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
Pythonによる機械学習
Pythonによる機械学習Pythonによる機械学習
Pythonによる機械学習
 
ディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみたディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみた
 
ディープニューラルネット入門
ディープニューラルネット入門ディープニューラルネット入門
ディープニューラルネット入門
 
Pythonによる機械学習入門〜基礎からDeep Learningまで〜
Pythonによる機械学習入門〜基礎からDeep Learningまで〜Pythonによる機械学習入門〜基礎からDeep Learningまで〜
Pythonによる機械学習入門〜基礎からDeep Learningまで〜
 
TensorFlowによるニューラルネットワーク入門
TensorFlowによるニューラルネットワーク入門TensorFlowによるニューラルネットワーク入門
TensorFlowによるニューラルネットワーク入門
 
機械学習 入門
機械学習 入門機械学習 入門
機械学習 入門
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
「深層学習」勉強会LT資料 "Chainer使ってみた"
「深層学習」勉強会LT資料 "Chainer使ってみた"「深層学習」勉強会LT資料 "Chainer使ってみた"
「深層学習」勉強会LT資料 "Chainer使ってみた"
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
機械学習
機械学習機械学習
機械学習
 

Similar a Jubatusにおける大規模分散オンライン機械学習

Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainerKeisuke Umezawa
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン第1回 Jubatusハンズオン
第1回 JubatusハンズオンJubatusOfficial
 
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン第1回 Jubatusハンズオン
第1回 JubatusハンズオンYuya Unno
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎kunihikokaneko1
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類Shuzo Kashihara
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎Daiyu Hatakeyama
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -Yutaka KATAYAMA
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 

Similar a Jubatusにおける大規模分散オンライン機械学習 (20)

Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
 
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 

Más de Preferred Networks

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57Preferred Networks
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Preferred Networks
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...Preferred Networks
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Preferred Networks
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演Preferred Networks
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)Preferred Networks
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)Preferred Networks
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るPreferred Networks
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Preferred Networks
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会Preferred Networks
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2Preferred Networks
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...Preferred Networks
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50Preferred Networks
 

Más de Preferred Networks (20)

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
 

Jubatusにおける大規模分散オンライン機械学習

  • 1. Jubatusにおける⼤大規模分散 オンライン機械学習 2011/12/08 @⼤大規模データ処理理勉強会 株式会社Preferred Infrastructure 海野  裕也 (@unnonouno)
  • 2. ⾃自⼰己紹介 l  海野  裕也 (@unnonouno) l  Preferred Infrastructure (PFI) 研究開発部⾨門リサーチャー l  社員20⼈人くらい l  検索索・レコメンドエンジンSedueの開発など l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  Jubatusプロジェクト内での役割 l  主に特徴抽出エンジン、機械学習エンジンの研究開発 2
  • 3. Big Data ! l  データはこれからも増加し続ける 多いことより増えていくということが重要 l    データ量量の変化に対応できるスケーラブルなシステムが求めら れる l  データの種類は多様化 l  定形データのみならず、⾮非定形データも増加 l  テキスト、⾏行行動履履歴、⾳音声、映像、信号 l  ⽣生成される分野も多様化 l  PC、モバイル、センサー、⾞車車、⼯工場、EC、病院 3
  • 4. データを活⽤用する STEP 1. ⼤大量量のデータを捨てずに蓄積できるようになってきた STEP 2. データを分析することで、現状の把握、理理解ができる STEP 3. 状況を理理解し、現状の改善、予測ができる l 世の中的には、蓄積から把握、理理解に向かった段階 この本が実際 この⼈人は30代 本の購買情報 に売れている 男性なので、 を全て記録で のは意外にも この本を買う きるように 30代のおっさ のではない なった! ん達だ! か? 蓄積 理理解 予測 より深い解析へ 4
  • 5. 現状の背景 l  既存システムは次の3つの⽬目標を同時に達成することが困難 l  1)リアルタイム性の確保 l  2)データを⽔水平分散処理理 l  3)⾼高度度な解析 l  分散並列列処理理 (MapReduceなど) l  スケールアウト構成による性能向上、耐障害性 l  基本的にバッチ処理理、解析結果はすぐ返ってこない l  計算モデルの⾃自由度度が⾼高い分オーバーヘッドも⼤大きい l  オンライン / ストリーム処理理 (CEPなど) l  到着したデータをその場で処理理して解析し、結果を出⼒力力する l  多くは単純な処理理しか⾏行行えない 5
  • 6. Jubatus l  NTT  PF研とPreferred  Infrastructureによる共同開発 10/27よりOSSで公開  http://jubat.us/ リアルタイム   ストリーム 分散並列列 深い解析 6
  • 8. 機械学習とは? l  データから有⽤用な規則、ルール、知識識表現、判断基準な どを抽出 l  データがあるところ、どこでも使える l  様々な分野の問題に利利⽤用可能 適用分野 レコメンデー ションクラス 分類、識識別 市場予測 評判分析 タリング 情報抽出 ⽂文字認識識 ロボット 画像解析 検索索ランキン 遺伝⼦子分析 ⾦金金融 医療療診断 グ 8
  • 9. タスク固有の問題と⼿手法の分離離 特徴抽出 機械学習 分野に依存しない 様々な⼿手法・理理論論を 特徴を捉えた抽象化されたデータ 適⽤用可能 ⽂文書 (0,        1,        0,  2.5,  -‐‑‒1,  …) 分類/回帰:SVM,  LogReg,   (1,  0.5,  0.1,      -‐‑‒2,    3,  …) PA,  CW,  ALOW,  Naïve  Bayes (0,        1,        0,  1.5,    2,  …) CNB,  DT,  RF,  ANN,  …   特徴ベクトル クラスタリング:K-‐‑‒means,   画像 Spectral  Clustering,  MMC,   LSI,  LDA,  GM,  … ⾏行行動履履歴 グラフィカルモデル 構造分析:HMM,  MRF,  CRF,  … センサ情報 9
  • 10. 現状で実装されているモジュール l  現在実装されているのは、⽂文書データからの特徴ベクト ルへの変換と、それに対する分類器 分野に依存しない 様々な⼿手法・理理論論を 特徴を捉えた抽象化されたデータ 適⽤用可能 ⽂文書 (0,        1,        0,  2.5,  -‐‑‒1,  …) 分類/回帰:SVM,  LogReg,   (1,  0.5,  0.1,      -‐‑‒2,    3,  …) PA,  CW,  ALOW,  Naïve  Bayes (0,        1,        0,  1.5,    2,  …) CNB,  DT,  RF,  ANN,  …   特徴ベクトル クラスタリング:K-‐‑‒means,   画像 Spectral  Clustering,  MMC,   LSI,  LDA,  GM,  … ⾏行行動履履歴 グラフィカルモデル 構造分析:HMM,  MRF,  CRF,  … センサ情報 10
  • 11. 現在Jubatusで実装されているのは多クラス分類 l  ⼊入⼒力力xに対し、出⼒力力yを予測する タスク ⼊入⼒力力x 出⼒力力y メール分類 メール スパム or 普通 or 重要等 Twitterのユーザー分析 Tweet ユーザーの性別、職業、年年齢など 電気使⽤用料料需要の予測 パケット 各サーバーの予測使⽤用量量(連続値) 広告のコンバージョン予測 アクセス履履 クリック、コンバージョンするか 歴、広告 監視カメラ解析 監視カメラ 部屋の状態(明かりがついている? 画像 ⼈人がいるか?など) 11
  • 12. ⾮非定形データから特徴ベクトルへの変換 l  ⼊入⼒力力された⽣生データの特徴をキーとバリューで表す l  変換の⽅方法はデータの種類によって様々 l  Jubatusは、この変換もサポート 特徴ベクトル 世の中ではビッグデー ビッグデータ 2 分類結果 タというキーワードが 注⽬目されていますが, 世の中 1 ⼀一⼝口にビッグデータと キーワード 1 IT関連 いっても⽴立立場や観点に 定義 1 よって定義は様々です. スカート 1 長髪 1 身長 152 ⼥女女性 服が黒 1 12 他の要素は0とする
  • 13. 多クラス分類の中の、線形分類器が実装されている l  ⼊入⼒力力は特徴ベクトル l  各特徴量量にクラスごとの重みがある l  重みの総和(内積)が各クラスの得点とする 入力:「野球の後のカレーライスはおいしい」 重み スコア最⼤大 1:スポーツ 2:グルメ 3:政治 特徴ベクトル カレー -1 2 -1 カレー 1 仕分け -1 -1 2 ライス 1 ライス -1 1 1 野球 1 野球 2 -1 -1 13
  • 14. 線形分類器と呼ばれる所以 体重 男 l  重みの⾜足しあわせは、特 徴ベクトルと重みベクト 女 ルの内積を計算している ということ l  特徴ベクトル空間上での 分離離平⾯面を探しているこ とになる 身長 14
  • 15. 線形分類器の機械学習 l  機械学習で重みを⾃自動調整する l  調整の基準や、計算⽅方法で様々な種類が存在する l  単純ベイズ l  パーセプトロン l  最⼤大エントロピー法 l  サポートベクトルマシン l  Jubatusではオンライン学習アルゴリズムが実装されて いる 15
  • 16. オンライン学習は学習⼿手法の⽅方式の⼀一つ l  バッチ学習 l  データを全体を⾒見見て重みを調整する l  参考書を全部解いてから答え合わせ 学習器 l  オンライン学習 l  1つずつデータを⾒見見て重みの更更新を繰り返す l  ⼀一問ずつ解いて答え合わせ 学習器 16
  • 17. オンライン学習の重み更更新のイメージ l  分類に間違えたら正しく分類できるように微調整 l  微調整の⽅方法の違いで学習⼿手法の良良し悪しが決まる 特徴ベクトル 重み 正しいクラス 間違えたクラス 正しいクラス 間違えたクラス 正解クラスの重みが小さい 17 正しく分類できるように調整
  • 18. オンライン学習の特徴 l  オンライン学習は更更新が早い l  同じ学習時間に対して、経験的に精度度も⾼高い l  普通に考えれば、全部⾒見見たほうががよいのに l  Jubatusでは最新の⼿手法を含む、様々な⼿手法が実装され ている l  Perceptron (1958) l  Passive Aggressive (PA) (2003) 近年年急激に Confidence Weighted Learning (CW) (2008) 性能が向上 l  l  AROW (2009) l  Normal HERD (NHERD) (2010) 18
  • 19. オンライン学習を分散化させるのは⾃自明ではない! バッチ学習のイメージ オンライン学習のイメージ 更更新量量計算 更更新量量計算 ここが重いの モデル更更新 で⾃自明に並列列 更更新量量計算 モデル更更新 化しやすい モデル更更新 更更新量量計算 更更新量量計算 モデル更更新 更更新量量計算 時間 モデル更更新 モデル更更新 l  オンライン学習の特徴は頻繁な更更新 l  単純な分散では頻繁な同期処理理が必要になってしまい、 性能の劣劣化が避けられない 19
  • 20. Jubatusの分散⼿手法:緩やかなモデル情報の共有 l  各サーバーのモデル情報を緩やかに共有する l  データ⾃自体は共有しないため軽い l  全サーバー間で同時刻に同じモデルが存在する ことは保証しない l  サーバー毎に解析が(実⽤用上問題が無い程度度に)異異 なることを許容 l  時間が経つにつれ、モデル間の情報は共有されてい く
  • 21. Jubatusにおける分散機械学習のイメージ 学習器 l  みんな個別に⾃自学⾃自習 l  たまに勉強会で情報交換 l  ⼀一⼈人で勉強するより効率率率がいいはず! 21
  • 22. 3種類の処理理に分解 l  UPDATE l  データを受け取ってモデルを更更新(学習)する l  ANALYZE l  データを受け取って解析結果を返す l  MIX l  内部モデルを混ぜ合わせる l  cf. MAP / REDUCE 22
  • 23. 3つの操作:UPDATE 学習器 l  内部状態を更更新する(学習する) l  クライアントが結果を待つ必要は特にない 23
  • 24. 3つの操作:ANALYZE 分析器 l  分析結果を返すが内部状態を変更更しない l  クライアントが結果を受け取る 24
  • 25. 3つの操作:MIX 学習器 l  学習器同⼠士が内部モデルの情報を混ぜ合わせる l  混ぜる⽅方法は学習⼿手法によって異異なる 25
  • 26. 3つの処理理の例例:統計処理理の場合 l  平均値を計算する⽅方法を考えよう l  内部状態は今までの合計(sum)とデータの個数(count) l  UPDATE l  sum += x l  count += 1 l  ANALYZE l  return (sum / count) l  MIX l  sum = sum1 + sum2 l  count = count1 + count2 26
  • 27. 「緩いモデル共有」の特徴 l  分散オンライン機械学習に特化する l  独⽴立立に学習するのでスループットが⾼高い l  もともと100%の精度度が難しいのを逆⼿手に取り、サー バー間で結果が異異なることを許容する l  任意の並⾏行行計算を実現できるわけではない l  逐次処理理した時と厳密に⼀一致しない l  MIXするまで他のノード計算結果は反映されない 27
  • 28. これからの予定 l  まだ分散オンライン機械学習の理理論論が不不⾜足 l  分類学習に適⽤用できることが知られていた [Mann2009, McDonald2008] l  今はレコメンド(近傍探索索)問題の研究開発をして いる l  問題によってはオンライン学習させるのも難しい l  他の問題はまだまだ l  クラスタリング、マイニング、etc. l  チャレンジングな課題は多い 28
  • 29. まとめ l  Jubatusの紹介 l  3つのキーワード:リアルタイム、分散、深い解析 l  http://jubat.us l  Jubatusの分類学習の仕組み l  線形分類器 l  オンライン機械学習 l  分散オンライン学習モデル:UPDATE/ANALYZE/ MIX 29