データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1

データサイエンティストに聞く！
今更聞けない機械学習の基礎から応用まで
株式会社9DW
中村俊輔

今日の流れ
 何故今機械学習なのか
 機械学習を取り巻く環境とビジネス機会の関係
 機械学習のしくみ
 図で分かる機械学習、中では実際に何をしているのか
 データサイエンティストに必要な要素
 どんな力を身につければよいのか
 データサイエンティスト体験
 数式、プログラミングいらず。ビジネス課題を実際に解決
 機械学習のこれから
 機械学習とどう付き合っていくか機械学習の今後の動きとあるべき姿
 おまけ
 ポケモンで分かるデータサイエンティストの育て方
ここがメイン

勉強会が終わったときにあなたは
 今日の勉強会で…
 機械学習でビジネス課題を解決する考え方が分かる
 データサイエンスの楽しさがわかる…かもしれない

自己紹介
 学生時代
 大学でアメフト部で相手チームのデータ分析
 大学、大学院で機械学習を専攻
 研究テーマ :機械学習によるアメリカンフットボールの戦略推定
 社会人
 楽天でキャリアスタート
 Hadoopを使ったビッグデータ処理、Webアプリケーション開発
 機械学習を使う機会には恵まれず
 cherry-pick入社
 自社サービスの機械学習部分の開発
 九DW CTO就任
 受託開発の機械学習部分
注意
 サッカー選手ではありません
データ！アメフト！
データ！データ！
中村俊輔
@shun_naka

自己紹介
 個人の活動
 NFLでデータ分析屋さんになるべく
アメフトのアプリの研究開発をやってます
@京都
 一般社団法人Japan American football Dream
の一員として活動もしてます
 サッカーではなくアメフト
中村俊輔
@shun_naka
データ！とスポーツ(特にアメフト)で
面白いことをやりたい！

何故今、機械学習なのか？
機械学習を取り巻く環境とビジネス機会の関係

まずは頭の整理
 よく聞く単語ってどこにいるの？
人工知能
汎用人工知能
機械学習
クラス分類器
Deep Learning
特化型人工知能
人間の脳を
計算機で作
るぞ！
人間の知的な行動の一部
を計算機で実現したい

はじめに
 機械学習？
 人間が自然に行っている学習能力と同様の機能を
コンピュータで実現しようとする技術・手法 (Wikipedia)
 1959年から存在
 特別新しい技術ではない

はじめに
 何故今注目されている？
 コンピュータのほうが安く
よりよく課題を解く場面が増えた
 何故そんな場面がふえたのか
 人間 vs コンピュータ
 人間の得意なこと
 曖昧さを許容
 多様な知識を自ら学習
 コンピュータの得意なこと
 大規模計算が正確、高速
 不眠不休
 コンピュータの性能上昇、データ量増加
 コンピュータのほうが安く
よりよく課題を解く場面が増えた
 今ある仕事のいくつかはコンピュータになる…
かも
 実用例
 スパムメール検知
 カメラの顔検出 …等

機械学習がもたらす影響
 現在進行形で産業革命が2つ起こっている
 ICT革命
 人工知能革命
 機械学習でビジネス課題を解決できると競争力があがる
 機械学習を使った方が低コストでよりよく解決できる課題が多くなる
 その課題を機械学習を使って解決することで競争力があがる

機械学習のしくみ
図で分かる機械学習、中では実際に何をしているのか

どうやって動いてるの？
 解きたい問題をコンピュータに解ける状態にして解く
 人間の問題解決を数値計算で表現する（数値計算に意思をもたせる）
 賢く解かせる
 現実の問題は厳密に最適解を求めることは難しい
 例) 巡回セールスマン問題
 厳密な最適解のためには総当たり計算が必要
 NP困難 (有限時間で計算が終わらない)
 最適じゃなくていいからそれっぽいものを出そう
 機械学習！
 人間がやっているようなことをまねる
http://sssslide.com/www.slideshare.net/DataScientist_JP/09-53539349

機械学習って…
 色々な手法が登場して全容が掴みづらい
Deep Learning
サポートベクターマシン
ロジスティック回帰
線形判別分析
線形回帰分析
K-meansクラスタリング
主成分分析
自己組織化マップ
K近傍判別
ランダムフォレスト
決定木分析
ニューラルネットワーク
サポートベクター回帰

 まとめると
 クラス分類
 回帰
 クラスタリング
 その他
Deep Learning
サポートベクターマシン
ロジスティック回帰線形判別分析
線形回帰分析
K-meansクラスタリング
主成分分析
自己組織化マップ
K近傍判別
ランダムフォレスト
決定木分析
ニューラルネットワーク
サポートベクター回帰

 大きく分けると3つの問題を解く道具
 クラス分類
 回帰
 その他
 3つの問題と、代表的な解き方を学ぶことで全容が分かる

代表的な手法を通じて問題と解き方を理解する
 クラス分類
 線形判別分析
 回帰
 線形回帰分析
 K-means クラスタリング

教師あり学習、教師なし学習
 さらに大きく分けると2つに分かれる
 教師あり学習
 クラス分類
 回帰
 教師なし学習

教師あり学習
 教師データ
 コンピュータに推定させたいものの正解のデータ
 教師あり学習をするためには以下が必要
 教師データ (目的変数, 基本的に1変数)
 教師データを推定できる情報 (説明変数, 複数可)
 例
 教師データ : メールごとのスパムメール or 通常メール
 推定できる情報 : メールタイトル、本文に登場する単語等
 アイスクリーム売り上げ推定
 教師データ : 日ごとの売り上げ金額
 推定できる情報 : その日の気温、湿度
[1] "make" "address" "all" "num3d"
[5] "our" "over" "remove" "internet"
[9] "order" "mail" "receive" "will"
[13] "people" "report" "addresses" "free"
[17] "business" "email" "you" "credit"
[21] "your" "font" "num000" "money"
[25] "hp" "hpl" "george" "num650"
[29] "lab" "labs" "telnet" "num857"
[33] "data" "num415" "num85" "technology"
[37] "num1999" "parts" "pm" "direct"
[41] "cs" "meeting" "original" "project"
[45] "re" "edu" "table" "conference"
[49] "charSemicolon" "charRoundbracket" "charSquarebracket"
"charExclamation"
[53] "charDollar" "charHash" "capitalAve" "capitalLong"
[57] "capitalTotal" "type"
例) メールのデータ

クラス分類と回帰の違い
 教師データの種類が違う
 クラス分類
 教師データが離散値、大小、順序関係を持たない
 例
 回帰
 教師データが連続値、大小、順序関係を持つ
 例
 売り上げ推定
[1] "Ozone" "Solar.R" "Wind" "Temp" "Month" "Day"
例) オゾンのデータ

教師なし学習
 教師なし学習のためには
 なんらかの特徴を持ったデータ
 例
 顧客のセグメンテーション
 データ : 年齢、性別、購買頻度、購買金額
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"
例) 植物のデータ

解いてみよう！
代表的な解き方を使って解いてみましょう！
実際にお手元で解いていただきます

クラス分類
 線形判別分析
 群間の分散と郡内の分散の比が最大になる
判別用の超平面のパラメータを求める
z = ax + by + c
うまく分類できるa, b, cを求める
a,b,c を求めておけばzの正負で分類できる
z : 目的変数
x, y : 説明変数
a, b, c : 教師データを使って求めるパラメータ
-> これを利用することで未知のデータの分類ができる
モデルを作成するとも言う
 性能はテストデータの正答率で評価

Pythonで線形判別分析
トレーニングデータ : 学習用(パラメータa,b,cを求めるための)データ
テストデータ : 学習したモデルの汎化性能(知らないデータに対しての性能)をチェックするためのデータ
※ Jupyter Notebookはセミナー中しか利用できないので、スライドを見ている人はこちら
https://github.com/shunnakamu/machine_learning_training/tree/master/Python/notebooks
qdw.japaneast.cloudapp.azure.com:3000
Pass word : “” (no password)

irisデータセットとは？
 日本語で
 Edgar Anderson のあやめのデータ
 説明
 この有名な(Fiher もしくは Anderson の)あやめのデータセットは
三種類のあやめの品種のそれぞれからの50の花の
センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。
品種は Iris setosa, versicolor そして virginica である。
 書式
 iris は 150 例(行) と、
名前 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
そして Species を持つ 5 変量(列) からなるデータフレームである。
データフレーム : この場合2次元データフレームなので表形式のデータ
http://www.is.titech.ac.jp/~mase/mase/html.jp/temp/iris.jp.html

クラス分類 (おまけ)
 Deep Learning
 脳の情報処理の方法を真似て作られたネットワークである
ニューラルネットワークをより多層(Deep)にしたもの
 入力層、中間層、出力層からなるネットワーク
ノードはニューロンで
特定の信号に対して発火(特定の値をとる)する
 ニューラルネットワーク自体はかなり前からある
(1943年)※
 以前はDeepにすると過学習する傾向にあったが、
過学習しないための仕組みが発見され、一気にブーム
 良いところ
 画像、音声等の特徴量が多いデータに対して強い
 悪いところ
 何をやっているのか人間に理解できない
※Warren S. McCulloch; Walter Pitts (December 1943). "A
logical calculus of the ideas immanent in nervous activity".

回帰
 線形回帰分析
 目的変数を説明変数の式で表現し
誤差が最小になる係数を求める
y = ax + b
y をうまく表現する(誤差が最小になる)
a, bを求める
xが与えられればyが求まる
y : 目的変数
x : 説明変数
a, b : 教師データを使って求めるパラメータ
 性能はテストデータへの誤差で評価

Pythonで線形回帰

Boston house-prices データセットとは？
 日本語で
 ボストン市の住宅価格
 説明
 米国ボストン市郊外における地域別の住宅価格のデータセット
 書式
 目的変数 (1,000 ドル台でオーナーが所有する住宅の価格の中央値)
http://pythondatascience.plavox.info/scikit-learn/scikit-
learn%E3%81%AB%E4%BB%98%E5%B1%9E%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E3%83%8
7%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88/
CRIM 人口 1 人当たりの犯罪発生数
ZN 25,000 平方フィート以上の住居区画の占める割合
INDUS 小売業以外の商業が占める面積の割合
CHAS チャールズ川によるダミー変数 (1: 川の周辺, 0: それ以外)
NOX NOx の濃度
RM 住居の平均部屋数
AGE 1940 年より前に建てられた物件の割合
DIS 5 つのボストン市の雇用施設からの距離 (重み付け済)
RAD 環状高速道路へのアクセスしやすさ
TAX $10,000 ドルあたりの不動産税率の総計
PTRATIO 町毎の児童と教師の比率
B 町毎の黒人 (Bk) の比率を次の式で表したもの。 1000(Bk – 0.63)^2
LSTAT 給与の低い職業に従事する人口の割合 (%)

クラスタリング
 K-means クラスタリング
 クラスタ数を決める
 初期値を与える
1. 各クラスターの中心（平均値）を求める
2. 各データをもっとも近いクラスター中心に割り当てなおす
3. 1, 2を実行して割り当てが変化しなければ終了

PythonでK-means

Azureでデータサイエンス
 簡単
 今回のハンズオンで利用したのはAzureのテンプレートから作ったVMに
ソースコードを配置しただけ
テンプレート : Data Science Virtual Machine for Linux (Ubuntu)
 Python環境、データサイエンス系で利用されるライブラリ郡は
最初からインストールされている
 ハイパフォーマンス
 Standard DS4 v2 (8 vcpu 数、28 GB メモリ)
 使いたい時に使いたいだけ利用できる
 無料！(所定の条件あり)
 BizSpark
Microsoftが提供しているスタートアップ企業向けの
Azure環境やVisualStudio等の利用料金を補助するサービス
 BizSpark Plusであれば、年間約1200万円まで無料！
(要審査)

機械学習はビジネス課題を解くときの一部でしかない
 実際のビジネス課題を解く手順例
 問題選定
 データ選定
 前処理
 機械学習で分析
 結果確認、再処理

データサイエンティストに必要な要素

データサイエンティストに必要な要素3つ
※ミッション、スキルセット、定義、スキル. レベル byデータサイエンティスト協会
http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
 黎明期の現在はすべてを持ち合わせる必要がある
 さらに素早く成果物を出すには一人ですべてカバーしている必要がある

よくある光景 (ビジネス力が足りていない)

よくある光景 (データサイエンス力が足りていない)

よくある光景 (データエンジニア力が足りてない)

スキルセットが必要な場面
 実際のビジネス課題を解く手順ごとに必要なスキル
 問題設定 (ビジネス力、データサイエンス力)
 データ選定 (ビジネス力、データサイエンス力)
 前処理 (データエンジニアリング力、データサイエンス力)
 機械学習で分析 (データエンジニアリング力、データサイエンス力)
 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
 これから体験してもらうところ
 問題設定 ~ 前処理の一部まで
 体験しながら自分の現在のスキルや
どんなスキルが必要なのか理解しよう

データサイエンティスト体験
数式、プログラミングいらず。ビジネス課題を実際に解決

ビジネス課題を機械学習を使って解決
 今までのまとめ
 使うだけなら簡単
 資料もWebにたくさんある
 重要なところ
 どう使うの？
 どんなデータをどう処理するの？
 出した答えをどう理解するの？
 経験、ノウハウが必要でビジネスで差が出るところだが資料は少ない

ビジネス課題を機械学習を使って解決
 今からやってもらうもの
 あるビジネス課題を機械学習で解決するロールプレイ
 重要な部分をわざと曖昧にしてあります
ほしい情報は質問して入手してください
 何人かでチームを作って課題解決にあたってください
 プログラミングはしません
 対象フェーズ

シチュエーション
 会社
 旅行代理店 (J○B, H○S)
 ボス
 「過去の宿泊予約の履歴からその日に泊まる人数を予測するサービスを立ち上げたい」
 「持ってるデータはこれだから」
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ(過去の宿泊予約の履歴)

やること
 ポイント
 ボスに質問して詳細を聞き出そう
 しばらくしたら先輩データサイエンティストが登場

問題設定
 どの問題として解くか？
 クラス分類
 回帰
 その他
 何に対して解くか？
 都道府県？地域？宿泊施設？

やること
 ポイント
 持っているデータのどれを利用するか？
(どんな式にするか？)
 しばらくすると先輩データサイエンティストとの答え合わせ

変数設定、データセット作成
 データセットは自分たちが作らないといけない
 サンプルのように整備されたものはない
 目的変数
 目的変数に設定すべきものは？
 説明変数
 説明変数に設定すべきものは？
お客様性別
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ

変数設定設定例
 目的変数
 人数計
 説明変数
 宿泊日_年
 宿泊日_月
 宿泊日_日
 客室タイプ
 食事条件
 金額
 モデルを作成する単位
 施設コード
お客様性別
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計

前処理
 前処理が必要なデータ
 人数計
 日付ごとに合計データにしておく
 宿泊日
 曜日を算出しておく
 客室タイプ、食事条件
 種類ごとにベクトル化、数が少ないものはその他に
お客様性別
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計

データサンプル
月火水木金土日
ツイ
ン
シン
グル
和室
和洋
室
洋室
客室
タイ
プ_そ
の他
2食付
き
朝食
付き
食事
無
（ル
ーム
チャ
ー
ジ）
食事
条件_
その
他
金額
宿泊
人数
0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0
1610
0
1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0
2430
0
1
0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 8100 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 8100 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 7420 1
0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 7420 2
0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0
1607
0
5
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 7636 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 7300 1
0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 7300 1
0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 7200 1
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 8500 1
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 7924 1
0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 6736 1
0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0
1080
0
2
※金額はこの後0-1の範囲にする
場合によっては対数もとる

分析
travel <-
read.table(“travel_data.tsv”,
header=TRUE, sep=“¥t”, na.strings=“NA”, dec=“.”, strip.white=TRUE)
travel.lm <- lm(宿泊人数 ~. , data=travel)
summary(travel.lm)
summary(travel$宿泊人数)
# 誤差の平均を確認する
travel.lm.pre <- predict(travel.lm, travel[,-23])
travel.lm.result <- abs(travel.lm.pre - travel[,23])
summary(travel.lm.result)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.000 1.000 2.000 2.634 3.000 30.000
# モデルのパラメータ
travel.lm$coefficients
# 誤差が一番大きかったデータを確認する
which.max(travel.lm.result)
# データを目検。

結果を確認する
 回帰がうまくできなかったデータはどのような特徴があるのか？
 対応すべきか否か？
 外れ値かどうか？
 これを繰り返して賢く問題を解く機械学習のモデルを作っていく
 これがデータサイエンティストの仕事のメイン
 データの前処理も結構メインだったりする
 解きたい問題の本質は何かを考える
 目的変数を表現できる情報を与えてあげれば機械は正しい答えを出してくれる
 目的変数を表現できる情報とは？

まとめ
 実際のビジネス課題を機械学習で解いた
 問題選定
 データ選定
 前処理
 機械学習で分析
 結果確認、再処理
 実際にビジネス課題を解くとすると…
 機械学習で分析の部分は簡単、Webで探せばいくらでも資料がある
 大切なこと
 問題の本質をとらえる
 機械が解ける状態にする
 結果を正しく理解する

機械学習のこれから
機械学習とどう付き合っていくか機械学習の今後の動きとあるべき姿

機械学習のこれから
 現在進行形で産業革命が2つ起こっている
 ICT革命
 人工知能革命
 機械学習でビジネス課題を解決できると競争力があがる
 機械学習を使った方が低コストでよりよく解決できる課題が多くなる

機械学習を取り巻く環境
 使うだけなら誰でもできる
 機械学習ライブラリの充実
 R
 Python
 機械学習プラットフォームの充実
 Amazon Machine Learning
 Microsoft Azure Machine Learning
 結果を読み取ったり、より良くするできることが大切
 機械学習のPDCAをうまく回せる人がビジネス課題を解決できる
 これができる人、組織は現在少ない

機械学習とどう付き合うか？
 経営者や管理者
 どの課題を機械学習で解決すべきなのかを理解できるようにする
 機械学習で解決すべきでない課題を機械学習で解いてもうれしくない
 Deep Learningもビジネス課題を解決する目的なら力を発揮しない場面が多い
 機械学習で課題を解決できる環境を作る
 人材確保
 取引先確保
 データサイエンティスト
 基礎としての数学を身につける
 PDCAを回すときに数学ができないと結果を正しく理解できない
 大学数学の線形代数、微分積分は必須
 基本的な機械学習の手法は数式から理解するべき
 ビジネス課題を解決する教科書はない、経験値が大切
 基本的には仕事はICTエンジニアと変わらないが、ノウハウがない

さいごに
データサイエンスは楽しい！
今まで人間が解けなかった問題が解ける
働き方をどう変えるか？は我々次第

おまけ
ポケモンで分かるデータサイエンティストの育て方

どうすれば3つの要素を持ち合わせられるのか？

その前にポケモンの話をしよう
※ポケモンGOではなくて本家ポケモン

強いポケモンの育て方
 ポケモンの個体ごとの強いものを選ぶ
 強くしたいステータスを育てる
 倒したポケモンに応じて成長する
倒すとこうげきが上がる倒すとぼうぎょが上がる

効率よく育てるために
 狙っているポケモンが出現する草むらでポケモンを倒す
ん…？
データサイエンティストになりたければ
3つの能力が上がる場所で活動する…
ポケモンと同じだ！
たまげたなぁ
イワヤマトンネルおつきみやま

つまり…
ポケモンデータサイエンス
倒すポケモン仕事
草むら職場

データサイエンティストに必要な要素3つが身に着く現場
 大学、大学院
 数学、機械学習を身に着ける
 論文を読んだら実装できる
 大企業、中企業
 開発、運用の基礎を身に着ける
 高速な開発と容易な運用、いわゆるきれいなコードを
書けるようになる
 ベンチャー企業
 自ら問題解決をする
 自社、クライアントの問題をデータサイエンスでどう
解決するかを提案できる
 九DW
 多種多様なクライアントとすべてのことができる！
 データサイエンティストのパイオニアになる
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
※個人の感想です

さいごに 2
興味を持ってくれた人へ
やってみたい人で学生の人 : インターンっぽいのがあるのでやってみませんか
やってみたい人で働いてる人 : 副業してみませんか
何かデータで困っている人 : 力になります。お話を聞かせてください
社内の人材を育成したい方 : 社外向けの勉強会, 共同開発等ありますので是非ご利用ください

データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1

Recommended

Recommended

More Related Content

What's hot

What's hot (9)

Similar to データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1

Similar to データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1 (20)

データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1

Editor's Notes