SlideShare una empresa de Scribd logo
1 de 28
機械学習勉強会(2)
機械学習のワークフロー
May 28, 2019
Tomoya Nakayama
今日おぼえてほしいこと
• 機械学習のワークフロー
• (データ分析の手法)
• データ前処理の手法
• モデルの評価と調整方法
2
機械学習プロジェクトのワークフロー
3
データ
収集
データ
分析
データ
前処理
モデル
作成
モデル
評価
組込み
監視
参考: https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/how-it-works-mlconcepts.html
1. データ分析
4
変数の種類
分類 尺度 説明 例
質的変数 名義尺度 カテゴリーの違いだけを表すもの 性別、職業
順序尺度 順序に意味はあるが、カテゴリー間
の差は同じではないもの
成績(優、良、可、不可)
量的変数 間隔尺度 順序も間隔も意味があるが、原点の
位置はどこでもよいもの
温度
比例尺度 間隔尺度であり、原点が定まってい
るもの
長さ、重さ
5
参考:永田靖ほか「多変量解析法入門」サイエンス社, 2001年
分布をみる
• ヒストグラム等を使って値の
分布を調べる
6
相関をみる
• 特徴量とラベル、あるいは特徴量どうしの関係性を調べる
• 相関係数(関係性を-1〜1の数値で算出)
• 0から離れるほど関係性が高い
• クロス集計
7
2. データの前処理
8
生データは扱いづらい
• 質的変数(連続的な数値では
ない)
• 欠損値
• 外れ値
• 値の範囲がバラバラ
駅からの
距離
(分)
築年数
(年)
面積(m2) 管理状態
4 10 60 良い
7 5 75 悪い
? 7 68 良い
5 12 500 普通
2 6 45 悪い
10 3 92 普通
9
欠損値
外れ値 質的変数
ダミー化
• 質的変数を、1または0のダミー変数に変換
駅からの距離
(分)
築年数
(年)
面積
(m2)
管理状態が
良いか?
管理状態が
普通か?
管理状態が
悪いか?
4 10 60 1 0 0
7 5 75 0 0 1
? 7 68 1 0 0
5 12 500 0 1 0
2 6 45 0 0 1
10 3 92 0 1 0
10
欠損値(missing value)の扱い
• レコードごと除去(訓練・テストに使わない)
• 特定の値で補完(0、平均値、etc)
11
駅からの距離
(分)
築年数
(年)
面積
(m2)
管理状態が
良いか?
管理状態が
普通か?
管理状態が
悪いか?
4 10 60 1 0 0
7 5 75 0 0 1
? 7 68 1 0 0
5 12 500 0 1 0
2 6 45 0 0 1
10 3 92 0 1 0
外れ値(outlier)の扱い
• 基準
• 四分位数(の何倍か)、分散(の何倍か)
• 扱い
• レコードごと除去、平均値・中央値などで置き換え、など
12
駅からの距離
(分)
築年数
(年)
面積
(m2)
管理状態が
良いか?
管理状態が
普通か?
管理状態が
悪いか?
4 10 60 1 0 0
7 5 75 0 0 1
5 12 500 0 1 0
2 6 45 0 0 1
10 3 92 0 1 0
正規化・標準化
• 正規化(normalization):値を-1〜1または0〜1の範囲に揃える
• 標準化(standardization):値を標準正規分布(平均0、分散1の正
規分布)に従うように変換する
13
駅からの距離
(分)
築年数
(年)
面積
(m2)
管理状態が
良いか?
管理状態が
普通か?
管理状態が
悪いか?
0.250 1.000 0.319 1 0 0
0.625 0.286 0.638 0 0 1
0.000 0.429 0.000 0 0 1
1.000 0.000 1.000 0 1 0
特徴量の追加・削除・変換
• 2つ以上の特徴量を組み合わせて新しい特徴量を作成
• ラベルと関係ない特徴量を削除
• 名前、住所など
• ラベルとの相関がない(=相関係数が0に近い)特徴量を削除
• 量的変数を質的変数に変換
• 年齢→「10代、20代、30代、…」
14
3. モデルの評価
15
データの分割
• 手持ちのデータを分けておく
• 訓練データ (training data):モデルの学習に使う
• 検証用データ (validation data):ハイパーパラメータの選択に使う
• テストデータ (test data):性能評価に使う
• なぜ分けるのか?
• 未知のデータに対するモデルの性能を見るため
16
交差検証 (cross validation)
• 訓練データを複数のグループに分け、
1個を検証データ、残りを訓練データとして学習させる
• これを全通り繰り返し、学習モデルの汎用性を確かめる
• 特定のパターンだけ性能が良いのはNG
17
訓練データ 訓練データ 検証データ
訓練データ 検証データ 訓練データ
検証データ 訓練データ 訓練データ
(1)
(2)
(3)
ハイパーパラメータ
• 学習モデルを作る上で人間が決める値
• 学習率
• 学習回数
• MLPの層数・ノード数
• etc.
18
ハイパーパラメータの調整
• ハイパーパラメータをいくつか試し、最も性能の高いものを
採用する
• 学習率={0.01, 0.03, 0.1, 0.3}
• 階層数={1層、2層、3層}
• グリッドサーチ
• ハイパーパラメータの組み合わせを全通り試す
19
モデルの評価
• 訓練データと検証用データの損失を比べる
検証データ:損失低 検証データ:損失高
訓練データ:損失低 良いモデル オーバーフィッティング(過学習)
(overfitting / high variance)
訓練データ:損失高 ??? アンダーフィッティング
(underfitting / high bias)
20
良いモデル
• 期待した性能が出ている
• 学習が進むにつれて、訓練
データ・検証データともに損
失が下がっている(精度が上
がっている)
損失
学習回数
訓練データ 検証データ
21
オーバーフィッティング
• 訓練データに対する性能は高
いが、検証データ(テスト
データ)に対する性能が徐々
に下がる
• つまり訓練データに最適化さ
れすぎている
22損失
学習回数
訓練データ 検証データ
オーバーフィッティングの対策
• データを増やす
• モデルを単純にする
• 正則化(regularization)
• 損失に一定のペナルティを加える
• ドロップアウト(dropout)
• 隠れ層の一定割合のノードを無効にする
• 早期終了(early stopping)
• 学習を途中でやめる
23
アンダーフィッティング
• 訓練データ、検証データとも
に性能が低い(損失が高止ま
り)
24損失
学習回数
訓練データ 検証データ
アンダーフィッティングの対策
• 学習回数を増やす
• モデルを複雑にする
• 特徴量を変える、特徴量を増やす
25
性能評価基準
• 損失 (loss)
• 正答率 (accuracy)
• 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑇𝑃+𝑇𝑁
𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁
• 適合率(precision) / 再現率
(recall) / F値
• 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃+𝐹𝑃
• 𝑟𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃
𝑇𝑃+𝐹𝑁
• 𝐹 =
2×𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛×𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙
予測値/事実 正(positive) 負(negative)
正(positive) True positive
(TP)
False positive
(FP)
負(negative) False negative
(FN)
True negative
(TN)
26
混同行列 (confusion matrix)
True / False = 正解・不正解
Positive / Negative = 予測値
4. ハンズオン
27
ハンズオン
1. 2値分類編
• Google Colab版
• Binder版
• Googleアカウントを使用でき
る場合はGoogle Colab版を選択
してください
• Googleアカウントを使用でき
ない場合はBinder版を選択し
てください
• Binder版は起動に10分程度かか
ることがあります
• Binder版はGPUを使えないため
動作が遅いです
28

Más contenido relacionado

Similar a Machine Learning Seminar (2)

2018Rユーザ会用
2018Rユーザ会用2018Rユーザ会用
2018Rユーザ会用wada, kazumi
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17horihorio
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tatsuya Tojima
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分けるKazuaki Tanida
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
Relationship driven requirement analysis
Relationship driven requirement analysisRelationship driven requirement analysis
Relationship driven requirement analysisKent Ishizawa
 
Oracle Cloud Infrastructure Data Science 技術資料(20200402)
Oracle Cloud Infrastructure Data Science 技術資料(20200402)Oracle Cloud Infrastructure Data Science 技術資料(20200402)
Oracle Cloud Infrastructure Data Science 技術資料(20200402)オラクルエンジニア通信
 
初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀Junpei Kawamoto
 

Similar a Machine Learning Seminar (2) (9)

2018Rユーザ会用
2018Rユーザ会用2018Rユーザ会用
2018Rユーザ会用
 
時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分ける
 
データベースで始める機械学習
データベースで始める機械学習データベースで始める機械学習
データベースで始める機械学習
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
Relationship driven requirement analysis
Relationship driven requirement analysisRelationship driven requirement analysis
Relationship driven requirement analysis
 
Oracle Cloud Infrastructure Data Science 技術資料(20200402)
Oracle Cloud Infrastructure Data Science 技術資料(20200402)Oracle Cloud Infrastructure Data Science 技術資料(20200402)
Oracle Cloud Infrastructure Data Science 技術資料(20200402)
 
初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀
 

Último

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Último (9)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

Machine Learning Seminar (2)

Notas del editor

  1. 1回フローを流せば終わりなのではなく、これをフィードバックループとして繰り返し行うことで徐々に性能を上げていく
  2. 適合率は「正(positive)と予測したもののうち、事実が正だったものの割合」、再現率は「事実が正のもののうち、予測値が正だったものの割合」