Más contenido relacionado
La actualidad más candente (20)
Similar a 東大生向けデータ解析講座 第3回 2018/01/04 (18)
東大生向けデータ解析講座 第3回 2018/01/04
- 5. 機械学習
大まかに分けて抑えておくべきは3つ
● Regression (回帰): Y = f(x) として当てはまりが良いものをさがす。誤差を
最小化
● Clustering: 教師なし学習。特定の基準に基づきデータを複数の群に分割す
る
● Classification (分類): 教師あり学習。学習データからモデルを生成し、新
しいデータがあったときがどのラベルに属するかを分類する。予測精度の
最大化
- 16. クロスバリデーション (交差検定)
データをK個に分割し (k-fold cross-validation)、そのうち1つをテストデータ、
残りをトレーニングデータとして扱い学習を行う。
トレーニングデータ ((K-1)/K)
ここからモデルの学習を行う
テストデータ (1/K)
これを使って評価をする
K分割し、1つをテストデータに使用
分割するときにデータの性質を反映してしまうような分割となっていないか注意
columns
index
- 18. 質的データの扱い
質的データはそのままでは扱えないのでダミー変数に変換 (one-hot表現)
a, b, cがそれぞれ[1, 0, 0], [0, 1, 0], [0, 0, 1]として表されている
見た目は数値でも比較できないデータなどに注意しておく (idなど)
col
0 a
1 a
2 b
3 b
4 c
5 b
6 a
a b c
0 1 0 0
1 1 0 0
2 0 1 0
3 0 1 0
4 0 0 1
5 0 1 0
6 1 0 0
dummy変数に変換
get_dummies()
Notas del editor
- a_1 + a_1x_{11} + a_1x_{12} = y_1\\
a_2 + a_2x_{21} + a_2x_{22} = y_2\\
a_3 + a_3x_{31} + a_3x_{32} = y_3
\left[
\begin{array}{rrr}
1 & x_{11} & x_{12} \\
1 & x_{21} & x_{22} \\
1 & x_{31} & x_{32}
\end{array}
\right]
\times
\left[
\begin{array}{r}
a_1\\a_2\\a_3
\end{array}
\right]
=
\left[
\begin{array}{r}
y_1\\y_2\\y_3
\end{array}
\right]
- Accuracy = \frac{TP + TN}{TP + FP + FN + TN}