14. Lasso の課題
Lasso の問題点
▶
p ≫ n 問題 (West et al. 2001):p ≫ n の状況において、共変
量が p 個あった場合でも、Lasso が選択できる共変量の個数
は n 個である(分散共分散行列のランクが n になるため)
。
▶
グループ化効果がない:Lasso は変数間の相関を考慮できな
い。高い相関を持ついくつかの変数があるとき、それらをグ
ループ化された変数とよび、Lasso は、その中から 1 つしか
モデルに取り込むことはできない。
▶
n > p での問題:説明変数間の相関が高い場合には、グルー
プ化変数を無視する性質によってリッジ回帰よりも予測精度
が悪くなることがある。
14 / 33
15. Lasso の課題 続き
Lasso が課題になる具体的な例
▶
白血病の人の遺伝子データ, Golub et al. Science(1999)。
▶
データのサンプル数 72 個, 共変量の数 7129 個.(p ≫ n 問題)
▶
遺伝子データでは、一般的に p ≈ 10000 で、サンプル数
n < 100 である。
▶
遺伝子データでは、一般的に遺伝子同士の結合 (”Pathway”)
が似通っていることから、共変量同士の相関が高いケースが
多く、グループ化された変数が存在する。
▶
→ 解決策の1つとして、(Na¨
ıve) Elastic Net がある。
15 / 33
32. 参考文献
▶
Bradley Efron, Trevor Hastie, Iain Johnstone, Robert
Tibshirani(2004). LEAST ANGLE REGRESSION
▶
Hui Zou and Trevor Hastie(2005). Regularization and variable
selection via the elastic net
▶
Robert Tibshirani (1996). Regression Shrinkage and Selection
via the Lasso
▶
Trevor Hastie, Robert Tibshirani, Jerome Friedman(2009).
The Elements of Statistical Learning 2nd Edition
32 / 33