Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Tokyowebmining41

3.689 visualizaciones

Publicado el

Publicado en: Educación

Tokyowebmining41

  1. 1. 生命情報のデータマイニング 第41回 データマイニング+WEB @東京 @zgmfx20a 2014/12/20 株式会社フリークアウト 2014/12/20 データマイニング+WEB@東京
  2. 2. 2014/12/20 データマイニング+WEB@東京 2 自己紹介 • この4月から東京の某大学で勤務 • OSS関係の活動 • Plamo Linuxプロジェクト (現在長期休暇中) • PHP / PostgreSQLなどのドキュメント翻訳 • Linux Conference ‘98 • 最初で最後?のユーザによるカンファレンス • 2007年に開催されたLL魂でRを紹介 … など • 執筆活動 • Software Design (1998~2002) • The R book (第16章) • Rによるバイオインフォマティクスデータ解析 … など
  3. 3. 2014/12/20 データマイニング+WEB@東京 3 本日の内容 • データマイニング+WEB @東京への参加意義 • 生命情報研究とWeb(IT) • 生命情報のデータマイニング • セントラルドグマとオミックス解析 • オミックス解析における p >> n 問題 • SVMでの取り組み • Random Forestsでの取り組み • PageRank他での取り組み • LASSO・MARSでの取り組み • バイオインフォマティクスにおける機械学習 • 今後の興味
  4. 4. 2014/12/20 データマイニング+WEB@東京 4 データマイニング+WEB @東京の 参加意義 • データの質的内容は分野によって異なる • SNSのネットワーク • 代謝化合物パスウェイ • しかしどちらもグラフ構造として捉えられる • マイニング技術そのものは共通のはず • 例えばNMF … • 例えばディープラーニング • メルク社の活性予測で脚光 • 他分野で有効な技術を見出し転用したい
  5. 5. 2014/12/20 データマイニング+WEB@東京 5 生命情報研究とWeb(IT) • 解析やデータ共有サーバ構築 • 配列類似性検索 (BLASTなど) • 解析結果検索処理系の作成 • Apache + PHP + PostgreSQL on Linux • よしだともこのルート訪問記(UNIXUSER誌2002年12月号掲載 第74 回 社内でのオープンソースの導入がスムーズだった理由とは? http://www.tomo.gr.jp/root/new/root74.html ) • スクレイピング • 大量の解析もしくは結果の自動集約処理 • ビッグデータ処理のインフラ構築 • データリポジトリサイト管理者の嘆き(TCGA projectなど) • 生命情報のビッグデータはVelocityが小さくVarietyが大きい?
  6. 6. 生命情報のデータマイニング 2014/12/20 データマイニング+WEB@東京
  7. 7. 2014/12/20 データマイニング+WEB@東京 7 セントラルドグマとオミックス解析 ウィキペディア「セントラルドグマ」 より引用 • セントラルドグマ • 生物学の中心教義 • 一部の例外あり • オミックス解析 • 網羅的解析の総称 • ゲノミクス • トランスクリプトミクス • プロテオミクス • メタボロミクス • 生体内の代謝物 • インタラクトミクス • タンパク質間相互作用 siRNA miRNA
  8. 8. 2014/12/20 データマイニング+WEB@東京 8 オミックス解析における p >> n 問題 • Fan C et al. Concordance among gene- expression-based predictors for breast cancer. N Engl J Med 2006; 355: 560 – 569 • 乳がんの予後予測に関する過去5論文再調査 • 遺伝子群に殆ど重複がなかった • サンプルを数百に増やし同様の手順で再解析 • 先述の4つの論文で遺伝子群の重複が認められた • p >> n 問題 • サンプル数(n)に対して説明変数(p)が極端に高次元 • オミクスデータの解析はまさにp >> n問題と隣り合わせ • 有効な解法として、LASSO/Boosting/Random Forests (user!2008 Fox教授の基調講演から)
  9. 9. 2014/12/20 データマイニング+WEB@東京 9 SVMでの取り組み • SVM (Support Vector Machine) • マージン最大の超平面を求める • 当時の実装 • TinySVM http://chasen.org/~taku/software/TinySVM/ • SVMlighthttp://svmlight.joachims.org/ • LIBSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/ • SVMを用いた研究 • siRNAの機能予測 • 化合物の活性・毒性予測
  10. 10. 2014/12/20 データマイニング+WEB@東京 10 siRNAの機能予測 • siRNA • RNA干渉を引き起こす21-23塩基の二本鎖RNA • 遺伝子ノックダウンによる機能解析 • 効率的な配列予測法がなかった • ストリングカーネルによるSVMで判別 Teramoto et al. FEBS Lett. 2005
  11. 11. 2014/12/20 データマイニング+WEB@東京 11 Random Forestsでの取り組み • Random Forests (RF) • L. Breimanが2001年に発表 • 無作為抽出と多数の決定(回帰)木の多数決(平均) • メルク社が構造活性相関(QSAR)に応用(2003) • randomForest / CRANはこのときの副産物? • RFを用いた研究 • オーファンGPCRに共役するGタンパク質の予測 • メタボローム解析 • 高次脳機能解析 • 脳磁図(Magnetoencephalography; MEG)の波形解析
  12. 12. 2014/12/20 データマイニング+WEB@東京 12 メタボローム解析と従来の解析 手法 • メタボローム解析 • 質量分析器(MS)などで生体内代謝物を網羅的に解析 • 核磁気共鳴スペクトル(NMR)で行う場合もある • 得られるデータはサンプル数 x 代謝物からなる信号強度 • 代謝化合物の同定とメカニズムの議論 • 従来の解析手順 • 主成分分析(PCA) • スコアプロット 投与群の判別 • ローディングプロット 負荷の大きい因子を選抜 • PLS-DA(部分最小二乗法判別分析) • 予測モデル TCA回路 KEGG PATHWAY より引用
  13. 13. 2014/12/20 データマイニング+WEB@東京 13 RFによるメタボローム解析 • RFを選抜した理由 • RFが教師なし学習と教師つき学習の両方に対応 • PCA⇒RFの教師なし学習 • PLS-DA⇒ RFの教師つき学習 • RFの重要度(Variable importance measure)が変数( バイオマーカー)選抜に使えるのではないか? • SVMだと判別根拠の理解が困難 • 先行研究 • 構造活性相関(Svetnik V et al. J Chem Inf Comput Sci. 2003) • 遺伝子選抜(Diaz-Uriarte et al. BMC Bioinformatics. 2006) • 植物メタボローム解析(Enot DP et al. PNAS. 2006)
  14. 14. 2014/12/20 データマイニング+WEB@東京 14 リン脂質症のメタボローム解析 • 実験デザイン • 化合物Aをラットに投与 • 尿中の代謝物をMSで解析 • PCAはMSが取得したメタボロームデータを投与前と対象 群、投与2日後、投与3日後の3群に分離 • 本試行まではリーズナブルな結果と思われた • 教師なしRFのMDS plotは4群に分離 • RFは溶媒の差異を判別した Hasegawa et al, Exp Toxicol Pathol. 2007 スコアプロット 投与前 投与2日目 投与3日目 化合物A D0 D2 D3 参照 C0 C2 C3
  15. 15. 2014/12/20 データマイニング+WEB@東京 15 RFは小さな変動を選抜した • RFの重要度は学習毎に変動 • PCAローディングのランキングとは不一致 • PCA選抜変数はRFでも高い重要度を示していた • PCA選抜変数のMS強度は高かった Hasegawa et al, Exp Toxicol Pathol. 2007 ローディング プロット
  16. 16. Ryota Suzuki R AnalyticFlow: A flowchart-style GUI for R Kensuke Okada, Kazuo Shigemasu BMDS: A Collection of R Functions for Bayesian Multidimensional Scaling Junji Nakano, Ei-ji Nakama Speeding up R by using ISM-like calls Tomoaki Nakatani ccgarch: An R package for modelling multivariate GARCH models with conditional correlations Bioinformatics II (Room: E29, Chair: Ramón Díaz-Uriarte) Jacob Michaelson, Andreas Beyer Random Forests for eQTL Analysis: A Performance Comparison Chihiro Higuchi, Shigeo Takenaka Metabolome data mining of mass spectrometry measurements with random forests Matteo Pardo, Giorgio Sberveglieri Random Forests and Nearest Shrunken Centroids for the Classification of eNose data Carolin Strobl, Achim Zeileis Why and how to use random forest variable importance measures (and how you shouldn't)
  17. 17. 2014/12/20 データマイニング+WEB@東京 17 RFについての考察 • 得られる解が不安定 • 無作為抽出とランダムな決定(回帰)木作成の所以 • 10000回くらい学習を繰り返せば問題ない? • Diaz-Uriarteは大きなエラーはないと • 自身が納得する処理を模索中 • 順位変動に拘わらないロバスト性 • 後述のLASSO・MARSとの違い • スパースではない • 全ての変数を対象に判別を実施 • どちらが合理的かはモデル次第 • RFは潜在的な因子検出に期待 Gall We et al. PLoS One. 2010
  18. 18. 2014/12/20 データマイニング+WEB@東京 18 PageRank他での取り組み • 生命情報のネットワーク解析 • タンパク質間相互作用 • シグナル伝達 • 代謝化合物パスウェイ • 代謝化合物パスウェイを対象にコミュニティ検出 • TCA回路など • PageRankによるタンパク質間相互作用解析 • ハブタンパク質の検出
  19. 19. 2014/12/20 データマイニング+WEB@東京 19 PageRankについての疑問 • PageRankは有向グラフ • 論文の引用やリンクは一方向 • 分子間相互作用は無向グラフ • 化学反応などは非可逆 • 無向グラフのPageRankは単純にエッジ数多のノー ドを選択しているのではないか? • エッジ数多でPageRank少(またはその逆)なトポロジー が思いつかない
  20. 20. 2014/12/20 データマイニング+WEB@東京 20 LASSOおよびMARSでの取り組み • LASSO (Least Absolute Shrinkage Selection Operator) • ペナルティ項を与えた最小二乗法と交差検証で最適な 線形回帰式を提案 • 各群に固有な変数を選択 • MARS (Multivariate Adaptive Regression Splines) • 折れ線スプラインで最適回帰式をヒンジ関数*で提案 • max (0, x – c) or max (0, c – x) • 全ての群に共通な変数を選択する • LASSOおよびMARSを用いた研究 • miRNA発現情報のLASSO・MARS解析による疾患バイオ マーカーの同定(第59回日本人類遺伝学会)
  21. 21. 2014/12/20 データマイニング+WEB@東京 21
  22. 22. 2014/12/20 データマイニング+WEB@東京 22 瀬々潤氏 「次世代シーケンサ解析で新たに求められる機械学習」@IBIS2011より引用 バイオインフォマティクスに おける機械学習の応用
  23. 23. 2014/12/20 データマイニング+WEB@東京 23 今後の興味 • Kursa MB. Robustness of Random Forest-based gene selection methods. BMC Bioinformatics. 2014 Jan 13;15:8. doi: 10.1186/1471- 2105-15-8. (rFerns / CRAN) • Huang JC, Meek C, Kadie C, Heckerman D. Conditional random fields for fast, large-scale genome-wide association studies. PLoS One. 2011;6(7):e21591. doi: 10.1371/journal.pone.0021591. Epub 2011 Jul 12. • Vattikuti S, Lee JJ, Chang CC, Hsu SD, Chow CC. Applying compressed sensing to genome-wide association studies. Gigascience. 2014 Jun 16;3:10. doi: 10.1186/2047-217X-3-10. eCollection 2014. • Nock NL, Li L, Elston RC. Modeling Genetic and Environmental Factors in Biological Systems Using Structural Equation Modeling: An Application to Energy Balance. Proc Ohio Collab Conf Bioinform. 2009 Jun 17:3-8.
  24. 24. 2014/12/20 データマイニング+WEB@東京 24 ご清聴ありがとうございました • 謝辞 • バイオインフォマティクス研究でご一緒した皆様 • Rコミュニティの皆様 • OSSコミュニティの皆様 • 本発表を快諾してくれた家族 • 参考文献 • ウィキペディア(日本語、英語) • 江口真透、ゲノムデータ・オミックスデータを解析するための新しい 統計方法と機械学習の方法、2009年日本計量生物学会年会特別 セッション・チュートリアルセミナー • Hastie et al. The Elements of Statistical Learning Second Edition. ISBN:978-0387848570 (邦訳 「統計的学習の基礎-データマイニン グ・推論・予測-」、共立出版、 ISBN:978-4320123625) • http://web.stanford.edu/~hastie/Papers/ESLII.pdf

×