SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
生命情報のデータマイニング
第41回 データマイニング+WEB @東京
@zgmfx20a
2014/12/20 株式会社フリークアウト
2014/12/20 データマイニング+WEB@東京
2014/12/20 データマイニング+WEB@東京 2
自己紹介
• この4月から東京の某大学で勤務
• OSS関係の活動
• Plamo Linuxプロジェクト (現在長期休暇中)
• PHP / PostgreSQLなどのドキュメント翻訳
• Linux Conference ‘98
• 最初で最後?のユーザによるカンファレンス
• 2007年に開催されたLL魂でRを紹介 … など
• 執筆活動
• Software Design (1998~2002)
• The R book (第16章)
• Rによるバイオインフォマティクスデータ解析 … など
2014/12/20 データマイニング+WEB@東京 3
本日の内容
• データマイニング+WEB @東京への参加意義
• 生命情報研究とWeb(IT)
• 生命情報のデータマイニング
• セントラルドグマとオミックス解析
• オミックス解析における p >> n 問題
• SVMでの取り組み
• Random Forestsでの取り組み
• PageRank他での取り組み
• LASSO・MARSでの取り組み
• バイオインフォマティクスにおける機械学習
• 今後の興味
2014/12/20 データマイニング+WEB@東京 4
データマイニング+WEB @東京の
参加意義
• データの質的内容は分野によって異なる
• SNSのネットワーク
• 代謝化合物パスウェイ
• しかしどちらもグラフ構造として捉えられる
• マイニング技術そのものは共通のはず
• 例えばNMF …
• 例えばディープラーニング
• メルク社の活性予測で脚光
• 他分野で有効な技術を見出し転用したい
2014/12/20 データマイニング+WEB@東京 5
生命情報研究とWeb(IT)
• 解析やデータ共有サーバ構築
• 配列類似性検索 (BLASTなど)
• 解析結果検索処理系の作成
• Apache + PHP + PostgreSQL on Linux
• よしだともこのルート訪問記(UNIXUSER誌2002年12月号掲載 第74
回 社内でのオープンソースの導入がスムーズだった理由とは?
http://www.tomo.gr.jp/root/new/root74.html )
• スクレイピング
• 大量の解析もしくは結果の自動集約処理
• ビッグデータ処理のインフラ構築
• データリポジトリサイト管理者の嘆き(TCGA projectなど)
• 生命情報のビッグデータはVelocityが小さくVarietyが大きい?
生命情報のデータマイニング
2014/12/20 データマイニング+WEB@東京
2014/12/20 データマイニング+WEB@東京 7
セントラルドグマとオミックス解析
ウィキペディア「セントラルドグマ」
より引用
• セントラルドグマ
• 生物学の中心教義
• 一部の例外あり
• オミックス解析
• 網羅的解析の総称
• ゲノミクス
• トランスクリプトミクス
• プロテオミクス
• メタボロミクス
• 生体内の代謝物
• インタラクトミクス
• タンパク質間相互作用
siRNA
miRNA
2014/12/20 データマイニング+WEB@東京 8
オミックス解析における
p >> n 問題
• Fan C et al. Concordance among gene-
expression-based predictors for breast
cancer. N Engl J Med 2006; 355: 560 – 569
• 乳がんの予後予測に関する過去5論文再調査
• 遺伝子群に殆ど重複がなかった
• サンプルを数百に増やし同様の手順で再解析
• 先述の4つの論文で遺伝子群の重複が認められた
• p >> n 問題
• サンプル数(n)に対して説明変数(p)が極端に高次元
• オミクスデータの解析はまさにp >> n問題と隣り合わせ
• 有効な解法として、LASSO/Boosting/Random Forests
(user!2008 Fox教授の基調講演から)
2014/12/20 データマイニング+WEB@東京 9
SVMでの取り組み
• SVM (Support Vector Machine)
• マージン最大の超平面を求める
• 当時の実装
• TinySVM http://chasen.org/~taku/software/TinySVM/
• SVMlighthttp://svmlight.joachims.org/
• LIBSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/
• SVMを用いた研究
• siRNAの機能予測
• 化合物の活性・毒性予測
2014/12/20 データマイニング+WEB@東京 10
siRNAの機能予測
• siRNA
• RNA干渉を引き起こす21-23塩基の二本鎖RNA
• 遺伝子ノックダウンによる機能解析
• 効率的な配列予測法がなかった
• ストリングカーネルによるSVMで判別
Teramoto et al. FEBS Lett. 2005
2014/12/20 データマイニング+WEB@東京 11
Random Forestsでの取り組み
• Random Forests (RF)
• L. Breimanが2001年に発表
• 無作為抽出と多数の決定(回帰)木の多数決(平均)
• メルク社が構造活性相関(QSAR)に応用(2003)
• randomForest / CRANはこのときの副産物?
• RFを用いた研究
• オーファンGPCRに共役するGタンパク質の予測
• メタボローム解析
• 高次脳機能解析
• 脳磁図(Magnetoencephalography; MEG)の波形解析
2014/12/20 データマイニング+WEB@東京 12
メタボローム解析と従来の解析
手法
• メタボローム解析
• 質量分析器(MS)などで生体内代謝物を網羅的に解析
• 核磁気共鳴スペクトル(NMR)で行う場合もある
• 得られるデータはサンプル数 x 代謝物からなる信号強度
• 代謝化合物の同定とメカニズムの議論
• 従来の解析手順
• 主成分分析(PCA)
• スコアプロット 投与群の判別
• ローディングプロット 負荷の大きい因子を選抜
• PLS-DA(部分最小二乗法判別分析)
• 予測モデル
TCA回路
KEGG
PATHWAY
より引用
2014/12/20 データマイニング+WEB@東京 13
RFによるメタボローム解析
• RFを選抜した理由
• RFが教師なし学習と教師つき学習の両方に対応
• PCA⇒RFの教師なし学習
• PLS-DA⇒ RFの教師つき学習
• RFの重要度(Variable importance measure)が変数(
バイオマーカー)選抜に使えるのではないか?
• SVMだと判別根拠の理解が困難
• 先行研究
• 構造活性相関(Svetnik V et al. J Chem Inf Comput Sci. 2003)
• 遺伝子選抜(Diaz-Uriarte et al. BMC Bioinformatics. 2006)
• 植物メタボローム解析(Enot DP et al. PNAS. 2006)
2014/12/20 データマイニング+WEB@東京 14
リン脂質症のメタボローム解析
• 実験デザイン
• 化合物Aをラットに投与
• 尿中の代謝物をMSで解析
• PCAはMSが取得したメタボロームデータを投与前と対象
群、投与2日後、投与3日後の3群に分離
• 本試行まではリーズナブルな結果と思われた
• 教師なしRFのMDS plotは4群に分離
• RFは溶媒の差異を判別した
Hasegawa et al, Exp Toxicol Pathol. 2007
スコアプロット
投与前 投与2日目 投与3日目
化合物A D0 D2 D3
参照 C0 C2 C3
2014/12/20 データマイニング+WEB@東京 15
RFは小さな変動を選抜した
• RFの重要度は学習毎に変動
• PCAローディングのランキングとは不一致
• PCA選抜変数はRFでも高い重要度を示していた
• PCA選抜変数のMS強度は高かった
Hasegawa et al, Exp Toxicol Pathol. 2007
ローディング
プロット
Ryota Suzuki
R AnalyticFlow: A flowchart-style GUI for R
Kensuke Okada, Kazuo Shigemasu
BMDS: A Collection of R Functions for Bayesian Multidimensional Scaling
Junji Nakano, Ei-ji Nakama
Speeding up R by using ISM-like calls
Tomoaki Nakatani
ccgarch: An R package for modelling multivariate GARCH models with conditional correlations
Bioinformatics II (Room: E29, Chair: Ramón Díaz-Uriarte)
Jacob Michaelson, Andreas Beyer
Random Forests for eQTL Analysis: A Performance Comparison
Chihiro Higuchi, Shigeo Takenaka
Metabolome data mining of mass spectrometry measurements with random forests
Matteo Pardo, Giorgio Sberveglieri
Random Forests and Nearest Shrunken
Centroids for the Classification of eNose data
Carolin Strobl, Achim Zeileis
Why and how to use random forest variable
importance measures (and how you shouldn't)
2014/12/20 データマイニング+WEB@東京 17
RFについての考察
• 得られる解が不安定
• 無作為抽出とランダムな決定(回帰)木作成の所以
• 10000回くらい学習を繰り返せば問題ない?
• Diaz-Uriarteは大きなエラーはないと
• 自身が納得する処理を模索中
• 順位変動に拘わらないロバスト性
• 後述のLASSO・MARSとの違い
• スパースではない
• 全ての変数を対象に判別を実施
• どちらが合理的かはモデル次第
• RFは潜在的な因子検出に期待 Gall We et al. PLoS One. 2010
2014/12/20 データマイニング+WEB@東京 18
PageRank他での取り組み
• 生命情報のネットワーク解析
• タンパク質間相互作用
• シグナル伝達
• 代謝化合物パスウェイ
• 代謝化合物パスウェイを対象にコミュニティ検出
• TCA回路など
• PageRankによるタンパク質間相互作用解析
• ハブタンパク質の検出
2014/12/20 データマイニング+WEB@東京 19
PageRankについての疑問
• PageRankは有向グラフ
• 論文の引用やリンクは一方向
• 分子間相互作用は無向グラフ
• 化学反応などは非可逆
• 無向グラフのPageRankは単純にエッジ数多のノー
ドを選択しているのではないか?
• エッジ数多でPageRank少(またはその逆)なトポロジー
が思いつかない
2014/12/20 データマイニング+WEB@東京 20
LASSOおよびMARSでの取り組み
• LASSO (Least Absolute Shrinkage Selection Operator)
• ペナルティ項を与えた最小二乗法と交差検証で最適な
線形回帰式を提案
• 各群に固有な変数を選択
• MARS (Multivariate Adaptive Regression Splines)
• 折れ線スプラインで最適回帰式をヒンジ関数*で提案
• max (0, x – c) or max (0, c – x)
• 全ての群に共通な変数を選択する
• LASSOおよびMARSを用いた研究
• miRNA発現情報のLASSO・MARS解析による疾患バイオ
マーカーの同定(第59回日本人類遺伝学会)
2014/12/20 データマイニング+WEB@東京 21
2014/12/20 データマイニング+WEB@東京 22
瀬々潤氏 「次世代シーケンサ解析で新たに求められる機械学習」@IBIS2011より引用
バイオインフォマティクスに
おける機械学習の応用
2014/12/20 データマイニング+WEB@東京 23
今後の興味
• Kursa MB. Robustness of Random Forest-based gene selection
methods. BMC Bioinformatics. 2014 Jan 13;15:8. doi: 10.1186/1471-
2105-15-8. (rFerns / CRAN)
• Huang JC, Meek C, Kadie C, Heckerman D. Conditional random fields for
fast, large-scale genome-wide association studies. PLoS
One. 2011;6(7):e21591. doi: 10.1371/journal.pone.0021591. Epub 2011
Jul 12.
• Vattikuti S, Lee JJ, Chang CC, Hsu SD, Chow CC.
Applying compressed sensing to genome-wide association studies.
Gigascience. 2014 Jun 16;3:10. doi: 10.1186/2047-217X-3-10.
eCollection 2014.
• Nock NL, Li L, Elston RC. Modeling Genetic and Environmental Factors
in Biological Systems Using Structural Equation Modeling: An
Application to Energy Balance. Proc Ohio Collab Conf Bioinform. 2009
Jun 17:3-8.
2014/12/20 データマイニング+WEB@東京 24
ご清聴ありがとうございました
• 謝辞
• バイオインフォマティクス研究でご一緒した皆様
• Rコミュニティの皆様
• OSSコミュニティの皆様
• 本発表を快諾してくれた家族
• 参考文献
• ウィキペディア(日本語、英語)
• 江口真透、ゲノムデータ・オミックスデータを解析するための新しい
統計方法と機械学習の方法、2009年日本計量生物学会年会特別
セッション・チュートリアルセミナー
• Hastie et al. The Elements of Statistical Learning Second Edition.
ISBN:978-0387848570 (邦訳 「統計的学習の基礎-データマイニン
グ・推論・予測-」、共立出版、 ISBN:978-4320123625)
• http://web.stanford.edu/~hastie/Papers/ESLII.pdf

Más contenido relacionado

Destacado

物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜Takashi Kaneda
 
投資会社から見た人工知能(Ai)の事業化トレンド
投資会社から見た人工知能(Ai)の事業化トレンド投資会社から見た人工知能(Ai)の事業化トレンド
投資会社から見た人工知能(Ai)の事業化トレンドOsaka University
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析sesejun
 
フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習h_yama2396
 
アンカンファレンス @ 第50回 データマイニング+WEB @東京
アンカンファレンス @ 第50回 データマイニング+WEB @東京アンカンファレンス @ 第50回 データマイニング+WEB @東京
アンカンファレンス @ 第50回 データマイニング+WEB @東京Izumi Akiyama
 
イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化Osaka University
 
人工知能Xファッション最前線
人工知能Xファッション最前線人工知能Xファッション最前線
人工知能Xファッション最前線Kazuki Baba
 
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Masakazu Sano
 
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測Teruyuki Sakaue
 
レコメンド研究のあれこれ
レコメンド研究のあれこれレコメンド研究のあれこれ
レコメンド研究のあれこれMasahiro Sato
 
ディープラーニング徹底活用 -画像認識編-
ディープラーニング徹底活用 -画像認識編-ディープラーニング徹底活用 -画像認識編-
ディープラーニング徹底活用 -画像認識編-Hideki
 
Tokyo Webmining Talk1
Tokyo Webmining Talk1Tokyo Webmining Talk1
Tokyo Webmining Talk1Kenta Oono
 
VAE-type Deep Generative Models
VAE-type Deep Generative ModelsVAE-type Deep Generative Models
VAE-type Deep Generative ModelsKenta Oono
 
DeNAの機械学習・深層学習活用した 体験提供の挑戦
DeNAの機械学習・深層学習活用した体験提供の挑戦DeNAの機械学習・深層学習活用した体験提供の挑戦
DeNAの機械学習・深層学習活用した 体験提供の挑戦Koichi Hamada
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)Hidemasa Bono
 
Predicting Real-valued Outputs: An introduction to regression
Predicting Real-valued Outputs: An introduction to regressionPredicting Real-valued Outputs: An introduction to regression
Predicting Real-valued Outputs: An introduction to regressionguestfee8698
 
Parameter Estimation for Semiparametric Models with CMARS and Its Applications
Parameter Estimation for Semiparametric Models with CMARS and Its ApplicationsParameter Estimation for Semiparametric Models with CMARS and Its Applications
Parameter Estimation for Semiparametric Models with CMARS and Its ApplicationsSSA KPI
 
Evolution of regression ols to gps to mars
Evolution of regression   ols to gps to marsEvolution of regression   ols to gps to mars
Evolution of regression ols to gps to marsSalford Systems
 
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...奈良先端大 情報科学研究科
 

Destacado (20)

物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
 
投資会社から見た人工知能(Ai)の事業化トレンド
投資会社から見た人工知能(Ai)の事業化トレンド投資会社から見た人工知能(Ai)の事業化トレンド
投資会社から見た人工知能(Ai)の事業化トレンド
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 
フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習
 
アンカンファレンス @ 第50回 データマイニング+WEB @東京
アンカンファレンス @ 第50回 データマイニング+WEB @東京アンカンファレンス @ 第50回 データマイニング+WEB @東京
アンカンファレンス @ 第50回 データマイニング+WEB @東京
 
イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化イノベーション創発に資する人工知能基盤技術の創出と統合化
イノベーション創発に資する人工知能基盤技術の創出と統合化
 
人工知能Xファッション最前線
人工知能Xファッション最前線人工知能Xファッション最前線
人工知能Xファッション最前線
 
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
 
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
 
レコメンド研究のあれこれ
レコメンド研究のあれこれレコメンド研究のあれこれ
レコメンド研究のあれこれ
 
ディープラーニング徹底活用 -画像認識編-
ディープラーニング徹底活用 -画像認識編-ディープラーニング徹底活用 -画像認識編-
ディープラーニング徹底活用 -画像認識編-
 
Tokyo Webmining Talk1
Tokyo Webmining Talk1Tokyo Webmining Talk1
Tokyo Webmining Talk1
 
VAE-type Deep Generative Models
VAE-type Deep Generative ModelsVAE-type Deep Generative Models
VAE-type Deep Generative Models
 
DeNAの機械学習・深層学習活用した 体験提供の挑戦
DeNAの機械学習・深層学習活用した体験提供の挑戦DeNAの機械学習・深層学習活用した体験提供の挑戦
DeNAの機械学習・深層学習活用した 体験提供の挑戦
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
“これから”のライフサイエンス研究とバイオインフォマティクス (Next Generation Life Science & Bioinformatics)
 
Predicting Real-valued Outputs: An introduction to regression
Predicting Real-valued Outputs: An introduction to regressionPredicting Real-valued Outputs: An introduction to regression
Predicting Real-valued Outputs: An introduction to regression
 
Parameter Estimation for Semiparametric Models with CMARS and Its Applications
Parameter Estimation for Semiparametric Models with CMARS and Its ApplicationsParameter Estimation for Semiparametric Models with CMARS and Its Applications
Parameter Estimation for Semiparametric Models with CMARS and Its Applications
 
Evolution of regression ols to gps to mars
Evolution of regression   ols to gps to marsEvolution of regression   ols to gps to mars
Evolution of regression ols to gps to mars
 
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
 

Similar a Tokyowebmining41

[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNsDeep Learning JP
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12Yoji Kiyota
 
Code4Lib 2013参加報告
Code4Lib 2013参加報告Code4Lib 2013参加報告
Code4Lib 2013参加報告Masao Takaku
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous ComputingYusuke Iwasawa
 
Structural data analysis based on multilayer networks
Structural data analysis based on multilayer networksStructural data analysis based on multilayer networks
Structural data analysis based on multilayer networkstm1966
 
42nd MTG in NIBIO
42nd MTG in NIBIO42nd MTG in NIBIO
42nd MTG in NIBIOMaori Ito
 
【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるか【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるかZansa
 
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaCytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaKeiichiro Ono
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padocMasato Nakai
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒントマイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒントYoji Kiyota
 
情報検索とゼロショット学習
情報検索とゼロショット学習情報検索とゼロショット学習
情報検索とゼロショット学習kt.mako
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Haruka Ozaki
 

Similar a Tokyowebmining41 (20)

[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
 
ISMB2018読み会
ISMB2018読み会ISMB2018読み会
ISMB2018読み会
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
Code4Lib 2013参加報告
Code4Lib 2013参加報告Code4Lib 2013参加報告
Code4Lib 2013参加報告
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
 
Tokyo r50 beginner_2
Tokyo r50 beginner_2Tokyo r50 beginner_2
Tokyo r50 beginner_2
 
Structural data analysis based on multilayer networks
Structural data analysis based on multilayer networksStructural data analysis based on multilayer networks
Structural data analysis based on multilayer networks
 
42nd MTG in NIBIO
42nd MTG in NIBIO42nd MTG in NIBIO
42nd MTG in NIBIO
 
【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるか【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるか
 
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaCytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padoc
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒントマイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
マイニング探検会#20 レファレンス・サービスの「ネクスト」を考えるためのヒント
 
情報検索とゼロショット学習
情報検索とゼロショット学習情報検索とゼロショット学習
情報検索とゼロショット学習
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
 

Tokyowebmining41

  • 1. 生命情報のデータマイニング 第41回 データマイニング+WEB @東京 @zgmfx20a 2014/12/20 株式会社フリークアウト 2014/12/20 データマイニング+WEB@東京
  • 2. 2014/12/20 データマイニング+WEB@東京 2 自己紹介 • この4月から東京の某大学で勤務 • OSS関係の活動 • Plamo Linuxプロジェクト (現在長期休暇中) • PHP / PostgreSQLなどのドキュメント翻訳 • Linux Conference ‘98 • 最初で最後?のユーザによるカンファレンス • 2007年に開催されたLL魂でRを紹介 … など • 執筆活動 • Software Design (1998~2002) • The R book (第16章) • Rによるバイオインフォマティクスデータ解析 … など
  • 3. 2014/12/20 データマイニング+WEB@東京 3 本日の内容 • データマイニング+WEB @東京への参加意義 • 生命情報研究とWeb(IT) • 生命情報のデータマイニング • セントラルドグマとオミックス解析 • オミックス解析における p >> n 問題 • SVMでの取り組み • Random Forestsでの取り組み • PageRank他での取り組み • LASSO・MARSでの取り組み • バイオインフォマティクスにおける機械学習 • 今後の興味
  • 4. 2014/12/20 データマイニング+WEB@東京 4 データマイニング+WEB @東京の 参加意義 • データの質的内容は分野によって異なる • SNSのネットワーク • 代謝化合物パスウェイ • しかしどちらもグラフ構造として捉えられる • マイニング技術そのものは共通のはず • 例えばNMF … • 例えばディープラーニング • メルク社の活性予測で脚光 • 他分野で有効な技術を見出し転用したい
  • 5. 2014/12/20 データマイニング+WEB@東京 5 生命情報研究とWeb(IT) • 解析やデータ共有サーバ構築 • 配列類似性検索 (BLASTなど) • 解析結果検索処理系の作成 • Apache + PHP + PostgreSQL on Linux • よしだともこのルート訪問記(UNIXUSER誌2002年12月号掲載 第74 回 社内でのオープンソースの導入がスムーズだった理由とは? http://www.tomo.gr.jp/root/new/root74.html ) • スクレイピング • 大量の解析もしくは結果の自動集約処理 • ビッグデータ処理のインフラ構築 • データリポジトリサイト管理者の嘆き(TCGA projectなど) • 生命情報のビッグデータはVelocityが小さくVarietyが大きい?
  • 7. 2014/12/20 データマイニング+WEB@東京 7 セントラルドグマとオミックス解析 ウィキペディア「セントラルドグマ」 より引用 • セントラルドグマ • 生物学の中心教義 • 一部の例外あり • オミックス解析 • 網羅的解析の総称 • ゲノミクス • トランスクリプトミクス • プロテオミクス • メタボロミクス • 生体内の代謝物 • インタラクトミクス • タンパク質間相互作用 siRNA miRNA
  • 8. 2014/12/20 データマイニング+WEB@東京 8 オミックス解析における p >> n 問題 • Fan C et al. Concordance among gene- expression-based predictors for breast cancer. N Engl J Med 2006; 355: 560 – 569 • 乳がんの予後予測に関する過去5論文再調査 • 遺伝子群に殆ど重複がなかった • サンプルを数百に増やし同様の手順で再解析 • 先述の4つの論文で遺伝子群の重複が認められた • p >> n 問題 • サンプル数(n)に対して説明変数(p)が極端に高次元 • オミクスデータの解析はまさにp >> n問題と隣り合わせ • 有効な解法として、LASSO/Boosting/Random Forests (user!2008 Fox教授の基調講演から)
  • 9. 2014/12/20 データマイニング+WEB@東京 9 SVMでの取り組み • SVM (Support Vector Machine) • マージン最大の超平面を求める • 当時の実装 • TinySVM http://chasen.org/~taku/software/TinySVM/ • SVMlighthttp://svmlight.joachims.org/ • LIBSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/ • SVMを用いた研究 • siRNAの機能予測 • 化合物の活性・毒性予測
  • 10. 2014/12/20 データマイニング+WEB@東京 10 siRNAの機能予測 • siRNA • RNA干渉を引き起こす21-23塩基の二本鎖RNA • 遺伝子ノックダウンによる機能解析 • 効率的な配列予測法がなかった • ストリングカーネルによるSVMで判別 Teramoto et al. FEBS Lett. 2005
  • 11. 2014/12/20 データマイニング+WEB@東京 11 Random Forestsでの取り組み • Random Forests (RF) • L. Breimanが2001年に発表 • 無作為抽出と多数の決定(回帰)木の多数決(平均) • メルク社が構造活性相関(QSAR)に応用(2003) • randomForest / CRANはこのときの副産物? • RFを用いた研究 • オーファンGPCRに共役するGタンパク質の予測 • メタボローム解析 • 高次脳機能解析 • 脳磁図(Magnetoencephalography; MEG)の波形解析
  • 12. 2014/12/20 データマイニング+WEB@東京 12 メタボローム解析と従来の解析 手法 • メタボローム解析 • 質量分析器(MS)などで生体内代謝物を網羅的に解析 • 核磁気共鳴スペクトル(NMR)で行う場合もある • 得られるデータはサンプル数 x 代謝物からなる信号強度 • 代謝化合物の同定とメカニズムの議論 • 従来の解析手順 • 主成分分析(PCA) • スコアプロット 投与群の判別 • ローディングプロット 負荷の大きい因子を選抜 • PLS-DA(部分最小二乗法判別分析) • 予測モデル TCA回路 KEGG PATHWAY より引用
  • 13. 2014/12/20 データマイニング+WEB@東京 13 RFによるメタボローム解析 • RFを選抜した理由 • RFが教師なし学習と教師つき学習の両方に対応 • PCA⇒RFの教師なし学習 • PLS-DA⇒ RFの教師つき学習 • RFの重要度(Variable importance measure)が変数( バイオマーカー)選抜に使えるのではないか? • SVMだと判別根拠の理解が困難 • 先行研究 • 構造活性相関(Svetnik V et al. J Chem Inf Comput Sci. 2003) • 遺伝子選抜(Diaz-Uriarte et al. BMC Bioinformatics. 2006) • 植物メタボローム解析(Enot DP et al. PNAS. 2006)
  • 14. 2014/12/20 データマイニング+WEB@東京 14 リン脂質症のメタボローム解析 • 実験デザイン • 化合物Aをラットに投与 • 尿中の代謝物をMSで解析 • PCAはMSが取得したメタボロームデータを投与前と対象 群、投与2日後、投与3日後の3群に分離 • 本試行まではリーズナブルな結果と思われた • 教師なしRFのMDS plotは4群に分離 • RFは溶媒の差異を判別した Hasegawa et al, Exp Toxicol Pathol. 2007 スコアプロット 投与前 投与2日目 投与3日目 化合物A D0 D2 D3 参照 C0 C2 C3
  • 15. 2014/12/20 データマイニング+WEB@東京 15 RFは小さな変動を選抜した • RFの重要度は学習毎に変動 • PCAローディングのランキングとは不一致 • PCA選抜変数はRFでも高い重要度を示していた • PCA選抜変数のMS強度は高かった Hasegawa et al, Exp Toxicol Pathol. 2007 ローディング プロット
  • 16. Ryota Suzuki R AnalyticFlow: A flowchart-style GUI for R Kensuke Okada, Kazuo Shigemasu BMDS: A Collection of R Functions for Bayesian Multidimensional Scaling Junji Nakano, Ei-ji Nakama Speeding up R by using ISM-like calls Tomoaki Nakatani ccgarch: An R package for modelling multivariate GARCH models with conditional correlations Bioinformatics II (Room: E29, Chair: Ramón Díaz-Uriarte) Jacob Michaelson, Andreas Beyer Random Forests for eQTL Analysis: A Performance Comparison Chihiro Higuchi, Shigeo Takenaka Metabolome data mining of mass spectrometry measurements with random forests Matteo Pardo, Giorgio Sberveglieri Random Forests and Nearest Shrunken Centroids for the Classification of eNose data Carolin Strobl, Achim Zeileis Why and how to use random forest variable importance measures (and how you shouldn't)
  • 17. 2014/12/20 データマイニング+WEB@東京 17 RFについての考察 • 得られる解が不安定 • 無作為抽出とランダムな決定(回帰)木作成の所以 • 10000回くらい学習を繰り返せば問題ない? • Diaz-Uriarteは大きなエラーはないと • 自身が納得する処理を模索中 • 順位変動に拘わらないロバスト性 • 後述のLASSO・MARSとの違い • スパースではない • 全ての変数を対象に判別を実施 • どちらが合理的かはモデル次第 • RFは潜在的な因子検出に期待 Gall We et al. PLoS One. 2010
  • 18. 2014/12/20 データマイニング+WEB@東京 18 PageRank他での取り組み • 生命情報のネットワーク解析 • タンパク質間相互作用 • シグナル伝達 • 代謝化合物パスウェイ • 代謝化合物パスウェイを対象にコミュニティ検出 • TCA回路など • PageRankによるタンパク質間相互作用解析 • ハブタンパク質の検出
  • 19. 2014/12/20 データマイニング+WEB@東京 19 PageRankについての疑問 • PageRankは有向グラフ • 論文の引用やリンクは一方向 • 分子間相互作用は無向グラフ • 化学反応などは非可逆 • 無向グラフのPageRankは単純にエッジ数多のノー ドを選択しているのではないか? • エッジ数多でPageRank少(またはその逆)なトポロジー が思いつかない
  • 20. 2014/12/20 データマイニング+WEB@東京 20 LASSOおよびMARSでの取り組み • LASSO (Least Absolute Shrinkage Selection Operator) • ペナルティ項を与えた最小二乗法と交差検証で最適な 線形回帰式を提案 • 各群に固有な変数を選択 • MARS (Multivariate Adaptive Regression Splines) • 折れ線スプラインで最適回帰式をヒンジ関数*で提案 • max (0, x – c) or max (0, c – x) • 全ての群に共通な変数を選択する • LASSOおよびMARSを用いた研究 • miRNA発現情報のLASSO・MARS解析による疾患バイオ マーカーの同定(第59回日本人類遺伝学会)
  • 22. 2014/12/20 データマイニング+WEB@東京 22 瀬々潤氏 「次世代シーケンサ解析で新たに求められる機械学習」@IBIS2011より引用 バイオインフォマティクスに おける機械学習の応用
  • 23. 2014/12/20 データマイニング+WEB@東京 23 今後の興味 • Kursa MB. Robustness of Random Forest-based gene selection methods. BMC Bioinformatics. 2014 Jan 13;15:8. doi: 10.1186/1471- 2105-15-8. (rFerns / CRAN) • Huang JC, Meek C, Kadie C, Heckerman D. Conditional random fields for fast, large-scale genome-wide association studies. PLoS One. 2011;6(7):e21591. doi: 10.1371/journal.pone.0021591. Epub 2011 Jul 12. • Vattikuti S, Lee JJ, Chang CC, Hsu SD, Chow CC. Applying compressed sensing to genome-wide association studies. Gigascience. 2014 Jun 16;3:10. doi: 10.1186/2047-217X-3-10. eCollection 2014. • Nock NL, Li L, Elston RC. Modeling Genetic and Environmental Factors in Biological Systems Using Structural Equation Modeling: An Application to Energy Balance. Proc Ohio Collab Conf Bioinform. 2009 Jun 17:3-8.
  • 24. 2014/12/20 データマイニング+WEB@東京 24 ご清聴ありがとうございました • 謝辞 • バイオインフォマティクス研究でご一緒した皆様 • Rコミュニティの皆様 • OSSコミュニティの皆様 • 本発表を快諾してくれた家族 • 参考文献 • ウィキペディア(日本語、英語) • 江口真透、ゲノムデータ・オミックスデータを解析するための新しい 統計方法と機械学習の方法、2009年日本計量生物学会年会特別 セッション・チュートリアルセミナー • Hastie et al. The Elements of Statistical Learning Second Edition. ISBN:978-0387848570 (邦訳 「統計的学習の基礎-データマイニン グ・推論・予測-」、共立出版、 ISBN:978-4320123625) • http://web.stanford.edu/~hastie/Papers/ESLII.pdf