Más contenido relacionado
Similar a [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション (17)
Más de DNA Data Bank of Japan center (20)
[DDBJ Challenge 2016] 機械学習と予測モデルコンペティション
- 1. 1 KYOTO UNIVERSITY
KYOTO UNIVERSITY
DEPARTMENT OF INTELLIGENCE SCIENCE
AND TECHNOLOGY
機械学習と予測モデルコンペティション
京都大学 情報学研究科 知能情報学専攻
鹿島 久嗣
- 2. 2 KYOTO UNIVERSITY
“人工知能” の成功:
– クイズ王に勝利した質問応答システム
– プロ棋士に勝利したコンピュータ将棋・囲碁
今回の“人工知能”ブームは機械学習に支えられている
– とりわけ深層学習がブームを牽引
機械学習の躍進:
“人工知能”の成功を支えるコア技術
- 3. 3 KYOTO UNIVERSITY
機械学習とは、もともと
「人間のもつ‟学習能力„を機械(計算機)にも持たせる」
ことを目指す人工知能の一研究分野
近年では、「統計的」機械学習が主流
– 遺伝子情報処理、自然言語処理他、ビジネス分野での成功
– データ解析技術一般を指すほかの領域との境は曖昧
深層学習の大ブレーク
– 機械学習≒深層学習≒人工知能??
機械学習とは何か:
機械学習はデータ解析の一分野
- 4. 4 KYOTO UNIVERSITY
データ解析手法の大別:予測と発見
– 予測:「これから何が起こるのか?」 ≒ 教師つき学習
• 過去~現在のデータをもとに、将来のデータについての予測
をおこなう
– 発見:「いま何が起きているのか?」 ≒ 教師なし学習
• 過去~現在のデータをもとに、何らかの知見を得る
機械学習には何ができるか:
予測と発見
- 5. 5 KYOTO UNIVERSITY
マーケティング
– 商品推薦
– Web上の評判分析
– Web広告の最適化
金融
– 信用リスク評価
– 不正検出
サイエンス
– 遺伝子予測(バイオ)
– 新規材料開発(材料)
機械学習の様々な応用:
オンラインショッピングからシステム監視まで
Web
– 検索
– スパム判定
– SNS
ヘルスケア
– 医療診断
マルチメディア
– 音声・画像認識
システム監視
– 故障・異常検知
- 6. 6 KYOTO UNIVERSITY
進む機械学習の社会実装
– 不確定で膨大なデータに対応する方法論が進展
– ブラックボックス・ツールが整備
IT分野に限らず、様々な分野への応用が検討されている
– ヘルスケア、航空、自動車、バイオ、製薬、材料科学、…
非IT系分野への広がり:
機械学習は社会実装フェーズ
- 7. 7 KYOTO UNIVERSITY
機械学習等によるデータの自動解析は、しばしばデータ解析の中
心として捉えられる
データ解析全体のプロセスは、その大部分が人間に依存する
データ解析の労働集約性:
データ解析プロセスの大部分が人間に依存
データ収集 データ統合
クレンジング
注釈 視覚化
モデル化
評価/解釈
電子化
データ解析のプロセス
大部分が
属人的・労働集約的
データ化(データフィケーション) データ分析(アナリティクス)
- 8. 8 KYOTO UNIVERSITY
「2015年までに、ビッグデータ需要により創出される雇用機会は
世界で440万人に達するが、実際に採用につながるのは3分の1
のみにとどまる」(ガートナー)
「データサイエンティストは、21世紀でもっとも‟セクシー„な職業」
(ハーバード・ビジネス・レビュー)
これらの‟煽り„はデータ解析の労働集約性の高さを示している
データサイエンティストの不足:
データ解析の属人性の象徴
- 9. 9 KYOTO UNIVERSITY
クラウドソーシングとは:
「(インターネットを通じて)不特定多数の人に仕事を
依頼すること、もしくはその仕組み」
クラウドソーシングのメリット:群衆の叡智にアクセス
(「三人寄れば文殊の知恵」)
Foldit:タンパク質の立体構造予測
– オンラインゲームの形で実現
クラウドソーシングの登場:
みんなの力を合わせて目標を達成
※ クラウドソーシング ≠ クラウドコンピューティング
- 11. 11 KYOTO UNIVERSITY
自動化の進むモデリング部分も実は労働集約的
–“No free lunch”定理: どんな場合でもうまくいく方法はない
–しばしば、結果を大きく左右するのは、既存の手法の選択+
データ固有のヒューリスティクス(特徴量、サンプル選択など)
データに合ったモデルを(人手で)広範囲に探索する必要がある
データ解析コンペティション:モデリングのクラウドソーシング
–データを公開し、結果(予測精度)を競う
クラウドソーシングによる予測モデリング:
予測コンペティションによる網羅的なモデル探索
- 12. 12 KYOTO UNIVERSITY
Wikipediaのリンク予測を題材にしたコンペティションを開催
短期間で‟プロ„ を遥かに超える予測精度を達成
–初期分析結果を4日目で抜き、最終的に20%以上の精度向上
予測コンペティションの威力:
短期間で‟プロ„を超える精度を実現
初期分析の
予測精度
4日で
抜き去られる
20%以上の
精度向上
予測精度
Baba et al. Crowdsourced Data Analytics. In DSAA 2014.
- 13. 13 KYOTO UNIVERSITY
:教育用途コンペプラットフォーム
–データ解析の実践を通じた、データ解析教育を目的に開発
–大学講義・演習、企業内研修での利用も
現在約400名が参加登録
10を超えるコンペティションを開催
ビッグデータ大学:
実践を通じたデータ解析教育のためのプラットフォーム
- 14. 14 KYOTO UNIVERSITY
コンペティションの流れ:
1. 訓練データ(正解付き)とテストデータの公開
2. テストデータに対する予測の提出
3. 期間終了後、テストデータに対する予測精度で順位決定
リーダーボード:
中間評価用データ(テストデータの一部)に対する順位を公開
コンペティションの仕組み:
テストデータに対する予測精度で勝者を決定
データ公開
予測提出 y=f(x)
最終結果
データ提供者
参加者
数週間~
数か月
- 23. 23 KYOTO UNIVERSITY
広がる機械学習の応用
コンペティション形式で実際の解析を通じた学習
「DNA配列からのクロマチン特徴予測」
みんなの力で「専門家」を超える
コンペティション参加者は
–遺伝研のスーパーコンピュータ
–MATLAB
が利用可能
まとめ:
機械学習と予測モデリングコンペティション