2019年人工知能研究のこれまでとこれから (19/03/21 全脳アーキテクチャ若手の会第3回異分野交流会 )

全脳アーキテクチャ若手の会第3回異分野交流会
オープニングトーク
2019年人工知能研究のこれまでとこれから
東京大学大学院修士2年
全脳アーキテクチャ若手の会代表
八木拓真
19/03/21
1

自己紹介
八木拓真 (Takuma Yagi)
東京大学大学院修士2年→4月から博士 (生産研佐藤洋一研)
全脳アーキテクチャ若手の会代表 (17年5月～)
専門：コンピュータビジョン、特に一人称ビジョン (私の研究)
GoPro HERO Google glass
2

(164, 150, 71) (75, 43, 10)
(99, 74, 31) (60, 41, 36)
コンピュータで画像を視る
デジタル画像は、画素 (RGB) が集まってできている
4

71, 150, 164, 10, 43, 75, 73, 140, 157, 39, 51, 91, 38, 70, 85, 41, 91, 113, 94, 155, 172, 29, 74, 92, 85, 195, 196, 43, 77, 100,
42, 75, 81, 49, 113, 102, 45, 77, 71, 77, 126, 127, 25, 61, 61, 128, 179, 179, 48, 72, 71, 123, 154, 117, 54, 75, 91, 84, 183,
178, 11, 26, 64, 39, 179, 169, 26, 71, 56, 64, 111, 68, 90, 151, 149, 29, 78, 91, 43, 127, 120, 62, 176, 175, 107, 152, 155, 68,
185, 172, 50, 92, 89, 128, 200, 205, 81, 176, 190, 58, 151, 152, 150, 195, 175, 49, 120, 101, 45, 79, 103, 66, 123, 106, 70,
134, 134, 36, 63, 74, 98, 214, 198, 48, 66, 75, 43, 43, 54, 24, 109, 86, 47, 116, 130, 98, 204, 184, 114, 119, 98, 31, 26, 51,
27, 47, 47, 111, 127, 100, 51, 96, 84, 117, 137, 143, 71, 124, 92, 46, 102, 107, 120, 173, 165, 121, 157, 149, 81, 125, 96,
153, 156, 125, 77, 144, 160, 91, 124, 101, 54, 126, 112, 169, 165, 134, 185, 182, 142, 90, 136, 99, 152, 155, 137, 96, 159,
99, 141, 155, 140, 144, 192, 173, 122, 138, 121, 43, 73, 83, 184, 190, 174, 105, 163, 106, 160, 179, 131, 105, 134, 105, 135,
165, 103, 80, 60, 70, 54, 97, 75, 88, 109, 61, 45, 73, 51, 93, 68, 71, 73, 117, 88, 49, 92, 71, 97, 172, 176, 73, 148, 140, 52, 86,
48, 39, 85, 86, 117, 148, 110, 86, 135, 116, 87, 121, 108, 104, 150, 123, 145, 191, 173, 161, 179, 152, 65, 78, 58, 33, 77, 64,
169, 171, 143, 46, 74, 59, 108, 152, 117, 141, 155, 131, 60, 90, 60, 184, 177, 152, 171, 200, 180, 180, 168, 137, 125, 161,
140, 174, 177, 150, 156, 173, 159, 91, 92, 100, 160, 183, 154, 85, 83, 76, 69, 62, 76, 84, 112, 85, 174, 172, 140, 195, 191,
161, 116, 143, 126, 189, 181, 150, 48, 90, 58, 60, 62, 54, 122, 177, 148, 154, 145, 121, 170, 152, 114, 187, 192, 159, 98, 96,
47, 100, 128, 94, 90, 75, 55, 176, 158, 133, 86, 76, 58, 161, 169, 127, 174, 154, 132, 48, 91, 79, 162, 164, 137, 42, 67, 47,
115, 91, 70, 124, 150, 114, 155, 148, 115, 90, 117, 88, 203, 193, 149, 95, 75, 59, 93, 94, 80, 193, 186, 158, 189, 198, 160,
93, 103, 81, 100, 103, 94, 89, 76, 69, 148, 160, 123, 218, 211, 183, 201, 190, 150, 151, 165, 121, 160, 161, 124, 173, 172,
128, 139, 148, 119, 187, 172, 167, 48, 46, 42, 156, 151, 106, 157, 138, 112, 69, 69, 58, 190, 159, 147, 97, 97, 97, 208, 208,
182, 137, 154, 123, 210, 191, 150, 92, 133, 113, 179, 169, 156, 121, 103, 81, 167, 195, 165, 154, 166, 118, 191, 181, 136,
131, 138, 103, 138, 169, 141, 157, 158, 114, 83, 99, 81, 108, 142, 106, 105, 102, 50, 115, 118, 80, 77, 129, 116, 158, 137,
121, 109, 131, 93, 125, 141, 121, 103, 101, 74, 163, 174, 136, 77, 77, 85, 47, 71, 77, 174, 168, 124, 45, 69, 55, 177, 183,
153, 135, 138, 109, 123, 119, 126, 134, 120, 104, 162, 163, 141, 138, 156, 125, 154, 132, 100, 102, 125, 91, 142, 123, 97,
71, 68, 78, 92, 118, 108, 198, 207, 180, 129, 109, 92, 145, 168, 135, 179, 175, 153, 208, 202, 174, 102, 118, 89, 169, 170,
153, 208, 193, 169, 49, 90, 69, 164, 157, 137, 78, 128, 109, 193, 189, 158, 120, 146, 119, 82, 109, 111, 144, 163, 142, 81,
79, 80, 137, 152, 109, 93, 95, 99, 104, 148, 114, 126, 139, 120, 57, 57, 62, 80, 105, 100, 64, 70, 74, 151, 203, 187, 129, 166,
138, 96, 132, 114, 184, 218, 213, 75, 104, 106, 176, 182, 165, 115, 139, 155, 134, 176, 176, 187, 221, 203, 115, 168, 153,
5

コンピュータビジョン
コンピュータの「眼」を作る試み
人間の視覚機能をコンピュータを使って工学的に再現・超越する
入力：画像または映像
(コンピュータにとっては数字の羅列)
出力：その意味的・幾何的理解
http://immigrationsarasota.com/president-due-to-issue-an-executive-order-regarding-immigration/
Caption: Obama to take executive action on immigration
Barack Obama
Eye gaze
Door
Hand gesture
Tie
Microphone
Pose
Flag
Person
Action: Making a speech
6

コンピュータビジョン
コンピュータの「眼」を作る試み
人間の視覚機能をコンピュータを使って工学的に再現・超越する
出力：その意味的・幾何的理解入力：画像または映像
(コンピュータにとっては数字の羅列)
7

一人称視点映像における人物位置予測 [Yagi+, CVPR’18]
胸に装着したウェアラブルカメラから周辺人物の近い将来の位置を予測
8

全脳アーキテクチャ (WBA) 若手の会
2014年8月設立
全脳アーキテクチャ (Whole Brain Architecture; WBA) 勉強会より派生
コンピュータと生物の知能に関わる幅広い分野の知見を発信
東京、大阪、福岡、仙台の4支部で活動
脳、人工知能及びそれらが与える影響に
興味がある全ての人のためのコミュニティ
9

WBA若手の会が見据える未来像
ヒト・生物の知能の理解
汎用人工知能 (AGI) の実現
いつ実現するかはともかく…
10

(人工) 知能分野のコミュニティ概観
学術・基礎研究ビジネス・社会実装
知能・生命の科学※個人の見解です
認知科学若手の会
3D勉強会
データサイエンス・機械学習Group 1
Group 2
目標別で大きく3つに分けられる：
1. データサイエンス・機械学習の社会実装
2. 人工知能分野の勉強会/研究会
3. 分野別の若手研究者の集い
WBA若手の会：
フォーカスを絞らず、
幅広い領域をカバー
Group 3
11

若手の会発の成果物
第3回 Restricted Boltzmann Machine (RBM) 第5回強化学習と脳
第11回スパースモデリングの数理第10回海馬と記憶モデル
第7回視覚情報処理
第13回画像と言語の表現学習
12

若手の会発の成果物
第26回バイナリニューラルネット第15回実ロボットの運動生成
• 必ずしも専門でない学生が
• 理系・文系問わず
• 幅広い題材で
• 学術的に誠実で
• 専門家の批評に耐えうる
サーベイを作成/共有
第28回深層強化学習
第33回心理学と人工知能第29回哲学的人工知能批判
13

イベントの様子
カジュアルトーク、異分野（交流会）、ロボット開発ワークショップなどを開催
14

「かき回す」場としてのWBA若手の会
知能という広範なトピックだからこそ、異なる立場の人と協同する場が必要
人工知能
人の心を創る
認知科学
人の心の働きを知る
神経科学
人の構造を知る
若手の会の役割：
分野/立場を超えた
交流の促進
会計・経理
経営
哲学
心理
統計学
社会学
数理科学
生物学
物理学
法律
電気電子
ロボティクス
化学
医学医用工学
言語
文学政治
生活科学
デザイン
芸術・アート
スポーツ
文化人類学
天文
看護・介護
農業
ファッション
環境学
コミュニケーション
AR・VR 音楽インタラクション
観光
地方振興
材料工学
遺伝子工学
15

本イベントのテーマ
我々は本当に知能というものを理解できているのだろうか？
異分野の登壇者を集め、学問の垣根を越えて解説・議論を展開
コンピュータビジョン、ヒューマンエージェントインタラクション、認知科
学、計算論的神経科学、自然言語処理、（深層）強化学習、感性メディア、
心理学、哲学、管理会計学
異分野理解、分野を超えたコラボレーションのきっかけを提供
異分野交流
16

AI ≒ 機械学習の時代
17

身近に使われる機械学習
推薦システム
画像認識・自然言語処理
音声認識
機械制御
将棋・囲碁
機械翻訳
医用画像診断
18

顔識別/追跡の実運用
Face++：中国公安当局と協力して犯罪者検挙システムを運用 (動画)
去年12月にオフィスを訪問したときのデモディスプレイ
19

リアルタイム条件付き画像生成
NVIDIA：レイアウトに対応する画像の自動生成 [Park+, CVPR’19]
20

自然文の生成
GPT-2 (OpenAI) [Radford+, ‘19]
800万のwebページから学習した素朴な言語予測モデル (150億パラメタ) が
条件付きテキスト生成、質問応答、文章読解など複数のタスクで高スコアを
獲得
入力：Recycling is good for the world. NO! YOU COULD NOT BE
MORE WRONG!!
出力：Recycling is NOT good for the world. It is bad for the environment, it is
bad for our health, and it is bad for our economy. I’m not kidding. Recycling is
not good for the environment. It is destructive to the earth and it is a major
contributor to global warming. Recycling is not good for our health. It
contributes to obesity and diseases like heart disease and cancer. Recycling is
bad for our economy. It increases the cost of a product, and in turn, the price
of everything that is made with that product. (以下続く)
21

Yann LeCun, “How Could Machines Learn Like Animals & Humans?”, Harvard MBB Distinguished Lecture II, 2019.
この5-10年間で機械学習が実現できることは格段に広く、高度化してきた
22

機械学習とは
𝒚 = 𝑓(𝒙)
出力入力学習器
(モデル)
“2”
コンピュータが明示的な指示なく（人間が）期待する情報や構造を導き出すこと
機械学習は非明示的な構造をデータより学習する→データ駆動型アプローチ
データ
𝒟
データから学習
"Field of study that gives computers the ability to learn without being explicitly programmed”
―Arthur Samuel (1959)
23

https://blogs.nvidia.co.jp/2016/08/09/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/
24

https://blogs.nvidia.co.jp/2016/08/09/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/
深層学習の成功
データ駆動型アプローチの成功
深層学習の成功
25

「データ駆動型アプローチの春」は
如何にして訪れたか？
26

データ駆動型アプローチの勃興
自然言語処理
統計的機械翻訳 [Brown+, ‘93]
Word2vec [Mikolov+, NIPS’13]
ニューラル機械翻訳 [Sutskever+, NIPS’14]
画像認識
統計的顔検出 [Sung & Poggio, TPAMI’98]
Bag-of-Visual-Words (BoVW) + SVM [Csurka+, ECCV’04]
深層学習を用いた大規模画像認識 [Krichevsky+, NIPS’12]
音声認識
HMM音声認識 [Levinson+, ‘83]
End-to-end音声認識 [Graves & Jaitly, ICML’14]
手法の萌芽そのものは80年代~90年代に提案、10年代に実用化→なぜ？
27

4つの成功要因
良質かつ大量のデータ表現力の高いモデル最適化手法の進化豊富な計算資源
LeNet
↓
AlexNet
↓
VGG-16
↓
ResNet
↓
ResNeXt, SENet, …
https://www.datacenterdynamics.com/news/google-unveils-second-generation-tpu-available-as-a-service/
SGD, mSGD, ReLU,
RMSProp, Adam,
AdaBound, …
28

大規模データベースの整備
13年でデータセットの総量が30万倍（！）に
http://www.vision.caltech.edu/Image_Datasets/Caltech101/
2004
Caltech101 [Fei-Fei+, CVPR’04]
101クラス 104 サンプル
2009
ImageNet [Deng+, CVPR’09]
5,000>クラス 3.2×107 サンプル
www.image-net.org/
2017
JFT-300M [Sun+, ICCV’17]
19,000クラス 3.0×109 サンプル
?
29

良質・大規模のデータは学習器を凌駕する
(深層学習に限らない) データ駆動型アプローチにおいては、
データ量の増加に対して性能が対数的に増加する現象が観察されている
語義曖昧性解消
[Banko & Brill, ACL’01]
大規模画像データベースを
用いた物体検出 [Sun+, ICCV’17]
性能を決めるのはモデルだけではない（当たり前？）
3億枚の画像を
50枚のK80を使って
2カ月学習 (7.3年分)
30

モデル表現力の向上
どのようなモデル構造なら効率よく学習できるのか経験知が蓄積されてきた
様々のモデルにおける画像分類タスクのtop-1正解率と計算量、パラメータ数の関係
https://medium.com/@culurciello/analysis-of-deep-neural-networks-dcf398e71aae
31

最適化手法の進化と大規模計算資源の登場
プロセッサ/最適化/データフロー/並列計算等を駆使することによって
6年間で1000倍以上の高速化を実現
2009
GPUを用いた
教師なし深層学習
[Raina+, ICML’09]
GeForce GTX 280 × 1
2012
深層学習ベース
大規模画像認識の成功
[Krizhevsky+, NIPS’12]
GeForce GTX 580 × 2
学習時間：5-6日
2018
最適化と並列計算を総動員
スパコン級画像認識
[Ying+, NIPSW’18]
Google TPU v3 × 1,024
学習時間：2.2分
32

何がブレイクスルーだったのか？
良質かつ大量のデータ表現力の高いモデル最適化手法の進化豊富な計算資源
LeNet
↓
AlexNet
↓
VGG-16
↓
ResNet
↓
ResNeXt, SENet, …
https://www.datacenterdynamics.com/news/google-unveils-second-generation-tpu-available-as-a-service/
SGD, mSGD, ReLU,
RMSProp, Adam,
AdaBound, …
深層学習ブーム→データ量と計算量に対してスケールする制約と構造の発見
→10年間で、深層学習モデルをワークさせる工夫と実践が急速に行われてきた
33

2019年の人工知能研究が
抱える課題は何か？
→計量、評価指標、帰納的バイアス
本当は他にもたくさんありますが…
公平性、解釈性、disentanglement、将来予測など
34

データ駆動型の課題：(1) 計量
画素の明るさが似ているからといって、その画像中の意味が似ているとは
限らない (semantic gap)
画素の明るさの差 (ユークリッド距離) は有効ではない
35

データ駆動型の課題：(1) 計量
従来のユークリッド空間を越えて、
階層性・対称性・離散性・多重性
に対応する計量の追求が盛んになりつつある
双曲空間への埋め込み
[Ganea+, ICML’18][Nickel&Kiela, ICML’18] 他
球面上における誤差逆伝播法
[Cohen+, ICLR’18]
グラフ埋め込み
[Xu+, ICLR’19] 他たくさん
36

データ駆動型の課題：(2) 評価指標
タスクとモデルの複雑化によって、アルゴリズムの客観/定量評価が難しく
→人間による主観評価や、スコアハッキングを回避する指標の要求が増大
Dog or human?
人間にとって判別は容易
100人中99人が合意
Which one is realistic?
評価可能だが怪しい
シーングラフからの画像生成
[Johnson+, CVPR’18]
Is this funny?
人によって評価が変わる
Neural Joking Machine
[Yoshida+, CVPRW’18]
37

データ駆動型の課題：(3) 帰納的バイアス
帰納的バイアスなくしてモデルは汎化 (未知データに適合) することはできない
帰納的バイアスの例：
線形回帰：入力𝑥に対する出力𝑦の関係は必ず線形になる
𝑘-近傍法：入力𝑥に対する出力は必ずユークリッド空間上で近いデータ点群
のそれに近くなる
私たち人間もバイアスを自然に運用している
例) 対象の永続性
“Any basis for choosing one generalization over another, other than strict consistency
with the instances.”—Tom Mitchell (1980)
帰納的バイアス (inductive bias)：ある学習アルゴリズムが
未知の入力から予測を行うために暗黙的に用いている仮説の集合
38

帰納的バイアスの必要性：外挿問題
データ駆動型アプローチはデータ点がない空間上では正しい予測ができない
→未知データの入力可能範囲を制限するか、外挿時のルールを決める必要
外挿
外挿
3クラス分類問題における理想的な分離境界
39

実世界を計算可能にするということ
データとアルゴリズムの両者に関する適切な制約があって良い学習と推論ができる
実世界
(生命、宇宙、そして万物)
データ抽出
(情報の収集/表現)
アルゴリズム設計
(実世界の制約の表現)
学習と推論
(過度に注目されがち)
計算可能性の壁
切り取り
𝑥
𝑦 青か緑か？
→が、アルゴリズムの制約と「この世界の仕組み」とがマッチしていないのが現状
40

これからの人工知能研究はどこに向かうか？
→ドメイン知識から帰納的バイアスへ
41

過熱する出版競争
新規参入の増加による論文投稿数の増加
(2012年比)
NeurIPS: 1400→4900 (3.5x)
CVPR: 1933→5100 (2.6x)
査読品質の低下
ベンチマークタスクの増加
洞察が薄くとも性能が良ければ採択？
面白いが隙のある研究は表に出てこない
「ゴキブリ」と「6本脚の子犬」 (P60)
「既存アルゴリズムの科学的検証を『新しい』と
判断せず、新しいが後追い的な、何もわからない
アルゴリズムを生み出すエンジニアリングが素晴
らしいと判断されるなら、機械学習コミュニティ
は早晩行き詰まるだろう。」
https://twitter.com/scottniekum/status/1104444646275592192
この状況において何が本質的となるか？
42

データ駆動×ドメイン知識
AlphaFold (2018年12月)
遺伝子配列からのタンパク質構造予測
CASP18にてダントツ1位の予測精度を獲得
タンパク質の断片毎の構造予測を、既存モデ
ル (Rosetta) の評価を使用しながら深層学習
ベースで実装
CodeSLAM [Bloesch+, CVPR’18] / SceneCode [Zhi+, CVPR’19]
自己位置推定 (SLAM) における幾何的手法と
データ駆動型手法の融合
シーン及び深度の全体論的な特性を低次元
の”code”として学習し、SLAM全体のパイプラ
インを最適化可能な形として定式化
各ドメインの知識を機械学習と親和性が高い形で取り込むことで学習効率向上
43

ドメイン知識から帰納的バイアスへ
AlphaStar (Starcraft2対戦AI)
CNN+TransformerNet+LSTM
画面から行動を生成
(1) 50万の人間プレイデータから模倣学習
(2) 強化学習で200年分ゲームをひたすらプレイ
実世界インタラクション (e.g. 会話) は？
手掛かり（特徴量）・行動空間・報酬が非明確
大規模データの収集は（今のところ）困難
人間行動の知識を計算モデルに取り込む必要
ドメイン知識をad-hocに入れるのではなく、
より一般的な帰納的バイアスを見つけることが
今後の人工知能の追求には必要なのでは？
[Fathi+, CVPR’12]
44

「真の」AIへの遠い道のり
閉世界、特化型には強いが「開いた」ドメインはこれから
常識を持った機械
知的なパーソナルアシスタント
「賢い」チャットボット
家庭用ロボット
俊敏かつ器用なロボット
汎用人工知能
Yann LeCun, “How Could Machines Learn Like Animals & Humans?”, Harvard MBB Distinguished Lecture II, 2019.
45

「かき回す」場としてのWBA若手の会
「この世界の仕組み」を知るためには、様々の分野の人を巻き込む必要がある
人工知能
人の心を創る
認知科学
人の心の働きを知る
神経科学
人の構造を知る
若手の会の役割：
分野/立場を超えた
交流の促進
会計・経理
経営
哲学
心理
統計学
社会学
数理科学
生物学
物理学
法律
電気電子
ロボティクス
化学
医学医用工学
言語
文学政治
生活科学
デザイン
芸術・アート
スポーツ
文化人類学
天文
看護・介護
農業
ファッション
環境学
コミュニケーション
AR・VR 音楽インタラクション
観光
地方振興
材料工学
遺伝子工学
46

知能の科学のターゲット：私たち個人と社会
→私たち全員が当事者であり、専門家である
各人がエキスパートとして
生物/コンピュータの知能の追求に参加する時代の到来
47

Take-home message
今主流のデータ駆動型アプローチの成功要因を分析
大規模データ/表現力の高いモデル/最適化手法/計算資源
2019年現在、人工知能研究が直面している課題
計量/性能評価/帰納的バイアスの表現
人工知能研究のこれから
特殊なドメイン知識から一般的な帰納的バイアスへ
各分野の専門家の知識を使って、計算可能かつ一般的な制約を明らかにしていく
異分野交流/協調はその一助になるかも？
今こそ目前の現象に真摯に向き合い、各分野のスペシャリストと協力する時
48

参考文献・関連資料
参考文献
Yann LeCun, “How Could Machines Learn Like Animals & Humans?”, Harvard MBB
Distinguished Lecture II, 2019.
本発表に関連するトークスライド
コネクショニズムと汎化
オープンワールド認識
一人称視点映像における人物位置予測 (AI Dojo)
ユーザ評価からみるHCI ～良いシステムの実現のためにCV研究者が学ぶこと~ (MIRU2018
若手プログラム)
49

WBA若手の会の活動に興味がある方へ
全脳アーキテクチャ若手の会活動紹介動画 (2016年8月)
人工知能学会誌における活動紹介 (2017年3月)
第1回異分野交流会レポート (2017年6月)
ミニドラハッカソン (2017年12月)
50

2019年人工知能研究のこれまでとこれから (19/03/21 全脳アーキテクチャ若手の会第3回異分野交流会 )

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)