Más contenido relacionado 2019年人工知能研究のこれまでとこれから (19/03/21 全脳アーキテクチャ若手の会 第3回異分野交流会 )2. 自己紹介
八木 拓真 (Takuma Yagi)
東京大学 大学院修士2年→4月から博士 (生産研 佐藤洋一研)
全脳アーキテクチャ若手の会 代表 (17年5月~)
専門:コンピュータビジョン、特に一人称ビジョン (私の研究)
GoPro HERO Google glass
2
3. (164, 150, 71) (75, 43, 10)
(99, 74, 31) (60, 41, 36)
コンピュータで画像を視る
デジタル画像は、画素 (RGB) が集まってできている
4
4. 71, 150, 164, 10, 43, 75, 73, 140, 157, 39, 51, 91, 38, 70, 85, 41, 91, 113, 94, 155, 172, 29, 74, 92, 85, 195, 196, 43, 77, 100,
42, 75, 81, 49, 113, 102, 45, 77, 71, 77, 126, 127, 25, 61, 61, 128, 179, 179, 48, 72, 71, 123, 154, 117, 54, 75, 91, 84, 183,
178, 11, 26, 64, 39, 179, 169, 26, 71, 56, 64, 111, 68, 90, 151, 149, 29, 78, 91, 43, 127, 120, 62, 176, 175, 107, 152, 155, 68,
185, 172, 50, 92, 89, 128, 200, 205, 81, 176, 190, 58, 151, 152, 150, 195, 175, 49, 120, 101, 45, 79, 103, 66, 123, 106, 70,
134, 134, 36, 63, 74, 98, 214, 198, 48, 66, 75, 43, 43, 54, 24, 109, 86, 47, 116, 130, 98, 204, 184, 114, 119, 98, 31, 26, 51,
27, 47, 47, 111, 127, 100, 51, 96, 84, 117, 137, 143, 71, 124, 92, 46, 102, 107, 120, 173, 165, 121, 157, 149, 81, 125, 96,
153, 156, 125, 77, 144, 160, 91, 124, 101, 54, 126, 112, 169, 165, 134, 185, 182, 142, 90, 136, 99, 152, 155, 137, 96, 159,
99, 141, 155, 140, 144, 192, 173, 122, 138, 121, 43, 73, 83, 184, 190, 174, 105, 163, 106, 160, 179, 131, 105, 134, 105, 135,
165, 103, 80, 60, 70, 54, 97, 75, 88, 109, 61, 45, 73, 51, 93, 68, 71, 73, 117, 88, 49, 92, 71, 97, 172, 176, 73, 148, 140, 52, 86,
48, 39, 85, 86, 117, 148, 110, 86, 135, 116, 87, 121, 108, 104, 150, 123, 145, 191, 173, 161, 179, 152, 65, 78, 58, 33, 77, 64,
169, 171, 143, 46, 74, 59, 108, 152, 117, 141, 155, 131, 60, 90, 60, 184, 177, 152, 171, 200, 180, 180, 168, 137, 125, 161,
140, 174, 177, 150, 156, 173, 159, 91, 92, 100, 160, 183, 154, 85, 83, 76, 69, 62, 76, 84, 112, 85, 174, 172, 140, 195, 191,
161, 116, 143, 126, 189, 181, 150, 48, 90, 58, 60, 62, 54, 122, 177, 148, 154, 145, 121, 170, 152, 114, 187, 192, 159, 98, 96,
47, 100, 128, 94, 90, 75, 55, 176, 158, 133, 86, 76, 58, 161, 169, 127, 174, 154, 132, 48, 91, 79, 162, 164, 137, 42, 67, 47,
115, 91, 70, 124, 150, 114, 155, 148, 115, 90, 117, 88, 203, 193, 149, 95, 75, 59, 93, 94, 80, 193, 186, 158, 189, 198, 160,
93, 103, 81, 100, 103, 94, 89, 76, 69, 148, 160, 123, 218, 211, 183, 201, 190, 150, 151, 165, 121, 160, 161, 124, 173, 172,
128, 139, 148, 119, 187, 172, 167, 48, 46, 42, 156, 151, 106, 157, 138, 112, 69, 69, 58, 190, 159, 147, 97, 97, 97, 208, 208,
182, 137, 154, 123, 210, 191, 150, 92, 133, 113, 179, 169, 156, 121, 103, 81, 167, 195, 165, 154, 166, 118, 191, 181, 136,
131, 138, 103, 138, 169, 141, 157, 158, 114, 83, 99, 81, 108, 142, 106, 105, 102, 50, 115, 118, 80, 77, 129, 116, 158, 137,
121, 109, 131, 93, 125, 141, 121, 103, 101, 74, 163, 174, 136, 77, 77, 85, 47, 71, 77, 174, 168, 124, 45, 69, 55, 177, 183,
153, 135, 138, 109, 123, 119, 126, 134, 120, 104, 162, 163, 141, 138, 156, 125, 154, 132, 100, 102, 125, 91, 142, 123, 97,
71, 68, 78, 92, 118, 108, 198, 207, 180, 129, 109, 92, 145, 168, 135, 179, 175, 153, 208, 202, 174, 102, 118, 89, 169, 170,
153, 208, 193, 169, 49, 90, 69, 164, 157, 137, 78, 128, 109, 193, 189, 158, 120, 146, 119, 82, 109, 111, 144, 163, 142, 81,
79, 80, 137, 152, 109, 93, 95, 99, 104, 148, 114, 126, 139, 120, 57, 57, 62, 80, 105, 100, 64, 70, 74, 151, 203, 187, 129, 166,
138, 96, 132, 114, 184, 218, 213, 75, 104, 106, 176, 182, 165, 115, 139, 155, 134, 176, 176, 187, 221, 203, 115, 168, 153,
5
20. 自然文の生成
GPT-2 (OpenAI) [Radford+, ‘19]
800万のwebページから学習した素朴な言語予測モデル (150億パラメタ) が
条件付きテキスト生成、質問応答、文章読解など複数のタスクで高スコアを
獲得
入力:Recycling is good for the world. NO! YOU COULD NOT BE
MORE WRONG!!
出力:Recycling is NOT good for the world. It is bad for the environment, it is
bad for our health, and it is bad for our economy. I’m not kidding. Recycling is
not good for the environment. It is destructive to the earth and it is a major
contributor to global warming. Recycling is not good for our health. It
contributes to obesity and diseases like heart disease and cancer. Recycling is
bad for our economy. It increases the cost of a product, and in turn, the price
of everything that is made with that product. (以下続く)
21
21. Yann LeCun, “How Could Machines Learn Like Animals & Humans?”, Harvard MBB Distinguished Lecture II, 2019.
この5-10年間で機械学習が実現できることは格段に広く、高度化してきた
22
22. 機械学習とは
𝒚 = 𝑓(𝒙)
出力 入力学習器
(モデル)
“2”
コンピュータが明示的な指示なく(人間が)期待する情報や構造を導き出すこと
機械学習は非明示的な構造をデータより学習する→データ駆動型アプローチ
データ
𝒟
データから学習
"Field of study that gives computers the ability to learn without being explicitly programmed”
―Arthur Samuel (1959)
23
26. データ駆動型アプローチの勃興
自然言語処理
統計的機械翻訳 [Brown+, ‘93]
Word2vec [Mikolov+, NIPS’13]
ニューラル機械翻訳 [Sutskever+, NIPS’14]
画像認識
統計的顔検出 [Sung & Poggio, TPAMI’98]
Bag-of-Visual-Words (BoVW) + SVM [Csurka+, ECCV’04]
深層学習を用いた大規模画像認識 [Krichevsky+, NIPS’12]
音声認識
HMM音声認識 [Levinson+, ‘83]
End-to-end音声認識 [Graves & Jaitly, ICML’14]
手法の萌芽そのものは80年代~90年代に提案、10年代に実用化→なぜ?
27
27. 4つの成功要因
良質かつ大量のデータ 表現力の高いモデル 最適化手法の進化 豊富な計算資源
LeNet
↓
AlexNet
↓
VGG-16
↓
ResNet
↓
ResNeXt, SENet, …
https://www.datacenterdynamics.com/news/google-unveils-second-generation-tpu-available-as-a-service/
SGD, mSGD, ReLU,
RMSProp, Adam,
AdaBound, …
28
32. 何がブレイクスルーだったのか?
良質かつ大量のデータ 表現力の高いモデル 最適化手法の進化 豊富な計算資源
LeNet
↓
AlexNet
↓
VGG-16
↓
ResNet
↓
ResNeXt, SENet, …
https://www.datacenterdynamics.com/news/google-unveils-second-generation-tpu-available-as-a-service/
SGD, mSGD, ReLU,
RMSProp, Adam,
AdaBound, …
深層学習ブーム→データ量と計算量に対してスケールする制約と構造の発見
→10年間で、深層学習モデルをワークさせる工夫と実践が急速に行われてきた
33
37. データ駆動型の課題:(3) 帰納的バイアス
帰納的バイアスなくしてモデルは汎化 (未知データに適合) することはできない
帰納的バイアスの例:
線形回帰:入力𝑥に対する出力𝑦の関係は必ず線形になる
𝑘-近傍法:入力𝑥に対する出力は必ずユークリッド空間上で近いデータ点群
のそれに近くなる
私たち人間もバイアスを自然に運用している
例) 対象の永続性
“Any basis for choosing one generalization over another, other than strict consistency
with the instances.”—Tom Mitchell (1980)
帰納的バイアス (inductive bias):ある学習アルゴリズムが
未知の入力から予測を行うために暗黙的に用いている仮説の集合
38
41. 過熱する出版競争
新規参入の増加による論文投稿数の増加
(2012年比)
NeurIPS: 1400→4900 (3.5x)
CVPR: 1933→5100 (2.6x)
査読品質の低下
ベンチマークタスクの増加
洞察が薄くとも性能が良ければ採択?
面白いが隙のある研究は表に出てこない
「ゴキブリ」と「6本脚の子犬」 (P60)
「既存アルゴリズムの科学的検証を『新しい』と
判断せず、新しいが後追い的な、何もわからない
アルゴリズムを生み出すエンジニアリングが素晴
らしいと判断されるなら、機械学習コミュニティ
は早晩行き詰まるだろう。」
https://twitter.com/scottniekum/status/1104444646275592192
この状況において何が本質的となるか?
42
48. 参考文献・関連資料
参考文献
Yann LeCun, “How Could Machines Learn Like Animals & Humans?”, Harvard MBB
Distinguished Lecture II, 2019.
本発表に関連するトークスライド
コネクショニズムと汎化
オープンワールド認識
一人称視点映像における人物位置予測 (AI Dojo)
ユーザ評価からみるHCI ~良いシステムの実現のためにCV研究者が学ぶこと~ (MIRU2018
若手プログラム)
49