Más contenido relacionado La actualidad más candente (20) Más de Takuya Minagawa (20) 20120408発表資料2. 概要
“Why The Brain Separates Face Recognition From
Object Recognition”
J.Z.Leibo, J.Mutch and T.Poggio (@MIT)
「なぜ、脳は顔認識と物体認識の回路を分けたの
か?」
脳には顔に対して選択的に反応する領域がある。それは
なぜか。
解剖学的な観点ではなく、計算モデルの観点から、説明を
試みる
結論:
視点の変化や照明の変化にロバストな認識を行うために、回
路を分ける必要があった。
3. 概要
脳の視覚皮質の画像処理プロセス
顔に選択的に反応する領域
視覚皮質の計算モデル(HMAXモデル)
視点/照明変化のためのHMAXモデルの拡張
拡張HMAXモデルによる顔/物体認識実験
結論:なぜ顔認識を分けたのか?
4. 視覚皮質の画像処理プロセス
背側経路(dorsal stream)
腕を伸ばして何かを掴むな
どの際に利用される、行動
に関わる経路。”Where”経
路
腹側経路(ventral stream)
それが犬か、猫か、などを
認識する、知覚に関わる経
路。”What”経路
5. “瞬間的な認識”の画像処理モデル
霊長類は、目や注意の動きが起こらない程度の短い
時間(100msec)画像を見せただけで、認識すること
ができる。
瞬間的な認識(Rapid Categorization)では腹側経路の
フィードフォワードパスのみ使用される
画像が十分な時間提示された場合、「注意」が働きフィー
ドバックパスが活性化される。
色情報は瞬間的な認識においては重要ではない。
8. 腹側経路の階層構造
階層が上位に位置するほど、複雑な刺激に対して選択
性を持つようになる。
階層が上位になるほど、位置、サイズなどに対する普遍
性が上がる。
カバーする受容野の大きさも同時に広くなる。
上位の階層ほど可塑性が高い。
学習に対して早く柔軟に対応する。
11. 単純型細胞
ある特定の信号(位置、大きさ、
形状)に対して最も強く反応する。
テンプレートマッチング
信号の形が変わると、それに
伴って反応も減っていく。
ガウス関数で近似。
V1において反応する形状の例
12. 複雑型細胞
ある領域内、あるスケール範囲内にある、同一の形状に
対する選択性を持つ単純型細胞からの信号受け取る。
そのうち最大の入力を選択する
位置とサイズに対する普遍性実現の例
14. 視覚皮質の計算モデル(HMAXモデル)
Machine Learning
C2
S1, S2: 単純型細胞
Max C1,C2: 複雑型細胞
S2 S1 & C1≒ V1 & V2
Tuning
S2 ≒ PIT
C1 C2 ≒ PIT & AIT
Max
Machine Learning ≒ AIT
S1
& PFC
Tuning
17. 視覚皮質の計算モデル(HMAXモデル)
Machine Learning
S2:
C2 C1からの入力と、事前に取得したN個の形
Max
状パッチとの類似度を出力する。
Shape patch
S2
Pi
Tuning
r exp X Pi
2
C1
Max
C1 Output
X
S1
Tuning
形状パッチは事前に学習画像からランダムに
取得しておく。
18. 視覚皮質の計算モデル(HMAXモデル)
Machine Learning
C2:
C2 S2から入力を受け取り、各形状毎に全ての
Max
位置/スケールで最大の信号を出力する
S2
C2
Max Max
Tuning
C1
S2
Max
S1
Machine Learning:
C2の出力ベクトル(各形状の最大類似度)
Tuning から機械学習を用いてカテゴリを学習。
19. 物体の変形への耐性
以下の変形は、どの物体のカテゴリにも共通
位置の変化 スケールの変化 回転(画像平面上)
以下の変形は、物体のカテゴリ毎に見えが違う
向きの変化 照明の変化
20. HMAXモデルの拡張
視点に変化に頑健なHMAXモデル
• S3/C3層を追加
• S3層は様々な顔の向きのテンプレー
トを持つ
• C3層では、すべての顔の向きを統合
S/Cユニットの出力モデル
w xj
n
rw ( x) max exp 1 2
t 2 t, j
j 1
応答 テンプレート Sユニットへの
(位置t) 入力
21. 実験
視点変化および照明変化につい
て実験
視点変化:
S2パッチx2000
S3パッチx10人x71視点
C3ユニットx10
照明変化:
S2パッチx80
S3パッチx80人x15照明
C3ユニットx80
パッチ作成に使用した画像と学
習/試験画像は別
学習画像数:1枚
(1-shot learning)
試験画像を入力し、学習画像と
の類似度を算出
26. 結論
視覚皮質の腹側経路における生理学の知見に基づいた
モデルを用いて、視点や照明に頑健な認識を行うために
は、そのカテゴリ専用のモジュール(回路)を構築してや
る必要がある。
マカクザルのML/MF、およびAM領域は拡張HMAXモデ
ルのC2, S3, C3ユニットに対応する。
顔のような3次元的構造を持つものは、視点の変化に
よって見え方が大きく変わるため、独自のモジュールを
持つ必要がある。
顔認識は、専用のリソースを与える必要があるほど重要
人体認識のモジュールも見つかっているが、同様の理由と推
察できる。