Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Differential Networks for Visual Question Answering

823 visualizaciones

Publicado el

北大調和系工学研究室で行った論文紹介資料です

Publicado en: Ingeniería
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Differential Networks for Visual Question Answering

  1. 1. 0 Differential Networks for Visual Question Answering 幡本昂平 2019/4/24 北海道大学 調和系工学研究室 DLゼミ
  2. 2. 1 1論文概要 • Author • Chenfei Wu, Jinlai Liu, Xiaojie Wang, Ruifan Li • Center for Intelligence Science and Technology Beijing University of Posts and Telecommunications • AAAI2019 (2019/1/27 ~ 2019/2/1) • URL • https://www.aaai.org/Papers/AAAI/2019/AAAI-WuC.76.pdf • FCNに工夫を加えたDifferential Networksを提案し,VQAタスクに適用
  3. 3. 2 2背景 Visual Question Answering 画像と質問の組が与えられ,適切な答えを選択するタスク • 応用先の例 • スマートホームのマネジメントシステム • プライベートアシスタント 従来手法の一般的な解き方 1. 画像と質問をそれぞれベクトル化 2. ベクトル化された画像と質問を合成する 3. 合成結果をもとに答えを決定 この研究もこの流れに沿っている
  4. 4. 3 3VQA2.0のデータセットの例 How many stories is the building tall? Answer 1: 5 Answer 2: 5 Answer 3: 5 Answer 4: 5 Answer 5: 6 Answer 6: 6 Answer 7: 5 Answer 8: 5 Answer 9: 4 Answer 10: 5 答え
  5. 5. 4 4VQA2.0のデータセットの例 What is on the pillow? Answer 1: pillow sham Answer 2: frills Answer 3: pillow case Answer 4: pillowcases Answer 5: nothing Answer 6: gray Answer 7: note Answer 8: cover Answer 9: paper Answer 10: sign 答え
  6. 6. 5 5Differential Networks 特徴量ベクトルの要素の差を入力とするネットワーク Differential Networks を提案 入力ベクトルを𝑥 = (𝑥1, 𝑥2, … , 𝑥 𝑚, ),出力ベクトルをy = (𝑦1, 𝑦2, … , 𝑦 𝑛, )とすると 𝑤は学習パラメータ ネットワーク構造 これにパラメータを削減する工夫をしたものを のように表現する
  7. 7. 6 6全結合ネットワークとの比較 DNは入力の差を取ることで入力に含まれるノイズを除去している 重みの形(対角に要素がない)から,要素間の関係性に注目しているといえる
  8. 8. 7 7Differential Fusion Model for VQA DNを利用したVQAを解くためのモデル Data Embedding ・ Differential Fusion ・ Decision Making の3段階からなる attentionベースのモデル: 画像のどこに注目すればよいかを考慮するモデル
  9. 9. 8 8Data Embedding 入力画像と質問文を特徴量ベクトルにエンコードする 入力画像 Faster-RCNN 同次元になるように変換 入力質問文 GRU How many stories is the building tall? 上位𝑙個のdetection boxの画像特徴量 質問文のEmbedding 𝑙 × 𝑑 𝑑
  10. 10. 9 9Differential Fusion Embeddingの結果を組み合わせて最終的な答えを決定するためのベクトルを作成する
  11. 11. 10 10Differential Fusionの流れ ① ② ③ ④
  12. 12. 11 11各処理の意図 特徴ベクトルをDNにより融合 融合した特徴ベクトルから multiglimpse attention distributionを計算 作成したattentionを画像特徴量に組み合わせる もう一度画像特徴量と質問文特徴量を融合
  13. 13. 12 12Decision Making・Training Differential Fusionの結果を用いて候補となる答えのスコアを出す 𝑊𝑓は学習可能パラメータで,次元数は答えの候補の数で変化 Decision Making Training 学習時のground-truthとなる答えの分布𝑎の決め方 答えが候補に含まれているアノテータの数 答えが𝑖であるアノテータの数 ロスはKLダイバージェンスで計算
  14. 14. 13 13データセット・評価指標 データセット • VQA1.0, VQA2.0 • 自由回答と選択肢回答のタスク • アノテータ数: 10人 Accuracy • COCO-QA, TDIUC • アノテータ数: 1人 Accuracy アノテータのうち一人でも答えにしている人がいれば0とはしない
  15. 15. 14 14実験結果 VQA1.0における state-of-the-artsとの比較
  16. 16. 15 15実験結果 VQA2.0における state-of-the-artsとの比較 COCO-QAにおけるstate-of-the-artsとの比較
  17. 17. 16 16実験結果 TDIUCにおけるstate-of-the-artsとの比較
  18. 18. 17 17Ablation study 手法の構成要素ごとの有効性を確かめるため,構成要素を抜いたバージョンの手法と比較 FCNを用いる 従来手法 質問文のみDN 画像のみDN Reluの代わりにtanh ドロップアウトなし すべて通常のDFのほうがいい
  19. 19. 18 18質的評価 DNを質問文・画像の両方に適用したほうがよりバウンディングボックスが正確である
  20. 20. 19 19質的評価 カウントタスクはAttentionベースのモデルでは難しい(Example4)
  21. 21. 20 20結論 • DNモジュールを提案 • DNを用いたVQAを解くVQAモデルを作成し,4つのデータセットでSOTA • 今後はDNを他のタスクに使用して,その一般性と有効性を確かめたい

×