SlideShare a Scribd company logo
1 of 52
ECCV 2016読み会
Leveraging Visual Question Answering
for Image-Caption Ranking
牛久 祥孝
losnuevetoros
お前は誰だ?
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3
NTT コミュニケーション科学基礎研究所
2016.4~
東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
転職して9か月
教員であることにも慣れました
牛
久
学
生
B
学
生
A
学生に慕われる教員の図
転職して9か月
教員であることにも慣れました
牛
久
学
生
B
学
生
A
学生に慕われる教員の図
牛久さん今日の服装
チャラいっすねwww
(※ユニクロです)
学
生
B
転職して9か月
教員であることにも慣れました
牛
久
学
生
A
学生に弄ばれる教員の図
牛久さん今日の服装
チャラいっすねwww
(※ユニクロです)
なんか今日は先生の服、
メンナクっぽさがない
ですね。
(※身に覚えがない)
関東CV勉強会の幹事です
国際会議読み会はこの2年皆勤賞
• 2015年6月 CVPR読み会
• 2016年2月 ICCV読み会
• 2016年7月 CVPR読み会
• 2016年12月 ECCV読み会 ←いまここ
関東CV勉強会の幹事です
国際会議読み会はこの2年皆勤賞
• 2015年6月 CVPR読み会
弱教師あり物体検出の研究
• 2016年2月 ICCV読み会
カフェラテいれる際に、スチームミルクを
作り忘れていたらアラートだす研究
• 2016年7月 CVPR読み会
飲んだくれの画像を生成する研究
• 2016年12月 ECCV読み会 ←いまここ
危惧される批判:
あいつ変な論文しか読めないんじゃね?
• 論文に数式出てこないし
• 専門分野もってなさそうだし
• 服装チャラいらしいし
本日の論文
• 自分の専門分野(視覚×言語の融合)から
• しっかりした研究を
本日の論文
• 自分の専門分野(視覚×言語の融合)から
• しっかりした研究を
Visual Question Answering を
Image-Caption Ranking に活用する…?
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
Every Picture Tells a Story [Farhadi+, ECCV 2010]
世界初の画像入力→キャプション出力論文
1. 画像の<object, action, scene>をMRFで推定
2. <object, action, scene>が同じキャプションを
検索して、まるごと再利用
<Horse, Ride, Field>
Every Picture Tells a Story [Farhadi+, ECCV 2010]
再利用?新規生成?
• 再利用
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small white dog standing on a leash.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
cf. 非テンプレート型新規キャプション生成
画像の内容を表す少数の単語列(フレーズ)の推定
+単語列を文法モデルによって連結
[Ushiku+, ACM MM 2012]
最近の Neural Image Captioningとの比較
[Wu+, CVPR 2016][You+, CVPR 2016]
1. 単語/単語列を推定する部分
FV+SVM か CNN かの違い
2. 文法モデルを含めて連結する部分
対数線形モデルか RNN かの違い
Image-Caption Ranking
画像キャプション再利用アプローチの別名
全部で𝐾の画像 or キャプションが存在するとする
• 画像クエリによるキャプション検索
– 画像𝐼にキャプション𝐶が再利用される確率を定義
𝑃𝑐𝑎𝑝 𝐶 𝐼 =
exp(𝑆(𝐼, 𝐶))
𝑖=1
𝐾
exp(𝑆(𝐼, 𝐶𝑖))
• 逆問題:キャプションによる画像検索
𝑃𝑖𝑚 𝐼 𝐶 =
exp(𝑆(𝐼, 𝐶))
𝑖=1
𝐾
exp(𝑆(𝐼𝑖, 𝐶))
ある画像とキャプションの関連の強さ
今日紹介する論文では…
Multimodal Neural Language Models [Kiros+, TACL 2015] を採用
𝑆𝑡 𝐼, 𝐶 = 𝑡𝐼, 𝑡 𝐶
𝑡𝐼 =
𝑊𝐼 𝑥𝐼
𝑊𝐼 𝑥𝐼 2
, 𝑡 𝐶 =
𝑥 𝐶
𝑥 𝐶 2
𝑥𝐼:画像特徴量
19層VGGNetの出力 4096次元
𝑥 𝐶:キャプション特徴量
隠れ層1024次元のGRUによるRNNの出力 1024次元
𝑊𝐼:学習する線形変換
画像特徴からキャプション特徴への変換に相当
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
Visual Question Answering (VQA)
画像に関する質問に答えるQAシステム
• Visual Turing Challenge [MalinowskiL+Fritz, 2014]
• VQA Challenge
CVPR 2016 併設のコンペティション
(弊研究室:Abstract Image 部門で世界1位)
[Malinowski+,
ICCV 2015]
よくある手口:VQA=多クラス分類問題
質問文𝑄
What objects are
found on the bed?
応答𝐴
bed sheets, pillow
画像𝐼
画像特徴量
𝑥𝐼
質問特徴量
𝑥 𝑄
統合された
表現ベクトル
𝑧𝐼+𝑄
表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別
今日紹介する論文では…
VQA 原著論文のモデル [Antol+, ICCV 2015]を採用
VQA モデル
𝑧𝐼 = tanh(𝑊𝐼 𝑥𝐼 + 𝑏𝐼) , 𝑧 𝑄 = tanh(𝑊𝑄 𝑥 𝑄 + 𝑏 𝑄)
𝑧𝐼+𝑄 = 𝑧𝐼⨀𝑧 𝑄 (⨀は要素積)
𝑠 𝐴 = 𝑊𝑆 𝑧𝐼+𝑄 + 𝑏𝑆
𝑥𝐼:19層VGGNetの出力 4096次元
𝑥 𝑄:隠れ層512次元のLSTMによるRNN2層の出力 2048次元
𝑧∗:表現ベクトル 1024次元
𝑊∗, 𝑏∗ :学習する線形変換とバイアス
キャプション+質問に答えるVQA-Caption
言語データのみ用いる質問応答(QA)システム
質問文𝑄
What kind of food
Is in the picture?
応答𝐴
pizza
キャプション𝐶
A couple of pieces of
pizza with vegetable
slices on them.
キャプション
特徴量𝑥 𝐶
質問特徴量
𝑥 𝑄
統合された
表現ベクトル
𝑧 𝐶+𝑄
今日紹介する論文では…
VQA 原著論文のモデル [Antol+, ICCV 2015]を採用
VQA-Caption モデル
𝑧 𝐶 = tanh(𝑊𝐶 𝑥 𝐶 + 𝑏 𝐶) , 𝑧 𝑄 = tanh(𝑊𝑄 𝑥 𝑄 + 𝑏 𝑄)
𝑧 𝐶+𝑄 = 𝑧 𝐶⨀𝑧 𝑄 (⨀は要素積)
𝑠 𝐴 = 𝑊𝑆 𝑧 𝐶+𝑄 + 𝑏𝑆
𝑥 𝐶:最頻1000単語によるbag-of-wordsモデル 1000次元
𝑥 𝑄:隠れ層512次元のLSTMによるRNN2層の出力 2048次元
𝑧∗:表現ベクトル 1024次元
𝑊∗, 𝑏∗ :学習する線形変換とバイアス
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
着眼
多くのVQA事例を学習したシステム
→画像キャプション生成も得意なのでは?
What is the colour
of the comforter? blue, white
What is on the
refrigerator?
magnet, paper
What objects
are found on
the bed?
bed sheets, pillow
本日の論文
• 自分の専門分野(視覚×言語の融合)から
• しっかりした研究を
Visual Question Answering を
Image-Caption Ranking に活用する…?
本日の論文の概要
• VQAを中間表現(後述)に用いることを提案
– VQAモデル→画像の中間表現
– VQA-Captionモデル→キャプションの中間表現
• Image-Caption Ranking で用いる特徴量に追加
→検索精度が向上した
– 入力画像に対するキャプション検索
– 入力キャプションに対する画像検索
関連研究:中間表現
• Semantic Mid-Level Visual Representations
Attributes, Parts, Poselets, Objects, Actions, Contextual
information
• 中間表現を用いるメリット
– 既存タスクの高精度化
– Zero-shot learning (↓は[Elhoseiny+, ICCV 2013])
本論文が提案する中間表現
画像側のVQAアクティべーション𝑢𝐼
𝑖番目の成分𝑢𝐼
(𝑖)
= log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼)
𝑢𝐼
𝐼が なら𝑢𝐼
(3)
の値は0に近い
𝐼が なら𝑢𝐼
(3)
の値は負の値
𝑢𝐼
(3)
= log 𝑃𝐼(Yes|Is it clean?, 𝐼)
本論文が提案する中間表現
画像側のVQAアクティべーション𝑢𝐼
𝑖番目の成分𝑢𝐼
(𝑖)
= log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼)
𝑢𝐼
𝐼が なら𝑢𝐼
(9)
の値は…?
𝐼が なら𝑢𝐼
(9)
の値は負の値
𝑢𝐼
(9)
= log 𝑃𝐼(Helmets|What are the men wearing on their heads?, 𝐼)
本論文が提案する中間表現
画像側のVQAアクティべーション𝑢𝐼
𝑖番目の成分𝑢𝐼
(𝑖)
= log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼)
𝑢𝐼
𝐼が なら𝑢𝐼
(9)
の値は0に近い
(シーンとして、もしmenがいたら
どうなるかということで決まる)
𝐼が なら𝑢𝐼
(9)
の値は負の値
𝑢𝐼
(9)
= log 𝑃𝐼(Helmets|What are the men wearing on their heads?, 𝐼)
本論文が提案する中間表現
キャプション側のVQA-Captionアクティべーション𝑢 𝐶
𝑖番目の成分𝑢 𝐶
(𝑖)
= log 𝑃𝐶(𝐴𝑖|𝑄𝑖, 𝐶)
𝑢 𝐶
𝐶が なら𝑢 𝐶
(5)
の値は0に近い
𝐶が なら𝑢 𝐶
(5)
の値は負の値
𝑢 𝐶
(5)
= log 𝑃𝐶(Pizza|What kind of food is in the picture?, 𝐶)
A couple of
pieces of pizza
with vegetable
slices on them.
Two boats on
shore near an
ocean.
中間表現𝑢𝐼, 𝑢 𝐶を元の特徴と統合したい
• 𝑣𝐼 = ReLU 𝑊𝑢 𝐼
𝑢𝐼 + 𝑏 𝑣 𝐼
, 𝑣 𝐶 = ReLU 𝑊𝑢 𝐶
𝑢 𝐶 + 𝑏 𝑣 𝐶
• 𝑡𝐼 =
𝑊 𝐼 𝑥 𝐼
𝑊 𝐼 𝑥 𝐼 2
, 𝑡 𝐶 =
𝑥 𝐶
𝑥 𝐶 2
(再掲)
最後に統合:Score-level fusion
𝑆 𝐼, 𝐶 = 𝛼𝑆𝑡 𝐼, 𝐶 + 𝛽𝑆 𝑣 𝐼, 𝐶
• 𝑆 𝑣 𝐼, 𝐶 = 𝑣𝐼, 𝑣 𝐶
• 𝑆𝑡 𝐼, 𝐶 = 𝑡𝐼, 𝑡 𝐶 (再掲)
少し先に統合:Representation-level fusion
𝑆 𝐼, 𝐶 = 𝑟𝐼, 𝑟𝐶
• 𝑟𝐼=ReLU(𝑊𝑡 𝐼
𝑡𝐼 + 𝑊𝑣 𝐼
𝑣𝐼 + 𝑏 𝑟 𝐼
)
• 𝑟𝐶=ReLU(𝑊𝑡 𝐶
𝑡 𝐶 + 𝑊𝑣 𝐶
𝑣 𝐶 + 𝑏 𝑟 𝐶
)
本日の流れ
• Image-Caption Ranking とは
• Visual Question Answering とは
• 本研究の着想と手法
• 実験結果
実験設定
• MS COCOデータセット
– 8万強のキャプション付き画像で学習
– 5000枚のテストデータ
• VQAデータセット
– 実はMS COCOの画像を利用したデータセット
– VQA中間表現:1000枚の訓練用画像から3つずつ
QA例をサンプリング→3000次元の表現ベクトル
• 評価方法
– Image-Caption Ranking としての評価
– Recall@(1,5,10)
State-of-the-art の成績一覧
本論文がBaselineとして採用している
Multimodal Neural Language Models [Kiros+, TACL 2015]
State-of-the-artとの比較
Score-level fusion 2パターン
• VQA-grounded only: 中間表現のみ利用
• VQA-aware: Score-level fusionそのもの
State-of-the-artとの比較
Representation-level fusion 2パターン
• VQA-agnostic: もとの特徴量のみ利用
• VQA-aware: Representation-level fusionそのもの
…あれ?
2つの手法の差は何?
• どっちも「もとの特徴量のみ使用」のはず
• でも下の方が精度が高い
2つのVQA-agnostic
• Multimodal Neural Language Models [Kiros+, TACL 2015]
• Representation-level fusion VQA-agnostic
さらに1回の線形変換と活性化関数を経ている
→よりdeepになり、精度が向上している
定性的な比較(画像検索)
提案手法がうまくいった例
提案手法で失敗するようになった例
定性的な比較(画像検索)
提案手法がうまくいった例
提案手法で失敗するようになった例
論文による考察
「提案手法のVQA中間表現
によって、batと言われる
とhelmetも写った画像を探
すようになった。」
どちらの中間表現も寄与しているの?
• Deeper VQA-agnostic
• xxx-only representation-level fusion
– どちらかの中間表現のみを用いた場合
• Full representation-level fusion
VQAで学習したならCaptionの学習は不要?
• 画像当たりのキャプションの数と精度
• キャプションが多いほうが精度が高い
– VQAで学習しても多くのキャプションが必要
– VQAとキャプションで持つ情報が異なる
中間表現はどれくらいの次元にすればいい?
まとめと所感
• VQAを中間表現(後述)に用いることを提案
• Image-Caption Ranking で用いる特徴量に追加
– 検索精度が向上した
– ほかのタスクにも有用である可能性はある
• 「我々の知る限り最高精度」by著者
– 画像検索は[Wang+, CVPR 2016]のほうが上
• 危惧は解消できたか
– 専門分野もってなさそうだし
– 論文に数式出てこないし

More Related Content

What's hot

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
Yuya Unno
 

What's hot (20)

画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
 
NLP2017 NMT Tutorial
NLP2017 NMT TutorialNLP2017 NMT Tutorial
NLP2017 NMT Tutorial
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
[DL輪読会]Semi supervised qa with generative domain-adaptive nets
[DL輪読会]Semi supervised qa with generative domain-adaptive nets[DL輪読会]Semi supervised qa with generative domain-adaptive nets
[DL輪読会]Semi supervised qa with generative domain-adaptive nets
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
第3回アジア翻訳ワークショップの人手評価結果の分析
第3回アジア翻訳ワークショップの人手評価結果の分析第3回アジア翻訳ワークショップの人手評価結果の分析
第3回アジア翻訳ワークショップの人手評価結果の分析
 
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
深層学習とTensorFlow入門
深層学習とTensorFlow入門深層学習とTensorFlow入門
深層学習とTensorFlow入門
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
 

Viewers also liked

Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Incentive Compatible Regression Learning (Mathematical Informatics Reading)Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Hidekazu Oiwa
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
Akisato Kimura
 

Viewers also liked (20)

We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
Cvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoakiCvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoaki
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
 
第28回コンピュータビジョン勉強会@関東(kanejaki担当分)
第28回コンピュータビジョン勉強会@関東(kanejaki担当分)第28回コンピュータビジョン勉強会@関東(kanejaki担当分)
第28回コンピュータビジョン勉強会@関東(kanejaki担当分)
 
AIサービス構築に必要な「h」型人材スキルとは?
AIサービス構築に必要な「h」型人材スキルとは?AIサービス構築に必要な「h」型人材スキルとは?
AIサービス構築に必要な「h」型人材スキルとは?
 
関東コンピュータビジョン勉強会
関東コンピュータビジョン勉強会関東コンピュータビジョン勉強会
関東コンピュータビジョン勉強会
 
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
 
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Incentive Compatible Regression Learning (Mathematical Informatics Reading)Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
 
200511PRMUスポーツ動画像処理
200511PRMUスポーツ動画像処理200511PRMUスポーツ動画像処理
200511PRMUスポーツ動画像処理
 
Scattering tomography with path integral
Scattering tomography with path integralScattering tomography with path integral
Scattering tomography with path integral
 
乳牛のための形状計測システムの開発
乳牛のための形状計測システムの開発乳牛のための形状計測システムの開発
乳牛のための形状計測システムの開発
 
SCALE RATIO ICP FOR 3D POINT CLOUDS WITH DIFFERENT SCALES
SCALE RATIO ICP FOR 3D POINT CLOUDS WITH DIFFERENT SCALES SCALE RATIO ICP FOR 3D POINT CLOUDS WITH DIFFERENT SCALES
SCALE RATIO ICP FOR 3D POINT CLOUDS WITH DIFFERENT SCALES
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
Computer-Aided Colorectal Tumor Classification in NBI Endoscopy Using CNN Fea...
Computer-Aided Colorectal Tumor Classification in NBI Endoscopy Using CNN Fea...Computer-Aided Colorectal Tumor Classification in NBI Endoscopy Using CNN Fea...
Computer-Aided Colorectal Tumor Classification in NBI Endoscopy Using CNN Fea...
 
Locally Optimized Product Quantization for Approximate Nearest Neighbor Searc...
Locally Optimized Product Quantization for Approximate Nearest Neighbor Searc...Locally Optimized Product Quantization for Approximate Nearest Neighbor Searc...
Locally Optimized Product Quantization for Approximate Nearest Neighbor Searc...
 

Similar to Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Takuya Azumi
 

Similar to Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会) (20)

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN
 
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisited
 
[DL輪読会]Collective dynamics of repeated inference in variational autoencoder r...
[DL輪読会]Collective dynamics of repeated inference in variational autoencoder r...[DL輪読会]Collective dynamics of repeated inference in variational autoencoder r...
[DL輪読会]Collective dynamics of repeated inference in variational autoencoder r...
 
ACCV2014参加報告
ACCV2014参加報告ACCV2014参加報告
ACCV2014参加報告
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 

More from Yoshitaka Ushiku

More from Yoshitaka Ushiku (6)

これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain Adaptation
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
 

Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)