SlideShare una empresa de Scribd logo
1 de 27
http://deeplearning.jp/
Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings
言語モデル学習のマルチモーダル対照推定法で、モーダル間の対応例が不要な手法
山本 貴之(ヤフー株式会社)
DEEP LEARNING JP
[DL Papers]
1
書誌情報
Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings
言語モデル学習のマルチモーダル対照推定法で、モーダル間の対応例が不要な手法
NeurIPS 2022
https://arxiv.org/abs/2209.09433
タイトル:
著者:
言語意味理解モデルSimCSEに画像や音声のモーダルを追加した対照推定で精度向上
ポイントは、モーダル間の対応例が「不要」である点
概要:
2
選定理由: マルチモーダル学習で、対応例「不要」という事に対する興味
公式実装: https://github.com/yiren-jian/NonLing-CSE
※出典記載の無い図表は本論文からの引用
はじめに
3
現状 解決策
課題
▍ 言語意味埋込学習
現在の最高性能は
SimCSE
▍ SimCSEは
教師なしで学習可能だが
最高精度は教師ありモデル
▍ 教師ありは
ラベル付データの質が重要
▍ ラベル付きは
低資源言語では厳しい
▍ 教師なしで
精度と汎化性能を上げたい
▍画像や音声の
他モーダルデータも活用
し精度を向上
※「教師なし」=「自己教師あり」
研究の貢献
4
▊ 研究の貢献 ▊
▍ 学習済SimCSEをさらに改善する
▍ 画像などの他モーダルデータも活用し
ファインチューニング
▍ モーダル間で意味的な「対」が不要
▍ マルチタスク損失で汎化性能向上
VisualCSEの概要 【提案手法】
前提となる関連研究
5
関連研究 Supervised Contrastive Learning (2020)
6
https://arxiv.org/abs/2004.11362
関連研究 Supervised Contrastive Learning (2020)
7
提案手法Supervised Contrastive(=SupCon)損失関数を用いたAccuracy
SupCon損失
提案手法
SupCon損失は一貫してクロスエントロピーを上回る
https://arxiv.org/abs/2004.11362
関連研究 Supervised Contrastive Learning (2020)
8
【提案手法】
Supervised Contrastive(SupCon)
【既存手法】
自己教師あり対照推定
輪読論文で
使われるので重要
▍ 正例ペアは点線部の2枚
Anchor画像からAugmentationしたもの
https://arxiv.org/abs/2004.11362
▍ 正例クラスタは点線部の3枚(図の場合)
左記に加え、正解ラベルで同クラスタのもの
この犬の扱いが違う
この犬の扱いが違う
関連研究 Supervised Contrastive Learning (2020)
9
https://arxiv.org/abs/2004.11362
N個のデータセット
「バッチ」
マルチビューバッチを2回作成
iとjの2系列とする
2N個に拡張
「マルチビューバッチ」
dog
dog
cat
cat
elephant
dog
dog
cat
cat
elephant
dog
cat
cat
elephant
dog
dog
dog
cat
cat
elephant
dog
cat
cat
elephant
dog
dog
dog
cat
cat
elephant
dog
cat
cat
elephant
dog
学習用データセットの作り方
Augument
Augument
i系列 j系列
⋮
追加部
※ 自分対自分
除外全組合せ
関連研究 Supervised Contrastive Learning (2020)
10
【提案手法】
SupCon損失関数
https://arxiv.org/abs/2004.11362
【既存手法】
自己教師あり対照推定
▍ 正例ペアを1に近づけ、
負例群を0に近づける損失関数
▍ 温度付Softmaxとクロスエントロピー
の組合せ式。Softmaxなので正例を1に
近づけると自動的に負例は0に近づく。
▍ ミニバッチ内のi番目の
正例ペアSoftmaxを最大化する
温度τ
正例ペア
Labels部
クロスエントロピー式
温度付Softmax式
※ 自分除外
※
マルチビューバッチ内のi自身以外の正の組
カーディナリティー(=正の組の数)
▍ がlogの外か内で、outとinの2つの式がある
▍ 式の主な変更箇所は と記載した部分
▍ はi自身以外の正の組の数だけ、
温度付Softmax&クロスエントロピーを加算するという事
▍ 正の組が多いと値が大きくなるので で割り正規化
▍ はlog内に がある為勾配に影響なく正規化効果なし
追加部
追加部
関連研究 Pretrained Transformers As Universal Computation Engines (2021)
11
https://arxiv.org/abs/2103.05247
▊ 詳細 ▊
▍ セルフアテンション(=Multi-Head Attention) & FeedForward層の重みは固定(パラメータの大半はここ)
▍ Embedding層、出力層、LayerNormのScaleとBiasのみ学習対象としファインチューニング
学習対象
学習対象
学習対象
学習対象
Scale・Bias
学習対象
Scale・Bias
重み固定 重み固定
▊ サマリ ▊
▍ 学習済言語モデルのパラメータ固定(FPT)で、画像認識等、他モーダルタスクで活用する研究
▍ 当研究にインスピレーションを受け、輪読論文に繋がった
Frozen Pretrained Transformer (FPT)
※全結合層
関連研究 Pretrained Transformers As Universal Computation Engines (2021)
12
https://arxiv.org/abs/2103.05247
▊ 結果 ▊
▍ 青のFPT(提案手法)が、完全に学習したTransformer(オレンジ)やLSTM(グレー)に比較し高い性能
論文に「高い性能」と書かれているが、オレンジとは同等とも言える
関連研究 Pretrained Transformers As Universal Computation Engines (2021)
13
https://arxiv.org/abs/2103.05247
▊ 結果 ▊
▍ FPT(提案手法)が、ランダムに初期化したTransformerより、1~40倍学習が高速
提案手法Transformer
ランダム初期化Transformer
学習の収束にかかる勾配ステップ数
輪読論文に戻る
14
【再掲】はじめに
15
現状 解決策
課題
▍ 言語意味埋込学習
現在の最高性能は
SimCSE
▍ SimCSEは
教師なしで学習可能だが
最高精度は教師ありモデル
▍ 教師ありは
ラベル付データの質が重要
▍ ラベル付きは
低資源言語では厳しい
▍ 教師なしで
精度と汎化性能を上げたい
▍画像や音声の
他モーダルデータも活用
し精度を向上
※「教師なし」=「自己教師あり」
モデル構造
16
▊ 学習のポイント ▊
▍ BERT-base部(学習済SimCSE)に
テキスト×画像でファインチューニング
▍ テキスト×画像→VisualCSEと呼ぶ
▍ テキスト×音声→AudioCSEと呼ぶ
▍ モダリティー間は、対である必要はない
▍ テキストはSimCLR損失関数を使う
▍ 画像や音声はSupCon損失関数を使う
▍ テキストでパラメータ更新1回
→画像でパラメータ更新1回と繰り返す
VisualCSEの概要 【提案手法】
学習手順
17
▊ 具体的手順 ▊
▍ ミニバッチ内でテキストと画像を繰り返す
▍ 学習するモデルは一つの言語モデルLM
▍ テキストをミニバッチ分取得
▍ DropoutでAugし正例作成
▍ SimCLR損失で勾配計算
▍ 勾配に基づきLMのパラメータ更新
▍ 画像はクラスタラベルを使い
▍ VisionTransforerでエンベディング
▍ SupCon損失で同一クラスタを正例とし
▍ 勾配計算
▍ 勾配に基づきLMのパラメータ更新
損失関数
18
▍ 教師ありと教師なし、テキストと画像、それぞれについて損失関数を提案している
教師なし
SimCLR損失
テキスト
教師あり
SupCon損失
画像
当論文の実験では、水色背景部分の式を使用
※自己教師あり ※同一クラスタを正例とする
損失関数
19
▊ 関連研究のSupCon損失との比較 ▊
関連研究のSupCon損失
正例 正例
負例のみ
当論文のSupCon損失
正例ペアは全体に対して少ない前提だと
負例が大半で、ほぼ負例と考えられる
同一クラスタペア
正例
同一クラスタペアループ
ほぼ負例
ミニバッチ内ループ
ミニバッチ内ループ
同一クラスタペアループ
分子が正例で、分母が負例という基本構造は同じ
明示的に負例のみを加算
輪読者によるコメント
当論文のSubCon損失は、関連研究のSupCon損失の2つの内、Lsup,inがベース。
これは、関連研究では精度が悪い方である。理由はlogの内部にp(i)が入っているた
め、勾配に寄与できない為。当論文ではこの部分を改良したと思われる。分母を負
例のみに限定する事で、 p(i)で割る部分を削除可能にし、より高い精度を実現でき
たと推定される。ただし、この式の導出過程は詳しく記載されていない。
Supervised Contrastive Learning
https://arxiv.org/abs/2004.11362
この損失関数導出の詳細は
論文に記載が無い
同一クラスタペア
実験設定
20
項目 内容
▍ 言語モデル ▍ 学習済SimCSE(BERT-base-uncased・RoBERTa-base・RoBERTa-large)
▍ テキストデータセット ▍ 教師なし:Wikipedia英語 100K 文(※1)
▍ 画像データセット ▍ 教師あり:ImageNet 60クラス×500枚(※1)
※ 「教師なし」=「自己教師あり」
※1 データセットからダウンサンプリングしている
▍ 学習設定 ▍ 1Epochファインチューニング。バッチサイズと学習率はグリッドサーチ
▍ 評価指標 ▍ 7つの文章意味類似度(STS)タスクで評価
実験結果
21
VisualCSEの実験結果
スピアマン相関
提案手法
提案手法
提案手法
▊ 総合結果 ▊
▍ SimCSEの教師なしに対して、凌駕する性能
▍ テキスト以外のモダリティーを同時に学習し、テキストの性能が向上
▍ モダリティー間の対になる例を必要とせず、性能が向上
※「教師なし」=「自己教師あり」
実験結果
22
言語によるVisualCSEの効果の違い
▊ 言語による違い ▊
▍ いずれの言語も改善が見られた
▍ ロシア語のような低資源言語において改善が著しい
提案手法
提案手法
提案手法
提案手法
+4.98改善
実験結果
23
教師ありSimCSEをベースに、他モダリティー活用で改善できるかを実験した結果
スピアマン相関
提案手法
提案手法
▊ 結果 ▊
▍ 改善はしているものの、改善幅が小さい
▍ 他モダリティー活用で、教師ありSimCSEの改善には寄与できない(と結論づけている)
実験結果
24
▊ 下流タスク転移学習 ▊
▍ 下流タスクにも
うまく適用できている
▍ 改善はわずか
略記 タスク内容
MR 多点スケールのセンチメント分析。Good, Badではなく点数で処理
CR 口コミレビュー文章の要約。製品の特長と、肯定的か否定的かを抽出
SUBJ 口コミレビュー文章のセンチメント分析。主観部分のみを抽出
MPQA 言語中の意見、感情、推測、評価などの部分のコーパスアノテーション
SST 長いフレーズの文章の、感情分析
TREC 文法的か、非文法的かを判断する
MRPC 言い換え文の同定
提案手法
提案手法
提案手法
提案手法
提案手法
提案手法
分析
25
▍ 教師ありSimCSEの精度はNLIデータセットが高品質な事に大きく依存している
▍ VisualCSEの画像モーダルの効果と、教師ありSimCSE(81.6)のNLIデータセットへの依存を分析
NLIデータセットのサイズに対する感度分析
NLIデータサイズ30kでVisualCSEと同等性能
NLIデータセットのノイズに対する感度分析
[削除比率, 挿入, 入替]
ランダム削除40%程度でVisualCSEを下回る
分析
26
▍ 提案手法はクラスタリング性能が向上している(基本的にalignで測定する為)
▍ uniformの悪化は、表現空間でクループ化されている可能性(今後の研究課題)
埋込のalignとuniform評価
赤文字:提案手法
▍ align=正のペアの距離の近さ
▍ uniform=表現の散らばりの一様性
まとめ
27
▊ 結論 ▊
▍ テキストだけでなく、非言語領域からの対ではない例を加えて対照推定する事で、
テキスト表現学習を改善させるフレームワークを提案
▍ 非言語領域のモダリティにとらわれない
▍ 低資源言語に特に効果的
▊ 感想 ▊
▍ SupCon損失関数に至る詳細が説明されておらず、関連研究からの改良ロジックが想像の域を超えない
▍ 提案手法の本題の実験設定と、アブレーションなども含めた一連の実験設定が一緒に記載されており、
フレームワークとしての一連の事項は理解できるが、提案手法を正しく捉えているかは要詳細調査
▍ 対ではない例で学習し精度向上するが、モーダル間の関係性が対でモデル内に表現されているか興味あり
▍ 一部でも対の情報を加える事で、より精度向上やモーダル間の関係性表現向上に寄与しないか興味あり

Más contenido relacionado

La actualidad más candente

【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用gree_tech
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"Deep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Modelscvpaper. challenge
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 

La actualidad más candente (20)

【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 

Similar a 【DL輪読会】Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings

論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword InformationKanji Takahashi
 
いまさら学ぶオブジェクト指向
いまさら学ぶオブジェクト指向いまさら学ぶオブジェクト指向
いまさら学ぶオブジェクト指向Daisuke Hirayama
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
AML-dynamics ライスボールセミナー
AML-dynamics ライスボールセミナーAML-dynamics ライスボールセミナー
AML-dynamics ライスボールセミナーTadahiro Taniguchi
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPNaoaki Okazaki
 
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language ModelsDynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language ModelsShun Kiyono
 
[論文紹介] Skip-Thought Vectors
[論文紹介] Skip-Thought Vectors[論文紹介] Skip-Thought Vectors
[論文紹介] Skip-Thought VectorsHiroki Shimanaka
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
Code4lib2013.09.01 fujiwara
Code4lib2013.09.01 fujiwaraCode4lib2013.09.01 fujiwara
Code4lib2013.09.01 fujiwaraTakeshi Fujiwara
 
Neural Architecture for Named Entity Recognition
Neural Architecture for Named Entity RecognitionNeural Architecture for Named Entity Recognition
Neural Architecture for Named Entity RecognitionHiroki Nakayama
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...Deep Learning JP
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 

Similar a 【DL輪読会】Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings (12)

論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
いまさら学ぶオブジェクト指向
いまさら学ぶオブジェクト指向いまさら学ぶオブジェクト指向
いまさら学ぶオブジェクト指向
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
AML-dynamics ライスボールセミナー
AML-dynamics ライスボールセミナーAML-dynamics ライスボールセミナー
AML-dynamics ライスボールセミナー
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
 
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language ModelsDynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
 
[論文紹介] Skip-Thought Vectors
[論文紹介] Skip-Thought Vectors[論文紹介] Skip-Thought Vectors
[論文紹介] Skip-Thought Vectors
 
Interop2017
Interop2017Interop2017
Interop2017
 
Code4lib2013.09.01 fujiwara
Code4lib2013.09.01 fujiwaraCode4lib2013.09.01 fujiwara
Code4lib2013.09.01 fujiwara
 
Neural Architecture for Named Entity Recognition
Neural Architecture for Named Entity RecognitionNeural Architecture for Named Entity Recognition
Neural Architecture for Named Entity Recognition
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 

Más de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 

Último (12)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

【DL輪読会】Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings

  • 1. http://deeplearning.jp/ Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings 言語モデル学習のマルチモーダル対照推定法で、モーダル間の対応例が不要な手法 山本 貴之(ヤフー株式会社) DEEP LEARNING JP [DL Papers] 1
  • 2. 書誌情報 Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings 言語モデル学習のマルチモーダル対照推定法で、モーダル間の対応例が不要な手法 NeurIPS 2022 https://arxiv.org/abs/2209.09433 タイトル: 著者: 言語意味理解モデルSimCSEに画像や音声のモーダルを追加した対照推定で精度向上 ポイントは、モーダル間の対応例が「不要」である点 概要: 2 選定理由: マルチモーダル学習で、対応例「不要」という事に対する興味 公式実装: https://github.com/yiren-jian/NonLing-CSE ※出典記載の無い図表は本論文からの引用
  • 3. はじめに 3 現状 解決策 課題 ▍ 言語意味埋込学習 現在の最高性能は SimCSE ▍ SimCSEは 教師なしで学習可能だが 最高精度は教師ありモデル ▍ 教師ありは ラベル付データの質が重要 ▍ ラベル付きは 低資源言語では厳しい ▍ 教師なしで 精度と汎化性能を上げたい ▍画像や音声の 他モーダルデータも活用 し精度を向上 ※「教師なし」=「自己教師あり」
  • 4. 研究の貢献 4 ▊ 研究の貢献 ▊ ▍ 学習済SimCSEをさらに改善する ▍ 画像などの他モーダルデータも活用し ファインチューニング ▍ モーダル間で意味的な「対」が不要 ▍ マルチタスク損失で汎化性能向上 VisualCSEの概要 【提案手法】
  • 6. 関連研究 Supervised Contrastive Learning (2020) 6 https://arxiv.org/abs/2004.11362
  • 7. 関連研究 Supervised Contrastive Learning (2020) 7 提案手法Supervised Contrastive(=SupCon)損失関数を用いたAccuracy SupCon損失 提案手法 SupCon損失は一貫してクロスエントロピーを上回る https://arxiv.org/abs/2004.11362
  • 8. 関連研究 Supervised Contrastive Learning (2020) 8 【提案手法】 Supervised Contrastive(SupCon) 【既存手法】 自己教師あり対照推定 輪読論文で 使われるので重要 ▍ 正例ペアは点線部の2枚 Anchor画像からAugmentationしたもの https://arxiv.org/abs/2004.11362 ▍ 正例クラスタは点線部の3枚(図の場合) 左記に加え、正解ラベルで同クラスタのもの この犬の扱いが違う この犬の扱いが違う
  • 9. 関連研究 Supervised Contrastive Learning (2020) 9 https://arxiv.org/abs/2004.11362 N個のデータセット 「バッチ」 マルチビューバッチを2回作成 iとjの2系列とする 2N個に拡張 「マルチビューバッチ」 dog dog cat cat elephant dog dog cat cat elephant dog cat cat elephant dog dog dog cat cat elephant dog cat cat elephant dog dog dog cat cat elephant dog cat cat elephant dog 学習用データセットの作り方 Augument Augument i系列 j系列 ⋮
  • 10. 追加部 ※ 自分対自分 除外全組合せ 関連研究 Supervised Contrastive Learning (2020) 10 【提案手法】 SupCon損失関数 https://arxiv.org/abs/2004.11362 【既存手法】 自己教師あり対照推定 ▍ 正例ペアを1に近づけ、 負例群を0に近づける損失関数 ▍ 温度付Softmaxとクロスエントロピー の組合せ式。Softmaxなので正例を1に 近づけると自動的に負例は0に近づく。 ▍ ミニバッチ内のi番目の 正例ペアSoftmaxを最大化する 温度τ 正例ペア Labels部 クロスエントロピー式 温度付Softmax式 ※ 自分除外 ※ マルチビューバッチ内のi自身以外の正の組 カーディナリティー(=正の組の数) ▍ がlogの外か内で、outとinの2つの式がある ▍ 式の主な変更箇所は と記載した部分 ▍ はi自身以外の正の組の数だけ、 温度付Softmax&クロスエントロピーを加算するという事 ▍ 正の組が多いと値が大きくなるので で割り正規化 ▍ はlog内に がある為勾配に影響なく正規化効果なし 追加部 追加部
  • 11. 関連研究 Pretrained Transformers As Universal Computation Engines (2021) 11 https://arxiv.org/abs/2103.05247 ▊ 詳細 ▊ ▍ セルフアテンション(=Multi-Head Attention) & FeedForward層の重みは固定(パラメータの大半はここ) ▍ Embedding層、出力層、LayerNormのScaleとBiasのみ学習対象としファインチューニング 学習対象 学習対象 学習対象 学習対象 Scale・Bias 学習対象 Scale・Bias 重み固定 重み固定 ▊ サマリ ▊ ▍ 学習済言語モデルのパラメータ固定(FPT)で、画像認識等、他モーダルタスクで活用する研究 ▍ 当研究にインスピレーションを受け、輪読論文に繋がった Frozen Pretrained Transformer (FPT) ※全結合層
  • 12. 関連研究 Pretrained Transformers As Universal Computation Engines (2021) 12 https://arxiv.org/abs/2103.05247 ▊ 結果 ▊ ▍ 青のFPT(提案手法)が、完全に学習したTransformer(オレンジ)やLSTM(グレー)に比較し高い性能 論文に「高い性能」と書かれているが、オレンジとは同等とも言える
  • 13. 関連研究 Pretrained Transformers As Universal Computation Engines (2021) 13 https://arxiv.org/abs/2103.05247 ▊ 結果 ▊ ▍ FPT(提案手法)が、ランダムに初期化したTransformerより、1~40倍学習が高速 提案手法Transformer ランダム初期化Transformer 学習の収束にかかる勾配ステップ数
  • 15. 【再掲】はじめに 15 現状 解決策 課題 ▍ 言語意味埋込学習 現在の最高性能は SimCSE ▍ SimCSEは 教師なしで学習可能だが 最高精度は教師ありモデル ▍ 教師ありは ラベル付データの質が重要 ▍ ラベル付きは 低資源言語では厳しい ▍ 教師なしで 精度と汎化性能を上げたい ▍画像や音声の 他モーダルデータも活用 し精度を向上 ※「教師なし」=「自己教師あり」
  • 16. モデル構造 16 ▊ 学習のポイント ▊ ▍ BERT-base部(学習済SimCSE)に テキスト×画像でファインチューニング ▍ テキスト×画像→VisualCSEと呼ぶ ▍ テキスト×音声→AudioCSEと呼ぶ ▍ モダリティー間は、対である必要はない ▍ テキストはSimCLR損失関数を使う ▍ 画像や音声はSupCon損失関数を使う ▍ テキストでパラメータ更新1回 →画像でパラメータ更新1回と繰り返す VisualCSEの概要 【提案手法】
  • 17. 学習手順 17 ▊ 具体的手順 ▊ ▍ ミニバッチ内でテキストと画像を繰り返す ▍ 学習するモデルは一つの言語モデルLM ▍ テキストをミニバッチ分取得 ▍ DropoutでAugし正例作成 ▍ SimCLR損失で勾配計算 ▍ 勾配に基づきLMのパラメータ更新 ▍ 画像はクラスタラベルを使い ▍ VisionTransforerでエンベディング ▍ SupCon損失で同一クラスタを正例とし ▍ 勾配計算 ▍ 勾配に基づきLMのパラメータ更新
  • 19. 損失関数 19 ▊ 関連研究のSupCon損失との比較 ▊ 関連研究のSupCon損失 正例 正例 負例のみ 当論文のSupCon損失 正例ペアは全体に対して少ない前提だと 負例が大半で、ほぼ負例と考えられる 同一クラスタペア 正例 同一クラスタペアループ ほぼ負例 ミニバッチ内ループ ミニバッチ内ループ 同一クラスタペアループ 分子が正例で、分母が負例という基本構造は同じ 明示的に負例のみを加算 輪読者によるコメント 当論文のSubCon損失は、関連研究のSupCon損失の2つの内、Lsup,inがベース。 これは、関連研究では精度が悪い方である。理由はlogの内部にp(i)が入っているた め、勾配に寄与できない為。当論文ではこの部分を改良したと思われる。分母を負 例のみに限定する事で、 p(i)で割る部分を削除可能にし、より高い精度を実現でき たと推定される。ただし、この式の導出過程は詳しく記載されていない。 Supervised Contrastive Learning https://arxiv.org/abs/2004.11362 この損失関数導出の詳細は 論文に記載が無い 同一クラスタペア
  • 20. 実験設定 20 項目 内容 ▍ 言語モデル ▍ 学習済SimCSE(BERT-base-uncased・RoBERTa-base・RoBERTa-large) ▍ テキストデータセット ▍ 教師なし:Wikipedia英語 100K 文(※1) ▍ 画像データセット ▍ 教師あり:ImageNet 60クラス×500枚(※1) ※ 「教師なし」=「自己教師あり」 ※1 データセットからダウンサンプリングしている ▍ 学習設定 ▍ 1Epochファインチューニング。バッチサイズと学習率はグリッドサーチ ▍ 評価指標 ▍ 7つの文章意味類似度(STS)タスクで評価
  • 21. 実験結果 21 VisualCSEの実験結果 スピアマン相関 提案手法 提案手法 提案手法 ▊ 総合結果 ▊ ▍ SimCSEの教師なしに対して、凌駕する性能 ▍ テキスト以外のモダリティーを同時に学習し、テキストの性能が向上 ▍ モダリティー間の対になる例を必要とせず、性能が向上 ※「教師なし」=「自己教師あり」
  • 22. 実験結果 22 言語によるVisualCSEの効果の違い ▊ 言語による違い ▊ ▍ いずれの言語も改善が見られた ▍ ロシア語のような低資源言語において改善が著しい 提案手法 提案手法 提案手法 提案手法 +4.98改善
  • 23. 実験結果 23 教師ありSimCSEをベースに、他モダリティー活用で改善できるかを実験した結果 スピアマン相関 提案手法 提案手法 ▊ 結果 ▊ ▍ 改善はしているものの、改善幅が小さい ▍ 他モダリティー活用で、教師ありSimCSEの改善には寄与できない(と結論づけている)
  • 24. 実験結果 24 ▊ 下流タスク転移学習 ▊ ▍ 下流タスクにも うまく適用できている ▍ 改善はわずか 略記 タスク内容 MR 多点スケールのセンチメント分析。Good, Badではなく点数で処理 CR 口コミレビュー文章の要約。製品の特長と、肯定的か否定的かを抽出 SUBJ 口コミレビュー文章のセンチメント分析。主観部分のみを抽出 MPQA 言語中の意見、感情、推測、評価などの部分のコーパスアノテーション SST 長いフレーズの文章の、感情分析 TREC 文法的か、非文法的かを判断する MRPC 言い換え文の同定 提案手法 提案手法 提案手法 提案手法 提案手法 提案手法
  • 27. まとめ 27 ▊ 結論 ▊ ▍ テキストだけでなく、非言語領域からの対ではない例を加えて対照推定する事で、 テキスト表現学習を改善させるフレームワークを提案 ▍ 非言語領域のモダリティにとらわれない ▍ 低資源言語に特に効果的 ▊ 感想 ▊ ▍ SupCon損失関数に至る詳細が説明されておらず、関連研究からの改良ロジックが想像の域を超えない ▍ 提案手法の本題の実験設定と、アブレーションなども含めた一連の実験設定が一緒に記載されており、 フレームワークとしての一連の事項は理解できるが、提案手法を正しく捉えているかは要詳細調査 ▍ 対ではない例で学習し精度向上するが、モーダル間の関係性が対でモデル内に表現されているか興味あり ▍ 一部でも対の情報を加える事で、より精度向上やモーダル間の関係性表現向上に寄与しないか興味あり