SlideShare una empresa de Scribd logo
1 de 17
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Scale Efficiently: Insights from Pre-training and Fine-
tuningTransformers” (ICLR2022)
Okimura Itsuki, Matsuo Lab, M1
アジェンダ
1. 書誌情報
2. 概要
3. 背景
4. 問題意識
5. 実験
6. 追加実験
2
1 書誌情報
タイトル: Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers
出典: ICLR2022 https://openreview.net/pdf?id=f2OYVDyfIB
著者: Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira
Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish
Vaswani, Donald Metzler (Google Research & Deepmind)
選んだ理由:べき乗則の再検討みたいなもので気になった
3
2 概要
• Transformer言語モデルでの上流で観察されるべき乗則が
下流のタスクにどのように影響するのかは不明であった.
• そこで多様な形状のT5ベースのモデルについて上流の言語モデリングと
下流でのタスクの性能を検証し,
上流タスクでの性能は下流タスクでの性能を保証しないことを示した.
• また,下流タスクの性能はモデルの形状に影響を受け,層が深く幅が狭い
DeepNarrowなモデルの学習効率が優れていることも示した.
• DeepNarrowなモデルの優位性は他のNLPタスクで学習した場合や
ViTでFew-shot学習を行った場合においても観察された.
4
3 背景
言語モデルにおけるべき乗則(Scaling law)
Transformer言語モデルにおいて,
言語モデルの損失とその他のパラメータの
関係を検証
言語モデルのクロスエントロピー損失Lと
計算能力C,データセットサイズD,
パラメータ数Nの間でべき乗則が観察された
*べき乗則…ある観測量が別の観測量の対数
に比例する
モデルの形状の影響は軽微
5
出典: https://arxiv.org/pdf/2001.08361.pdf
3 背景
より最適なべき乗則
一定の計算予算において言語モデリングを
学習するのに最適なモデルのパラメータを検証
前述のべき乗則ではモデルサイズに対し
データセットが不足しており,
モデルサイズと学習トークン数は等しい割合で
拡張されるべきと主張
提案したモデルChinchillaは既存のモデルより
少ないパラメータで多くのデータを学習する
ことで,性能が上回る
6
出典: https://arxiv.org/pdf/2203.15556.pdf
4 問題意識
7
べき乗則においていまだ不明な点は存在する
性能はモデルサイズによってスケールする
→固定された比率でスケールさせるべきなのか?
上流の性能がべき乗則に従う
→下流タスクでの性能は上流のべき乗則に従うのか?
5 実験
8
多様な形状のモデルについて、上流と下流でのタスクの性能を検証
T5ベースアーキテクチャの様々なモデルサイズで
層の深さなどモデルの形状を変化させたモデルでの
性能を検証する.
Ex. NL16-Base
上流
C4で学習した言語モデリングタスクでの損失
下流
GLUE / SuperGLUE / SQuADでの正解率
5 実験
上流タスクでの性能は下流タスクでの性能を保証しない
9
パラメータ数と上流,下流それぞれの
性能をプロットしたのが右図
上流での性能はモデルサイズと
強い相関があるのに対し、
SuperGLUEでの微調整後の下流の
性能では相関は消失する
形状設定が適切でない場合には,
下流のタスクでの性能が著しく
低下する場合も存在するため,
事前学習による損失は
誤解を招く可能性がある.
5 実験
モデルのアーキテクチャパラメータの与える下流タスクへの影響は異なる
10
モデルの次元(DM),隠れ層の次元(FF),
ヘッド数(NH),レイヤー数(NL)を
それぞれ操作した際の
上流と下流での性能を調査.
上流と下流でスケーリングの効果が異なる
場合が存在する.(ex. FF2K, NH8)
レイヤー数(NL)は隠れ層の次元(FF)より
も性能に対して効率的に寄与する.
→DeepNarrow(深くて次元が狭い)な
モデルが(パレート)効率的?
5 実験
DeepNarrowモデルは効率的に同性能を達成できる
11
モデルの深さを優先的に増やした
DeepNarrowなモデルとそれより一段階
パラメータ数の大きいモデルの性能を評価.
モデルの深さを優先的に増やした
DeepNarrowなモデルは少ないパラメータ,
少ない計算量,早い速度でそうでないモデルと
同程度の性能を達成できる.
Ex. 標準的なXLモデルを,
36層のlargeモデルで62%のパラメータ節約し,
2倍に高速化し,低いFLOPsコストで
アウトパフォームすることができる.
5 実験
深さによる効率性の向上にも限界は存在する
12
深さを増やした場合のスモールモデル,
ベースモデル,ラージモデルの性能の
推移をプロットしたのが右図.
深さを増やしたモデルは
そうでないモデルよりもパレート効率的
であるが,徐々にその効果は先細り
していき,32~36層程度で収束する.
多層化による勾配消失は本実験では
見られなかったらしい
6 追加実験
他のNLPタスクでもDeepNarrowなモデルの優位性は観察できる
13
同様のことが他のデータセットでも生じるか
確認するため,
DeepNarrowなT5スモールモデルと
T5ベースモデルで12種類のNLPのタスクに
ファインチューニングを行った結果を示す.
DeepNarrowなT5スモールモデルは
T5ベースモデルと比較して14%少ないパラ
メータと10%少ないFLOPSを実現し,
12個のタスクのうち,11個のタスクでT5モ
デルを上回る,または同率のスコアを示す.
6 追加実験
ViTでもDeepNarrowなモデルの優位性は観察できる
14
同様のことが他のモダリティでも起こるかを
検証するため,ViTでの事前学習後の
Few-shot性能を比較.
DeepNarrowなViT-Sモデルは,
ViT-Bモデルと比較してより
良いパレート効率を示す.
特に、L = 24の場合,15%少ないパラメータ、
11%少ないFLOPsでより良いFew-shot精度
を達成した.
まとめ
15
• Transformer言語モデルでの上流で観察されるべき乗則が
下流のタスクにどのように影響するのかは不明であった.
• そこで多様な形状のT5ベースのモデルについて上流の言語モデリングと
下流でのタスクの性能を検証し,
上流タスクでの性能は下流タスクでの性能を保証しないことを示した
• また,下流タスクの性能はモデルの形状に影響を受け,層が深く幅が狭い
DeepNarrowなモデルの学習効率が優れていることも示した.
• DeepNarrowなモデルの優位性は他のNLPタスクで学習した場合や
ViTでFew-shot学習を行った場合においても観察された.
感想
16
確かにpplがそのまま下流タスクに反映されるとか,
モデル形状が下流に全く影響与えないとは考えにくい
評価の難しい対話モデルなどはpplを性能の指標とする場合もあったので,
良い言語モデルとはなんなのか考えさせられる
Decoderモデルだけでなく, Encoder-Decoderモデルでも上流ではべき乗則が見られたのは
少し面白い
上流と下流を対比したグラフとして、縦軸に性質の異なるメトリクスを使っているのは少しズルい?
DEEP LEARNING JP
[DL Papers]
“Grokking: Generalization Beyond Overfitting on Small
Algorithmic Datasets” (ICLR 2021 workshop)
Okimura Itsuki, Matsuo Lab, B4
http://deeplearning.jp/

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
【DL輪読会】Factory: Fast Contact for Robotic Assembly
【DL輪読会】Factory: Fast Contact for Robotic Assembly【DL輪読会】Factory: Fast Contact for Robotic Assembly
【DL輪読会】Factory: Fast Contact for Robotic Assembly
 

Similar a 【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers

グループディスカッションの巻
グループディスカッションの巻グループディスカッションの巻
グループディスカッションの巻
Takashi Abe
 

Similar a 【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers (16)

【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
 
【DL輪読会】Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs...
【DL輪読会】Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs...【DL輪読会】Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs...
【DL輪読会】Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs...
 
グループディスカッションの巻
グループディスカッションの巻グループディスカッションの巻
グループディスカッションの巻
 
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
 
Introduction of the_paper
Introduction of the_paperIntroduction of the_paper
Introduction of the_paper
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
20140801ACL2014読み会
20140801ACL2014読み会20140801ACL2014読み会
20140801ACL2014読み会
 
XP movement In Japan
XP movement In JapanXP movement In Japan
XP movement In Japan
 
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
"Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes""Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes"
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 

Más de Deep Learning JP

Más de Deep Learning JP (20)

【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 

Último

Último (11)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers