Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

200906 language to network conditional parameter adaptation with natural language descriptions

994 visualizaciones

Publicado el

ACL2020オンライン勉強会における発表内容

Publicado en: Datos y análisis
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

200906 language to network conditional parameter adaptation with natural language descriptions

  1. 1. Language to Network: Conditional Parameter Adaptation with Natural Language Descriptions Kyoto September 6, 2020 株式会社エクサウィザーズ 藤井亮宏
  2. 2. STRICTLY CONFIDENTIAL | 2 自己紹介 名前 : 藤井亮宏(アキヒロ) 広島出⾝:18年 ⼤阪在住:12年 ExaWizardsにおける仕事内容 • Machine Learning Engineer • 主にDLを使っている • ML系のイベント主催 • ICLR, NeurIPS等の重要国際会議 • GAN等の⽣成モデルに絞った勉強会 @AkiraTOSEI @akihiro_f ML関係のことを投稿 論⽂の⼀⾔紹介とか
  3. 3. STRICTLY CONFIDENTIAL | 3 書誌情報
  4. 4. STRICTLY CONFIDENTIAL | 4 Summary この論文の概要は以下のとおり • 説明⽂を取り込むことで、学習時に使わなかった 未知カテゴリの画像を判別できる(zero shot学習) • 学習済みモデルのパラメータを、説明⽂を取り込む モデルで修正する。 • 階層的なTransformer Encoderで計算量を削減
  5. 5. STRICTLY CONFIDENTIAL | 5 導入 ImageNet等で学習したモデルを使っても、学習データに含まれない未知カテ ゴリのデータは判別できない 学習データに含まれるカテゴリ は判別できる ダルメシアン コンドル 0.91 0.01 0.01 0.01 0.00 バスタオル 映画館 ペルシャ猫 学習済み 学習データに含まれるカテゴリ は判別できない ダルメシアン0.01 0.01 0.01 0.01 0.00 ペルシャ猫 学習済み コンドル バスタオル 映画館
  6. 6. STRICTLY CONFIDENTIAL | 6 導入 人間は説明文をあたえられれば、未知カテゴリの画像でも相応しいカテゴリを 当て嵌めることができる カテゴリC の説明 カテゴリA の説明 カテゴリB の説明 カテゴリD の説明 カテゴリC! 未知カテゴリ の画像
  7. 7. STRICTLY CONFIDENTIAL | 7 導入 zero-shot学習の問題設定としては、「1つの未知カテゴリの画像と複数の未 知カテゴリの説明を与えられ、前述の画像のカテゴリを答える」というタスク カテゴリC の説明 カテゴリA の説明 カテゴリB の説明 カテゴリD の説明 未知カテゴリ の画像 Model cate B cate C 0.91 0.01 0.01 0.07 cate D cate A
  8. 8. STRICTLY CONFIDENTIAL | 8 導入 zero-shotをするためには、困難なポイントがある。 • 未知カテゴリへの対応 • ⻑い⽂書を読ませるは⾼コスト 機械学習モデルは通常学習したデータにしか 適応できないので、特別な機構が必要 先⾏研究では⻑い⽂書を使っていたが、現在のNLPの事実上の 標準となっているTransformer[4]を使おうと思うとかなりメモ リと計算量が⼤きくなる。
  9. 9. STRICTLY CONFIDENTIAL | 9 技術的なまとめ この論文では、以下のように問題にしてzero-shotを行う Neural Networks from Natural Language ( N3)を提案した。 • 未知カテゴリへの対応 • ⻑い⽂書を読ませるは⾼コスト 機械学習モデルは通常学習したデータにしか 適応できないので、特別な機構が必要 先⾏研究では⻑い⽂書を使っていたが、現在のNLPの事実上の 標準となっているTransformer[4]を使おうと思うとかなりメモ リと計算量が⼤きくなる。 学習済みモデルのパラメータをタスク⽤に修 正する戦略を提案 階層的に処理することでメモリ消費量と計算 量を削減
  10. 10. STRICTLY CONFIDENTIAL | 10 N3 zero-shot推論の流れ K個の未知カテゴリの説明を使って、未知画像を分類する。 説明⽂ x K個 修正パラメータ 学習済みモデル Chiwawa Husky GoldenRetriever 0.537 0.121 0.342 未知画像
  11. 11. STRICTLY CONFIDENTIAL | 11 モデルの全体図 N3モデルの詳細 カテゴリの 説明⽂ ① Layer1 Layer2 Layer3 学習済みモデル category 1 : 0.01 category 2 : 0.15 category 3 : 0.68 category N : 0.00 ① 階層的なTransformerで計算量を削減 する ② BERTを使って説明⽂の各tokenをベク トル化 ③ 学習済みモデルの各層のパラメータ 修正量を出⼒する ② ③ … 技術的なポイント
  12. 12. STRICTLY CONFIDENTIAL | 12 Transformer Encoder token同士の内積注意(dot product attention)を使った Transformer Encoderを用いている。 dot product Attentionの概念図 Transformer Encoder 内積注意の可視化結果 [4]より引⽤ Q K V
  13. 13. STRICTLY CONFIDENTIAL | 13 メモリ使用量と計算量の削減 階層構造を用いることで計算量を削減できる。 階層Transformer Encoder L : 説明⽂の最⼤⻑さ(token数、本稿では500) K : カテゴリ数(本稿では4) 各ラベルを1つのベクトルに集約 させる過程を⼊れる 計算量=(L*K)^2のオーダー L*Kのtoken L*Kのtoken 単純なTransformer Encoder 本稿だとL=500,K=4なのでO(4,000,000) ×K + 計算量=(L^2)*K + K^2のオーダー 本稿だとL=500,K=4なのでO(1,000,016)
  14. 14. STRICTLY CONFIDENTIAL | 14 BERTによるEmbedding 学習済みBERT[2]を使った分散表現を活用している。 BERTはマスク⾔語モデル(単語の⽳埋め問題)を解かせること で、双⽅向の情報を活かした分散表現獲得に成功している。 マスク⾔語モデルの例 BERTモデル概念図 ※TrmはTransformer Encoder ⾃⼰回帰⾔語モデルの例
  15. 15. STRICTLY CONFIDENTIAL | 15 パラメータ適用 学習済みモデルのパラメータに、N3モデルで出力した修正パラ メータを加算することで「パラメータ適用」を実現している。 Layer1 Layer2 Layer3 各層のパラメータに対する修正 項ΔΘを計算 (※CNNならフィルターと同じ形をもつ ⾏列を出⼒する) 学習済みモデルのパラメータΘ タスク修正パラメータΘ’を元パラメータ と修正パラメータの加算として表す。 ※μは学習可能パラメータ
  16. 16. Results
  17. 17. STRICTLY CONFIDENTIAL | 17 問題設定 データセット内部で学習・確認・テストに使うラベルを分割し、zero-shot学 習を行う。 ⿃のデータセットCUB-200でzero-shot学習を⾏った例 データセット全体で 200カテゴリ train: 100カテゴリ valid: 50カテゴリ test : 50カテゴリ それぞれのカテゴリに様々な種 類の⿃画像+説明⽂が紐づく The sage thrasher (Oreoscoptes montanus) is a medium-sized passerine bird from the family Mimidae, which also includes mockingbirds, tremblers, and New World catbirds. It is the only member of … 説明⽂ 画像
  18. 18. STRICTLY CONFIDENTIAL | 18 先行研究との比較 未知カテゴリ4値分類において、先行研究と比較し精度が上がっている。 SS:Standard Split. 普通の分割⽅法 PS : Proposed Split. test setにImageNetのカテゴリが⼊らないようにしたもの test時のカテゴリ数 50 10 40 10 評価⽅法:
  19. 19. STRICTLY CONFIDENTIAL | 19 可視化 単語ベースで判断根拠の可視化をすると、妥当な箇所に注目している。 ※BERTの表現ベクトルに対してGrad-CAMっぽいことをする
  20. 20. STRICTLY CONFIDENTIAL | 20 Embedding 埋め込みベクトルはBERTが一番よかった。
  21. 21. STRICTLY CONFIDENTIAL | 21 学習済みモデルと修正パラメータ 修正パラメータの使用係数の初期値を小さく設定すると良かった。 修正パラメータ学習済みモデル のパラメータ
  22. 22. STRICTLY CONFIDENTIAL | 22 Summary この論文の概要 • 説明⽂を取り込むことで、学習時に使わなかった 未知カテゴリの画像を判別できる(zero shot学習) • 学習済みモデルのパラメータを、説明⽂を取り込む モデルで修正する。 • 階層的なTransformer Encoderで計算量を削減
  23. 23. STRICTLY CONFIDENTIAL | 23 Refference 1. Tian Jin, Zhun Liu, Shengjia Yan, Alexandre Eichenberger, Louis- Philippe Morency. Language to Network: Conditional Parameter Adaptation with Natural Language Descriptions. ACL2020 2. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: pre-training of deep bidirectional transformers for language under- standing. CoRR, abs/1810.04805. 3. http://www.image-net.org/ 4. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS,

×