Publicidad
Publicidad

Más contenido relacionado

Similar a 【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production(CVPR 2022)(20)

Más de ARISE analytics(16)

Publicidad

Último(20)

【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production(CVPR 2022)

  1. Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production(CVPR 2022) ARISE analytics 近藤 真暉 特に注釈ない限り、画像は論文からの引用です 論文URL: https://openaccess.thecvf.com/content/CVPR2022/html/Saunders_Signing_at_Scale_Learning_t o_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.html
  2. 今、手話xCVがアツい? 1 手話に関する論文がまとめられたリポジトリ : https://github.com/ycmin95/awesome-Gesture-Sign-Language- Recognition CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向 ECCVではSLRTP(Sign Language Recognition,Translation&Production) Workshopも開催 ©2022 ARISE analytics Reserved. CVPR ECCV ICCV 合計 2018 1 0 - 1 2019 1 - 0 1 2020 2 4 - 6 2021 4 - 5 9 2022 5 ? - 5 0 1 2 3 4 5 6 7 8 9 10 2018 2019 2020 2021 2022 件数 年 ICCV ECCV CVPR CV系トップカンファレンス採択論文のうち、 タイトルに“Sign Language”が含まれる論文の件数 (ECCV,ICCVは隔年開催 ECCVの採択論文は資料作成視点でまだ未公開) ↑ BERT (ArXiv 2018) ↑ ViT (ArXiv 2020, ICLR 2021)
  3. 手話xCV @ CVPR 2022 ©2022 ARISE analytics Reserved. 2 "A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation" 手話認識向け転移学習の提案 "Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production" 語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】 "C2SLR: Consistency-Enhanced Continuous Sign Language Recognition" 表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上 "MLSLT: Towards Multilingual Sign Language Translation" 多言語手話データセットの収集とマルチリンガルな手話認識の提案 "Sign Language Video Retrieval With Free-Form Textual Queries" テキストを用いた手話映像検索システムの提案
  4. 本論文の概要 ©2022 ARISE analytics Reserved. 3 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳
  5. なぜ機械手話動画生成のニーズがあるのか? ©2022 ARISE analytics Reserved. 4 聴覚障害者と書記言語 手話と書記言語は文法・表現方法が大きく異なるため、手話を第一言語とする聴覚障害者が書記言語を 習得することはハードルが高い そのため「音声言語を書記言語に変換する」だけでは手話を第一言語とする聴覚障害者をカバーできない 手話通訳者と機械手話生成 手話通訳者(interpreter)による通訳はそれをカバーする手段だが、大きな手間がかかるため手軽な機 械手話動画生成のニーズが高い 特に緊急地震速報など手話通訳者が存在しない状況では、速報性を優先するため機械による手話生成が 求められる
  6. なぜ手話分析は難しいのか?① ©2022 ARISE analytics Reserved. 5 画像引用:https://www2.nhk.or.jp/signlanguage/wenquete.cgi?gid=2 複数モダリティの統合が必要 手形状・動き・口形に加え、CL(Classifire:相対的な位置情報)・NMS(Non-manual Signals: 表情等を用いた感情・文法表現)といった手話特有の要素が存在 → CV・NLP・3次元空間解析といった複数のML技術を統合しなければ処理できない高度タスク NHKの手話CG(手話話者のモーションをキャプチャしCG変換)
  7. なぜ手話分析は難しいのか?② ©2022 ARISE analytics Reserved. 6 画像引用:RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and Translation Corpus(LREC 2012) 大規模な汎用手話コーパスが存在しない 手話に対応した書記言語(※)が一般的に普及しておらず、手話動画へのアノテーションが困難→ 機械学習 に活用できる大規模コーパスが構築されていない 天気予報のコーパス (大規模コーパスは存在するものの、シーンが限定的) ※Glossと呼ばれる手話言語を文字表現で表したものは存在するが、書記言語では ない
  8. 先行研究 ©2022 ARISE analytics Reserved. 7 手話スケルトンの生成が中心で、写実的な手話生成までは行われていない 加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある 単語と単語の接続が無視されているため理解が難しい 画像引用:Neural Sign Language Synthesis: Words Are Our Glosses(WACV 2020) 単語と単語の接続を意識しているが、スケルトンのため写実的ではない 画像引用:Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)
  9. 本論文の概要・貢献 ©2022 ARISE analytics Reserved. 8 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳 【本論文の貢献】 ①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案 ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案 ③写実的な連続手話動画を生成するSignGANの提案 ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認
  10. 全体のアーキテクチャ ©2022 ARISE analytics Reserved. 9
  11. 全体のアーキテクチャ ©2022 ARISE analytics Reserved. 10 ①Text to Gloss ②Gloss to Pose ③Pose to Video
  12. Text to Gloss ©2022 ARISE analytics Reserved. 11 https://www.lifeprint.com/asl101/topics/gloss.htm テキストをGloss(ここではトークン)に変換 テキストと手話は文法が異なるため、異なる系列長への変換問題として扱う必要がある 今回は系列長U→系列長Zへの変換問題として扱う 𝑓𝑢 = 𝐸𝑛𝑐(𝑥𝑢) 𝑥𝑢 𝑧𝑤 : : : : 𝑥𝑈 𝑥𝑢+1 𝑓𝑢+1 = 𝐸𝑛𝑐(𝑥𝑢+1) Encoder Decoder 𝑧𝑤+1 : : : : 𝑧𝑊 𝑧0 <EOS> <BOS> 系列長Uのテキスト 系列長ZのGloss RNNのように前ステップの出力を再入力 することで異なる系列長を扱えるように する ※Gloss:手話言語を(無理やり)文字表現で表したもの。書記言語ではない。
  13. Gloss to Pose①(手話単語映像辞書の取り出し) ©2022 ARISE analytics Reserved. 12 ※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production via Progressive Transformers and Mixture Density Networks. 2021.】を用いてスケルトン情報を取得 Gloss(トークン)をもとに、対応付けられた手話単語映像辞書を取り出し Glossの系列長がWであれば、手話単語映像辞書の系列長もW 【手話単語辞書について】 ・辞書ごとに異なる系列長Pのスケルトン情報を格納※ ・人物はまちまち ・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能
  14. Gloss to Pose②(手話単語映像辞書の結合) ©2022 ARISE analytics Reserved. 13 辞書と辞書を結合し、連続した系列に変換するため隣接辞書の間を線形補完 事前に設定したフレーム長 で線形補完 最終的に長さQの系列 が得られる 𝑁𝐿𝐼 I = 𝐼1, 𝐼2, … , 𝐼𝑄 𝑁𝐿𝐼は今回の実験設定では5
  15. Gloss to Pose③(手話辞書系列の埋め込み表現獲得) ©2022 ARISE analytics Reserved. 14 Counter Embedding は 筆者の先行研究参照 Progressive Transformers for End-to-End Sign Language Production(ECCV 2020) 手話辞書系列の埋め込み特徴を獲得する 手話辞書ごとに異なるGloss Embedding 手話辞書ごとに異なるLocal Counter Embedding 全辞書で共通のGlobal Counter Embedding 【Counter Embedding】 各フレームI(スケルトン)が手話 単語映像辞書のどの位置にあるかを 示す特徴。テキストとは異なり、手 話表現は要素ごとに表現の長さが異 なるためこの特徴が必要 例:https://youtu.be/d5Res5POg10?t=475
  16. Gloss to Pose④(FS-Netを用いたフレーム選択) ©2022 ARISE analytics Reserved. 15 FS-Net(Frame Selection Network)を用いたフレーム選択を行う 冗長なフレームを除去し、映像を滑らかにする効果がある ここまでの処理により、なめらかな連続手話のスケルトン系列が得られる
  17. Pose to Video① SignGAN概要 ©2022 ARISE analytics Reserved. 16 スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換 StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入 単純なPose to Videoだと手話単語ごとに 人物が異なり違和感が生じる スタイル画像を用い人物指定することで 同一人物による手話映像系列が生成される
  18. Pose to Video② Hand keypoint loss ©2022 ARISE analytics Reserved. 17 適切な手指表現になるようHand keypoint lossを導入 生成画像ごとに手指表現がぶれないようにする効果がある 手話は手指の動きが多くぶれやすいため、手指画像をHand Keypointに変換し損失を算出 実画像のHand Keypoint 生成画像のHand Keypoint Keypointを対象 に GANと同等の 損失関数を設計
  19. Pose to Video③ Hand keypoint loss がないとどうなる? ©2022 ARISE analytics Reserved. 18 画像生成でよくある例 指がない 引用) https://pbs.twimg.com/media/FcSVAruakAAIxGq?format=jpg&name=900x900 指のスキマから指が生えている 引用) https://pbs.twimg.com/media/ FcaQJUFaIAEQngZ?format=jpg &name=large 手がふたつある 引用) https://pbs.twimg.com/media/Fc GgCT_aMAQi- 7T?format=png&name=900x900
  20. Pose to Video④ 全体のLoss設計 ©2022 ARISE analytics Reserved. 19 GAN Loss マルチスケールに対応した以外はGANのいつもの損 失関数 これがなければGANではない VGG Loss 学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を lossとする 鮮明な画像を生成する効果がある Hand Key Point Loss 手指のボーン情報が本物かニセモノかを判定する 指の本数が変動しない一貫した手指画像を生成する効果がある Feature-Matching loss 生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるよ うに設計 同一画像が大量に生成されるモード崩壊を防ぐ効果がある
  21. 生成結果 ©2022 ARISE analytics Reserved. 20
  22. 実験 ©2022 ARISE analytics Reserved. 21 DGS Corpus & Dicta-Sign: The Hamburg Studio Setup(CSLT 2010) データセット Meine DGS (mDGS) コーパス 人数:330人のろう者 形式:自由形式の手話 言語:ドイツ手話 語彙数:10042語 フリートークを①ドイツ語の文章、②Gloss、③手話動画で構成される40,230のセグメントに分割 同一意味の異なる表現を含む mDGS-V と、同一意味の異なる表現を含まない mDGS を用意 追加データセット RWTH-PHOENIX-Weather 2014 T:ドイツの手話通訳付きニュース・天気予報 CSL-Daily:スタジオで収録された中国手話の日常会話 C4A dataset : 多様な手話通訳者が含まれる高画質データセット。写実画像生成に使う こんな感じのところで対面で座り、 フリートークで撮影
  23. 実験 ©2022 ARISE analytics Reserved. 22 実験パラメタ Text to Gloss:2層・隠れ層128次元・4ヘッドのNN FS-Net:2層・隠れ層64次元・4ヘッドのNN 補完フレーム数𝑁𝐿𝐼:5 学習率:10^-3 評価指標 BLEU-4:生成結果のN-Gramが正解に含まれる割合(Precision) ROUGE:正解のN-Gramが生成結果に含まれる割合(Recall)
  24. 実験① Text to Gloss ©2022 ARISE analytics Reserved. 23 ドメインが限定的なPHOENIX14T(天気予報)データセットでは、Data Augmentationを使わない既 存手法に対し優位性を確認 ドメインの制約がないmDGS-VおよびmDGSデータセットではスコアが低く、大規模語彙への対応の必要性 が示唆されている ベースライン: BLEU-4 : 20.23(PHOENIX14T) BLEU-4 : 23.17(PHOENIX14T + Data Augmentation)
  25. 実験② Gloss to Pose – 定量評価 ©2022 ARISE analytics Reserved. 24 生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価する(Back Translation)。 手話翻訳モデルの翻訳結果を用い、BLEU-4とROUGEで評価 既存手法に対する有効性とFS-Netによる冗長フレーム除去の有効性を確認 FS-Netによる 冗長フレームの除去を 行わないケース 生成スケルトンを 使って モデル学習
  26. 実験② Gloss to Pose – 定性評価① ©2022 ARISE analytics Reserved. 25 手話ユーザ10名(うち2名は聴覚障害者)による相対評価 スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理解しやすいかを 確認 両方のデータセットで、FS-Netのほうが理解しやすいと答えた人がほとんど 動画中で用いられている5つの手話単語を当てるタスクでも、平均4.8個の正解率
  27. 実験② Gloss to Pose – 定性評価② ©2022 ARISE analytics Reserved. 26 手話単語のつなぎがどれくらい自然かを評価 FS-Netにより生成された動画と、孤立した辞書シーケンス動画(Isolated)を比較 トリムしない場合はFS-Netのほうが自然、トリムした場合は同程度という結果
  28. 実験③ Pose to Video – 定量評価 ©2022 ARISE analytics Reserved. 27 以下の評価指標を用いてSignGANを評価 1) SSIM: 画像の品質評価に用いる指標。生成画像と正解画像の輝度・コントラスト・構造を比較することで算出。 2) Hand SSIM: SSIMを手に対して算出したもの。 3) Hand Pose: 生成画像と正解画像の Hand Keypoint の距離差。手位置のずれを評価する。 4) FID:画像の品質評価に用いる指標。生成画像の分布と実画像の分布の差を示す。 C4Aデータセットを用いた評価において有効性を確認。特にHand SSIMとHand PoseはHand Keypoint Loss が効いた
  29. 実験③ Pose to Video – 定性評価 ©2022 ARISE analytics Reserved. 28 生成動画を48人の被験者(うち28%が手話話者)に視聴してもらい、写実性を評価 SignGANのほうが良いと答えた被験者の割合を測定。すべてのベースラインに対し、8割以上の被験者が SignGANのほうが写実性が高いと評価
  30. 実験③ Pose to Video – 定性評価② ©2022 ARISE analytics Reserved. 29 スケルトン動画と生成動画を聴覚障害者に視聴してもらい、どちらが理解しやすいかを5段階で確認 スケルトン動画:3.2 生成動画:3.9 今回生成した写実的な動画は、スケルトン動画よりも理解度が向上することが示された
  31. まとめ ©2022 ARISE analytics Reserved. 30 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの写実的な連続手話動画の生成・翻訳 【本論文の貢献】 ①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案 ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案 ③写実的な連続手話動画を生成するSignGANの提案 ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認
  32. Best Partner for innovation, Best Creator for the future.
Publicidad