【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks

•Download as PPTX, PDF•

0 likes•342 views

Deep Learning JP

2022/9/9 Deep Learning JP http://deeplearning.jp/seminar-2/

Technology

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Transporters with Visual Foresight for Solving Unseen
Rearrangement Tasks
Koki Yamane, University of Tsukuba

書誌情報
2022/9/9 2
 題名
 Transporters with Visual Foresight for Solving Unseen Rearrangement
Tasks
 著者
 Hongtao Wu, Jikai Ye, Xin Meng, Chris Paxton, Gregory Chirikjian
 The Johns Hopkins University
 National University of Singapore
 NVIDIA
 会議: arXiv (2022, May)
 URL: https://arxiv.org/pdf/2202.10765.pdf

概要
 ゼロショットでのタスクの汎化
 未学習タスク
 長時間タスク
 木探索による未来予測
 画像予測モデル
 複数行動提案モジュール
 画像予測モデルの高効率学習
 FCNの平行移動等価性
 入力が平行移動すると出力も移動
2022/9/9 3
目標指定タスク計画により幅広い再配置タスクを実現

従来手法:
Transporter Networks (TN)
FCNの平行移動等価性を利用して高効率なpick-and-placeタスクの学習を実現
2022/9/9 4

従来手法:
Goal-Conditioned Transporter Networks (GCTN)
目標状態の入力を追加し非剛体物体に対応
2022/9/9 5

提案手法:
Transporters with Visual Foresight (TVF)
行動提案と画像予測による木探索
2022/9/9 6

提案手法:
画像予測モデル
 入力
 真上からのRGB-D 画像
 行動情報 (Pick-pose, Place-pose)
 出力
 次ステップの画像
 アーキテクチャ
 36層のFCN (Fully Convolutional Network)
2022/9/9 7
FCNにより次ステップの画像を予測
平行移動等価性による高効率学習

提案手法:
複数行動提案モジュール
2022/9/9 8
木探索のために複数の行動を提案
1. GCTNで行動価値マップを取得
2. 行動価値マップを閾値処理
3. K-Means クラスタリング
行動価値マップから数個の候補に絞り込み

実験（シミュレーション）
14 種類のブロック積みタスク (未学習含む)
2022/9/9 9
 シミュレータ: Ravens (pybulletベースのマニピュレータシミュレータ)
 ロボット: UR5 (吸引機構)
 データ数：1000

実験結果（シミュレーション）
2022/9/9 10
未学習のタスクでも高い成功率を達成
> 90%

実験（実世界）
6 種類のブロック積みタスク (未学習含む)
2022/9/9 11
 手法
 GCTN: Goal-Conditioned Transporter Networks (ベースライン)
 TVF: Transporters with Visual Foresight (提案手法)
 3 種類の学習タスクと 3 種類の未学習タスク
 3 種類のタスクに合計 30 回のデモ（1 タスク 10 回）
 各タスク 10 回の施行で検証

実験結果（実世界）
2022/9/9 12
実世界でも高い成功率を達成
未学習
タスク結果例

まとめ
2022/9/9 13
 複数行動提案と画像予測を繰り返すことにより行動とその結果を木探索
 画像予測モデルにFCNを使用し高効率の学習を実現
 未学習タスクに対して高い成功率を達成
 実世界のロボットで検証し高い成功率を実証

What's hot

Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術〜足りない情報をどのように補うか？〜SSII

[DL輪読会]1次近似系MAMLとその理論的背景Deep Learning JP

Optimizer入門＆最新動向Motokawa Tetsuya

GAN（と強化学習との関係）Masahiro Suzuki

SSII2022 [TS1] Transformerの最前線〜畳込みニューラルネットワークの先へ〜SSII

グラフィカルモデル入門Kawamoto_Kazuhiko

近年のHierarchical Vision TransformerYusuke Uchida

[DL輪読会]Learning to Simulate Complex Physics with Graph NetworksDeep Learning JP

機械学習による統計的実験計画（ベイズ最適化を中心に）Kota Matsui

Point netFujimoto Keisuke

【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)Deep Learning JP

画像処理AIを用いた異常検知Hideo Terada

【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi

[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida

ドメイン適応の原理と応用Yoshitaka Ushiku

SSII2020SS: 微分可能レンダリングの最新動向〜「見比べる」ことによる３次元理解〜SSII

深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma

強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe

What's hot (20)

Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術〜足りない情報をどのように補うか？〜

[DL輪読会]1次近似系MAMLとその理論的背景

Optimizer入門＆最新動向

GAN（と強化学習との関係）

SSII2022 [TS1] Transformerの最前線〜畳込みニューラルネットワークの先へ〜

グラフィカルモデル入門

近年のHierarchical Vision Transformer

[DL輪読会]Learning to Simulate Complex Physics with Graph Networks

機械学習による統計的実験計画（ベイズ最適化を中心に）

Point net

【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)

画像処理AIを用いた異常検知

【論文紹介】How Powerful are Graph Neural Networks?

[DL輪読会]ICLR2020の分布外検知速報

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料

ドメイン適応の原理と応用

SSII2020SS: 微分可能レンダリングの最新動向〜「見比べる」ことによる３次元理解〜

深層学習によるHuman Pose Estimationの基礎

強化学習と逆強化学習を組み合わせた模倣学習

Similar to 【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks

[CVPR2020読み会＠CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa

RobotPaperChallenge 2019-07robotpaperchallenge

【CVPR 2019】Do Better ImageNet Models Transfer Better?cvpaper. challenge

Vision and Language（メタサーベイ）cvpaper. challenge

You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida

論文 Solo Advent Calendar諒介荒木

先端技術とメディア表現　第4回レポートまとめDigital Nature Group

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge

コンピュータビジョンの研究開発状況cvpaper. challenge

ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東Yukiyoshi Sasao

PredCNN: Predictive Learning with Cascade Convolutionsharmonylab

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma

【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP

NVIDIA Seminar ディープラーニングによる画像認識と応用事例Takayoshi Yamashita

SSII2021 [SS1] Transformer x Computer Visionの実活用可能性と展望〜 TransformerのCompute...SSII

SfM Learner系単眼深度推定手法についてRyutaro Yamauchi

輪講スライド20220903.pptxnishimoto2

[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP

[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP

semantic segmentation サーベイyohei okawa

Similar to 【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks (20)

[CVPR2020読み会＠CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation

RobotPaperChallenge 2019-07

【CVPR 2019】Do Better ImageNet Models Transfer Better?

Vision and Language（メタサーベイ）

You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話

論文 Solo Advent Calendar

先端技術とメディア表現　第4回レポートまとめ

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...

コンピュータビジョンの研究開発状況

ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東

PredCNN: Predictive Learning with Cascade Convolutions

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

NVIDIA Seminar ディープラーニングによる画像認識と応用事例

SSII2021 [SS1] Transformer x Computer Visionの実活用可能性と展望〜 TransformerのCompute...

SfM Learner系単眼深度推定手法について

輪講スライド20220903.pptx

[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...

[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models

semantic segmentation サーベイ

Recently uploaded

スマートフォンを用いた新生児あやし動作の教示システムsugiuralab

論文紹介：Semantic segmentation using Vision Transformers: A surveyToru Tamaki

論文紹介：Automated Classification of Model Errors on ImageNetToru Tamaki

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami

論文紹介：Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki

TSAL operation mechanism and circuit diagram.pdftaisei2219

Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54

SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜スマートビルディング爆速開発を支える自動化テスト戦略Ryo Sasaki

Recently uploaded (9)

スマートフォンを用いた新生児あやし動作の教示システム

論文紹介：Semantic segmentation using Vision Transformers: A survey

論文紹介：Automated Classification of Model Errors on ImageNet

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介

論文紹介：Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...

TSAL operation mechanism and circuit diagram.pdf

Postman LT Fukuoka_Quick Prototype_By Daniel

SOPを理解する 2024/04/19 の勉強会で発表されたものです

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜スマートビルディング爆速開発を支える自動化テスト戦略

【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks

1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks Koki Yamane, University of Tsukuba

2. 書誌情報 2022/9/9 2  題名  Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks  著者  Hongtao Wu, Jikai Ye, Xin Meng, Chris Paxton, Gregory Chirikjian  The Johns Hopkins University  National University of Singapore  NVIDIA  会議: arXiv (2022, May)  URL: https://arxiv.org/pdf/2202.10765.pdf

3. 概要  ゼロショットでのタスクの汎化  未学習タスク  長時間タスク  木探索による未来予測  画像予測モデル  複数行動提案モジュール  画像予測モデルの高効率学習  FCNの平行移動等価性  入力が平行移動すると出力も移動 2022/9/9 3 目標指定タスク計画により幅広い再配置タスクを実現

4. 従来手法: Transporter Networks (TN) FCNの平行移動等価性を利用して高効率なpick-and-placeタスクの学習を実現 2022/9/9 4

5. 従来手法: Goal-Conditioned Transporter Networks (GCTN) 目標状態の入力を追加し非剛体物体に対応 2022/9/9 5

6. 提案手法: Transporters with Visual Foresight (TVF) 行動提案と画像予測による木探索 2022/9/9 6

7. 提案手法: 画像予測モデル  入力  真上からのRGB-D 画像  行動情報 (Pick-pose, Place-pose)  出力  次ステップの画像  アーキテクチャ  36層のFCN (Fully Convolutional Network) 2022/9/9 7 FCNにより次ステップの画像を予測平行移動等価性による高効率学習

8. 提案手法: 複数行動提案モジュール 2022/9/9 8 木探索のために複数の行動を提案 1. GCTNで行動価値マップを取得 2. 行動価値マップを閾値処理 3. K-Means クラスタリング行動価値マップから数個の候補に絞り込み

9. 実験（シミュレーション） 14 種類のブロック積みタスク (未学習含む) 2022/9/9 9  シミュレータ: Ravens (pybulletベースのマニピュレータシミュレータ)  ロボット: UR5 (吸引機構)  データ数：1000

10. 実験結果（シミュレーション） 2022/9/9 10 未学習のタスクでも高い成功率を達成 > 90%

11. 実験（実世界） 6 種類のブロック積みタスク (未学習含む) 2022/9/9 11  手法  GCTN: Goal-Conditioned Transporter Networks (ベースライン)  TVF: Transporters with Visual Foresight (提案手法)  3 種類の学習タスクと 3 種類の未学習タスク  3 種類のタスクに合計 30 回のデモ（1 タスク 10 回）  各タスク 10 回の施行で検証

12. 実験結果（実世界） 2022/9/9 12 実世界でも高い成功率を達成未学習タスク結果例

13. まとめ 2022/9/9 13  複数行動提案と画像予測を繰り返すことにより行動とその結果を木探索  画像予測モデルにFCNを使用し高効率の学習を実現  未学習タスクに対して高い成功率を達成  実世界のロボットで検証し高い成功率を実証

【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks

Similar to 【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks