SlideShare una empresa de Scribd logo
1 de 41
Descargar para leer sin conexión
Mobility Technologies Co., Ltd.
Teslaにおけるコンピュータビジョン技術の調査
2022/1/7
Mobility Technologies 宮澤 一之
Mobility Technologies Co., Ltd.
宮澤 一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw
Mobility Technologies Co., Ltd.
3
2014年10月:Autopilot誕生
2015年10月:「バージョン7.0」リリース
2016年01月:Summonベータ版をリリース
2016年10月:第2世代のハードウェアを全車種搭載へ
2018年10月:Autopilotにナビゲーション機能追加
2019年09月:Smart Summon機能リリース
2020年10月:FSDベータ版提供開始
2021年05月:レーダー廃止
2021年10月:FSD最新版リリース
自動運転に関するTeslaの歴史
https://jidounten-lab.com/u_tesla-history#20215LiDAR より抜粋・編集
Mobility Technologies Co., Ltd.
Autopilot
● Traffic-Aware Cruise Control: Matches the speed of your car to that of the surrounding traffic
● Autosteer: Assists in steering within a clearly marked lane, and uses traffic-aware cruise control
Full Self-Driving Capability
● Navigate on Autopilot (Beta): Actively guides your car from a highway’s on-ramp to off-ramp, including suggesting lane
changes, navigating interchanges, automatically engaging the turn signal and taking the correct exit
● Auto Lane Change: Assists in moving to an adjacent lane on the highway when Autosteer is engaged
● Autopark: Helps automatically parallel or perpendicular park your car, with a single touch
● Summon: Moves your car in and out of a tight space using the mobile app or key
● Smart Summon: Your car will navigate more complex environments and parking spaces, maneuvering around objects as
necessary to come find you in a parking lot.
● Traffic and Stop Sign Control (Beta): Identifies stop signs and traffic lights and automatically slows your car to a stop
on approach, with your active supervision
● Upcoming:
○ Autosteer on city streets
AutopilotとFSD (Full Self-Driving)
4
https://www.tesla.com/support/autopilot
Mobility Technologies Co., Ltd.
車両センサ構成(カメラ x 8、超音波 x 12)
5
https://www.tesla.com/autopilot
Mobility Technologies Co., Ltd.
“LiDARは無駄な努力だ。LiDARに頼っている人たちに明日はない。将来性がないんだよ。
高価なセンサーだし、そもそもあんなものは要らない。高価な盲腸がたくさんある人と同
じだ。盲腸は1つでも要らない。それを、たくさん身につけているんだ。滑稽だよね” - イー
ロン・マスク
■ コストが高い
■ カメラに比べて情報量が少ない
■ 人間は視覚だけで運転できる
■ HD Mapに頼り、LiDARで自己位置推定するアプローチはスケールしない(世界中で高
精度なHD Mapを作り、メンテし続けることは非現実的)
TeslaがLiDARを使わない理由
6
https://jp.techcrunch.com/2019/04/23/2019-04-22-anyone-relying-on-lidar-is-doomed-elon-musk-says/
Mobility Technologies Co., Ltd.
■ 2016年まではMobileyeがTeslaにビジョン用プロセッサを提供
■ 2016年5月に発生したAutopilot中の死亡事故を受け、契約を解消
■ 2016年にJim KellerがVice President of Autopilot Hardware Engineeringに就任
■ 2017年にAndrej KarpathyがDirector of AI and Autopilot Visionに就任
ビジョン技術の内製化
7
Mobility Technologies Co., Ltd.
Andrej Karparthy
8
https://karpathy.medium.com/
https://karpathy.ai/
Mobility Technologies Co., Ltd.
■ TeslaにおけるCV技術について、Andrej Karpathy氏らの以下講演を抜粋・要約
2021 Tesla: Tesla AI Day
2021 CVPR: Workshop on Autonomous Driving
2020 ScaledML: AI for Full Self-Driving @ ScaledML
2019 Tesla: Tesla Autonomy Day
■ 主に以下3つの観点で要約
1. データ
2. ソフトウェア (Neural Nets)
3. ハードウェア
本資料について
9
Mobility Technologies Co., Ltd.
1 データ
10
Secret
Mobility Technologies Co., Ltd.
11
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s
Mobility Technologies Co., Ltd.
ユーザ車両からのデータ収集
12
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s
■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集
■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集
■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加
■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
Mobility Technologies Co., Ltd.
事例1:標識検出
13
■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある
■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠
された標識の画像を大量に自動収集して学習データセットに加える
https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s
Mobility Technologies Co., Ltd.
■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題
■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発
■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして100万映像
(1.5ペタバイト)を収集
事例2:レーダーの廃止
14
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s
Mobility Technologies Co., Ltd.
■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測
が可能となった
■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って
検証を実施
事例2:レーダーの廃止
15
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s
Mobility Technologies Co., Ltd.
■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発
■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正
■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用
■ 未来情報(hindsight)の活用
■ 同一箇所を走行した複数車両のデータを統合
アノテーション
16
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s
Mobility Technologies Co., Ltd.
4次元空間でのアノテーション
17
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s
��
Mobility Technologies Co., Ltd.
複数車両のデータの統合
18
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5415s
��
Mobility Technologies Co., Ltd.
■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成
■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上
■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる
■ より写実的なレンダリングのため、ニューラルレンダリングも活用
シミュレーションの活用
19
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s
Mobility Technologies Co., Ltd.
2 ソフトウェア (Neural Nets)
20
Mobility Technologies Co., Ltd.
■ 8つのカメラからはそれぞれ1280 x 960@36Hz (12bit/pixel) の映像が得られる
■ backboneには速度と精度のバランスが取れたRegNetを用い、BiFPNでマルチスケールの特徴を抽出
■ backboneを共通化し、タスクごとにヘッドを用意したHydraNetを構成することで推論を効率化すると共に複数人で
の並列開発を実現
各カメラに対する処理
21
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3129s
Mobility Technologies Co., Ltd.
■ HydraNetは1000種類のテンソルを出力し、学習には7万GPU時間を要する
■ 20人程度のエンジニアでメンテ
■ cookiecutterライクに生成した雛形をベースにすることで、エンジニアを介さない自動的なワークフローで新たなタ
スクをネットワークに追加することが可能
開発の効率化
22
https://www.youtube.com/watch?v=hx7BXih7zx8t=881s
Mobility Technologies Co., Ltd.
■ 8個のカメラそれぞれでの推論結果を最後にフュージョンするのでは十分な精度が得られない
■ 推論結果のフュージョンのためには複雑かつ手動でのチューニングが必要となる
複数カメラのフュージョン
23
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3420s
Mobility Technologies Co., Ltd.
■ Transformerにより複数カメラの特徴をフュージョン
■ 出力空間(BEV)をラスタライズしてpositional encodingを生成し、MLPを通してqueryを得る
■ 各カメラの特徴からkeyとvalueを生成し、Transformerにより特徴のフュージョンとBEV変換を実施
複数カメラのフュージョン
24
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3555s
Mobility Technologies Co., Ltd.
特徴空間でのフュージョンの効果
25
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3754s
出力空間でのフュージョン 特徴空間でのフュージョン
��
Mobility Technologies Co., Ltd.
特徴空間でのフュージョンの効果
26
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3783s
��
Mobility Technologies Co., Ltd.
■ 他車両の速度などの推測のためには時間方向の情報が必要となる
■ 適切な進路決定のためには、過去に見た標識や路面標示を覚えておく必要がある
■ フュージョンした複数カメラの特徴量をキューに保存することで過去の情報を参照できるようにする
■ 保存した特徴量をビデオモジュール(後述)に入力し、最後尾にあるヘッドが利用する特徴量を生成
時間方向の情報活用
27
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3830s
Mobility Technologies Co., Ltd.
■ time-basedとspace-basedの両方でプッシュのタイミングを決定
■ time-basedでは一定時間(例:27ms)おきに特徴をプッシュすることで一時的なオクルージョンなどに対応
■ space-basedでは一定距離(例:1m)おきに特徴をプッシュすることで過去の標識や路面表示などを記憶
特徴キューにプッシュするタイミング
28
https://www.youtube.com/watch?v=j0z4FweCy4M&t=3895s
Mobility Technologies Co., Ltd.
■ ビデオモジュールには3D CNNやTransformerも検討したが、最終的にSpatial RNNを採用
■ 車両が移動する2次元平面に相当するメモリを持ち、車両の運動に併せて車両近傍の特徴量だけを更新
■ ニューラルネットは現在の状況に応じて適切にメモリの読み書きを行う(例えば自車両の右側が他車両で隠されてい
た場合はその部分の特徴量を更新しないなど)
ビデオモジュール
29
https://www.youtube.com/watch?v=j0z4FweCy4M&t=4031s
Mobility Technologies Co., Ltd.
ビデオモジュールの効果
30
https://www.youtube.com/watch?v=j0z4FweCy4M&t=4175s
��
Mobility Technologies Co., Ltd.
■ 各カメラの画像をシンプルな単一ネッ
トワークで個別に処理していた状態
から3、4年でここまで成長
■ 今後の改善としては、時空間方向の
特徴量フュージョンをさらに早い段階
で実施することや、最終的な出力
データをよりsparseにしてエッジ処理
におけるレイテンシを小さくすることな
どが挙げられる
アーキテクチャ全体像
31
https://www.youtube.com/watch?v=j0z4FweCy4M&t=4280s
Mobility Technologies Co., Ltd.
ハードウェア
3
32
Mobility Technologies Co., Ltd.
■ 車両でのエッジ推論にはFSD Chipと呼ぶ自社開発の車載チップを利用
■ 2021年6月時点の情報では、学習用のスパコンはNVIDIA A100を5760基搭載したものだった(世界5位程度)
内製車載チップとオンプレスパコン(2021年6月時点)
33
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1173s
Mobility Technologies Co., Ltd.
■ 面積の100%を機械学習とIOが占める専用チップとしてD1 Chipを自社開発
■ D1 Chip内部には1024 GFLOPsのトレーニングノード(64 bitスーパースカラCPU)が354基
■ 新たなフォーマットとしてCFP8(Configurable fp8)を提案*
■ GPUレベルの計算能力、CPUレベルのフレキシビリティ、IO帯域は最新ネットワークスイッチチップの2倍
Dojo(2021年8月発表)
34
https://www.youtube.com/watch?v=j0z4FweCy4M&t=6788s
* https://tesla-cdn.thron.com/static/SBY4B9_tesla-dojo-technology_OPNZ0M.pdf
Mobility Technologies Co., Ltd.
■ D1 Chipを25個並べたTraining Tileがクラスタの1ユニットとなる
■ マルチチップモジュールとしてはおそらく世界最大
■ 演算能力は9 PFLOPs(BF16/CFP8)
Dojo(2021年8月発表)
35
https://www.youtube.com/watch?v=j0z4FweCy4M&t=6923s
Mobility Technologies Co., Ltd.
■ Training Tileを並べたTraining Matrixをさらに並べることで、D1 ChipのクラスタであるExaPODを構築
■ 100万以上のトレーニングノードを持ち演算能力は1 E(エクサ)FLOPを超える
Dojo(2021年8月発表)
36
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7154s
Mobility Technologies Co., Ltd.
■ ユーザが必要とする計算能力に応じてクラスタをDPU(Dojo Processing Unit)と呼ぶ仮想ユニットに分割
■ PyTorchのコードでGPUを指定していた箇所を”dojo”に置き換えるだけでDPUが利用可能
■ コンパイラのバックエンドにはLLVMを利用
Dojo(2021年8月発表)
37
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7239s
Mobility Technologies Co., Ltd.
■ Dojoは2022年稼働予定(ソフトウェアチームが既存のGPUクラスタをturn offするのがゴール)
■ 次世代は10倍の改善を目指す
Dojo(2021年8月発表)
38
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7450s
Mobility Technologies Co., Ltd.
39
One more thing...
Mobility Technologies Co., Ltd.
■ FSDの開発で培った技術を流用してヒューマノイドロボットを開発
■ 人間の物理的な労働の置き換えを狙う
■ 2022年中にプロトタイプを開発
Tesla Bot
40
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7514s
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
41

Más contenido relacionado

La actualidad más candente

これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況Deep Learning JP
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向nlab_utokyo
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争Yosuke Shinya
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピTakahiro Kubo
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerYasutomo Kawanishi
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A SurveyDeep Learning JP
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 

La actualidad más candente (20)

これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by Transformer
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 

Similar a Teslaにおけるコンピュータビジョン技術の調査

MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionKazuyuki Miyazawa
 
Microsoft Intelligent Data Platform -データ活用のための最新技術-
Microsoft Intelligent Data Platform -データ活用のための最新技術-Microsoft Intelligent Data Platform -データ活用のための最新技術-
Microsoft Intelligent Data Platform -データ活用のための最新技術-Daiyu Hatakeyama
 
.NET の過去、現在、そして未来
.NET の過去、現在、そして未来.NET の過去、現在、そして未来
.NET の過去、現在、そして未来Akira Inoue
 
IoTシステム構築の困り事から逆引き「SORACOM 全サービス解説」 | SORACOM Technology Camp 2020
IoTシステム構築の困り事から逆引き「SORACOM 全サービス解説」 | SORACOM Technology Camp 2020IoTシステム構築の困り事から逆引き「SORACOM 全サービス解説」 | SORACOM Technology Camp 2020
IoTシステム構築の困り事から逆引き「SORACOM 全サービス解説」 | SORACOM Technology Camp 2020SORACOM,INC
 
Java で開発する Azure Web Apps アプリケーション
Java で開発する Azure Web Apps アプリケーションJava で開発する Azure Web Apps アプリケーション
Java で開発する Azure Web Apps アプリケーション彰 村地
 
Microsoft AI Platform ビジネスでAI活用するヒント
Microsoft AI Platform ビジネスでAI活用するヒントMicrosoft AI Platform ビジネスでAI活用するヒント
Microsoft AI Platform ビジネスでAI活用するヒントDaiyu Hatakeyama
 
Work Automate with Power Automate
Work Automate with Power AutomateWork Automate with Power Automate
Work Automate with Power AutomateTomoyuki Obi
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーNVIDIA Japan
 
Azure の App Center でアプリの 使用状況を分析する
Azure の App Center でアプリの 使用状況を分析するAzure の App Center でアプリの 使用状況を分析する
Azure の App Center でアプリの 使用状況を分析するYusuke Kojima
 
Azure のApp Center でアプリの 使用状況を分析する
Azure のApp Center でアプリの 使用状況を分析するAzure のApp Center でアプリの 使用状況を分析する
Azure のApp Center でアプリの 使用状況を分析するYusuke Kojima
 
de:code2018 登壇資料
de:code2018 登壇資料de:code2018 登壇資料
de:code2018 登壇資料Hiroshi Senga
 
AWS re:Inforce2019 re:Cap LT
AWS re:Inforce2019 re:Cap LTAWS re:Inforce2019 re:Cap LT
AWS re:Inforce2019 re:Cap LTHibino Hisashi
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility TechnologiesKazuyuki Miyazawa
 
insideAR 2013 報告会(技術編)
insideAR 2013 報告会(技術編)insideAR 2013 報告会(技術編)
insideAR 2013 報告会(技術編)Daisuke Nishioka
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出Tetsutaro Watanabe
 
Web App for Containers のデプロイでつまずいた話
Web App for Containers のデプロイでつまずいた話Web App for Containers のデプロイでつまずいた話
Web App for Containers のデプロイでつまずいた話Shigenari Ohnuma
 
M5Stackで作るテストツール
M5Stackで作るテストツールM5Stackで作るテストツール
M5Stackで作るテストツールKenta Harada
 

Similar a Teslaにおけるコンピュータビジョン技術の調査 (20)

MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
Microsoft Intelligent Data Platform -データ活用のための最新技術-
Microsoft Intelligent Data Platform -データ活用のための最新技術-Microsoft Intelligent Data Platform -データ活用のための最新技術-
Microsoft Intelligent Data Platform -データ活用のための最新技術-
 
.NET の過去、現在、そして未来
.NET の過去、現在、そして未来.NET の過去、現在、そして未来
.NET の過去、現在、そして未来
 
IoTシステム構築の困り事から逆引き「SORACOM 全サービス解説」 | SORACOM Technology Camp 2020
IoTシステム構築の困り事から逆引き「SORACOM 全サービス解説」 | SORACOM Technology Camp 2020IoTシステム構築の困り事から逆引き「SORACOM 全サービス解説」 | SORACOM Technology Camp 2020
IoTシステム構築の困り事から逆引き「SORACOM 全サービス解説」 | SORACOM Technology Camp 2020
 
Java で開発する Azure Web Apps アプリケーション
Java で開発する Azure Web Apps アプリケーションJava で開発する Azure Web Apps アプリケーション
Java で開発する Azure Web Apps アプリケーション
 
Microsoft AI Platform ビジネスでAI活用するヒント
Microsoft AI Platform ビジネスでAI活用するヒントMicrosoft AI Platform ビジネスでAI活用するヒント
Microsoft AI Platform ビジネスでAI活用するヒント
 
Work Automate with Power Automate
Work Automate with Power AutomateWork Automate with Power Automate
Work Automate with Power Automate
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
 
Azure の App Center でアプリの 使用状況を分析する
Azure の App Center でアプリの 使用状況を分析するAzure の App Center でアプリの 使用状況を分析する
Azure の App Center でアプリの 使用状況を分析する
 
Azure のApp Center でアプリの 使用状況を分析する
Azure のApp Center でアプリの 使用状況を分析するAzure のApp Center でアプリの 使用状況を分析する
Azure のApp Center でアプリの 使用状況を分析する
 
20180119_5_IoT Update_20180119
20180119_5_IoT Update_2018011920180119_5_IoT Update_20180119
20180119_5_IoT Update_20180119
 
de:code2018 登壇資料
de:code2018 登壇資料de:code2018 登壇資料
de:code2018 登壇資料
 
G空間情報シンポ 20161122 v1.1
G空間情報シンポ 20161122 v1.1G空間情報シンポ 20161122 v1.1
G空間情報シンポ 20161122 v1.1
 
AWS re:Inforce2019 re:Cap LT
AWS re:Inforce2019 re:Cap LTAWS re:Inforce2019 re:Cap LT
AWS re:Inforce2019 re:Cap LT
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
insideAR 2013 報告会(技術編)
insideAR 2013 報告会(技術編)insideAR 2013 報告会(技術編)
insideAR 2013 報告会(技術編)
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出
 
Web App for Containers のデプロイでつまずいた話
Web App for Containers のデプロイでつまずいた話Web App for Containers のデプロイでつまずいた話
Web App for Containers のデプロイでつまずいた話
 
M5Stackで作るテストツール
M5Stackで作るテストツールM5Stackで作るテストツール
M5Stackで作るテストツール
 
Aws summit tokyo 2016
Aws summit tokyo 2016Aws summit tokyo 2016
Aws summit tokyo 2016
 

Más de Kazuyuki Miyazawa

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...Kazuyuki Miyazawa
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact DetectionKazuyuki Miyazawa
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 

Más de Kazuyuki Miyazawa (10)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 

Teslaにおけるコンピュータビジョン技術の調査

  • 1. Mobility Technologies Co., Ltd. Teslaにおけるコンピュータビジョン技術の調査 2022/1/7 Mobility Technologies 宮澤 一之
  • 2. Mobility Technologies Co., Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw
  • 3. Mobility Technologies Co., Ltd. 3 2014年10月:Autopilot誕生 2015年10月:「バージョン7.0」リリース 2016年01月:Summonベータ版をリリース 2016年10月:第2世代のハードウェアを全車種搭載へ 2018年10月:Autopilotにナビゲーション機能追加 2019年09月:Smart Summon機能リリース 2020年10月:FSDベータ版提供開始 2021年05月:レーダー廃止 2021年10月:FSD最新版リリース 自動運転に関するTeslaの歴史 https://jidounten-lab.com/u_tesla-history#20215LiDAR より抜粋・編集
  • 4. Mobility Technologies Co., Ltd. Autopilot ● Traffic-Aware Cruise Control: Matches the speed of your car to that of the surrounding traffic ● Autosteer: Assists in steering within a clearly marked lane, and uses traffic-aware cruise control Full Self-Driving Capability ● Navigate on Autopilot (Beta): Actively guides your car from a highway’s on-ramp to off-ramp, including suggesting lane changes, navigating interchanges, automatically engaging the turn signal and taking the correct exit ● Auto Lane Change: Assists in moving to an adjacent lane on the highway when Autosteer is engaged ● Autopark: Helps automatically parallel or perpendicular park your car, with a single touch ● Summon: Moves your car in and out of a tight space using the mobile app or key ● Smart Summon: Your car will navigate more complex environments and parking spaces, maneuvering around objects as necessary to come find you in a parking lot. ● Traffic and Stop Sign Control (Beta): Identifies stop signs and traffic lights and automatically slows your car to a stop on approach, with your active supervision ● Upcoming: ○ Autosteer on city streets AutopilotとFSD (Full Self-Driving) 4 https://www.tesla.com/support/autopilot
  • 5. Mobility Technologies Co., Ltd. 車両センサ構成(カメラ x 8、超音波 x 12) 5 https://www.tesla.com/autopilot
  • 6. Mobility Technologies Co., Ltd. “LiDARは無駄な努力だ。LiDARに頼っている人たちに明日はない。将来性がないんだよ。 高価なセンサーだし、そもそもあんなものは要らない。高価な盲腸がたくさんある人と同 じだ。盲腸は1つでも要らない。それを、たくさん身につけているんだ。滑稽だよね” - イー ロン・マスク ■ コストが高い ■ カメラに比べて情報量が少ない ■ 人間は視覚だけで運転できる ■ HD Mapに頼り、LiDARで自己位置推定するアプローチはスケールしない(世界中で高 精度なHD Mapを作り、メンテし続けることは非現実的) TeslaがLiDARを使わない理由 6 https://jp.techcrunch.com/2019/04/23/2019-04-22-anyone-relying-on-lidar-is-doomed-elon-musk-says/
  • 7. Mobility Technologies Co., Ltd. ■ 2016年まではMobileyeがTeslaにビジョン用プロセッサを提供 ■ 2016年5月に発生したAutopilot中の死亡事故を受け、契約を解消 ■ 2016年にJim KellerがVice President of Autopilot Hardware Engineeringに就任 ■ 2017年にAndrej KarpathyがDirector of AI and Autopilot Visionに就任 ビジョン技術の内製化 7
  • 8. Mobility Technologies Co., Ltd. Andrej Karparthy 8 https://karpathy.medium.com/ https://karpathy.ai/
  • 9. Mobility Technologies Co., Ltd. ■ TeslaにおけるCV技術について、Andrej Karpathy氏らの以下講演を抜粋・要約 2021 Tesla: Tesla AI Day 2021 CVPR: Workshop on Autonomous Driving 2020 ScaledML: AI for Full Self-Driving @ ScaledML 2019 Tesla: Tesla Autonomy Day ■ 主に以下3つの観点で要約 1. データ 2. ソフトウェア (Neural Nets) 3. ハードウェア 本資料について 9
  • 10. Mobility Technologies Co., Ltd. 1 データ 10
  • 11. Secret Mobility Technologies Co., Ltd. 11 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s
  • 12. Mobility Technologies Co., Ltd. ユーザ車両からのデータ収集 12 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s ■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集 ■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集 ■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加 ■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
  • 13. Mobility Technologies Co., Ltd. 事例1:標識検出 13 ■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある ■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠 された標識の画像を大量に自動収集して学習データセットに加える https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s
  • 14. Mobility Technologies Co., Ltd. ■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題 ■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発 ■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして100万映像 (1.5ペタバイト)を収集 事例2:レーダーの廃止 14 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s
  • 15. Mobility Technologies Co., Ltd. ■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測 が可能となった ■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って 検証を実施 事例2:レーダーの廃止 15 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s
  • 16. Mobility Technologies Co., Ltd. ■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発 ■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正 ■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用 ■ 未来情報(hindsight)の活用 ■ 同一箇所を走行した複数車両のデータを統合 アノテーション 16 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s
  • 17. Mobility Technologies Co., Ltd. 4次元空間でのアノテーション 17 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s ��
  • 18. Mobility Technologies Co., Ltd. 複数車両のデータの統合 18 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5415s ��
  • 19. Mobility Technologies Co., Ltd. ■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成 ■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上 ■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる ■ より写実的なレンダリングのため、ニューラルレンダリングも活用 シミュレーションの活用 19 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s
  • 20. Mobility Technologies Co., Ltd. 2 ソフトウェア (Neural Nets) 20
  • 21. Mobility Technologies Co., Ltd. ■ 8つのカメラからはそれぞれ1280 x 960@36Hz (12bit/pixel) の映像が得られる ■ backboneには速度と精度のバランスが取れたRegNetを用い、BiFPNでマルチスケールの特徴を抽出 ■ backboneを共通化し、タスクごとにヘッドを用意したHydraNetを構成することで推論を効率化すると共に複数人で の並列開発を実現 各カメラに対する処理 21 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3129s
  • 22. Mobility Technologies Co., Ltd. ■ HydraNetは1000種類のテンソルを出力し、学習には7万GPU時間を要する ■ 20人程度のエンジニアでメンテ ■ cookiecutterライクに生成した雛形をベースにすることで、エンジニアを介さない自動的なワークフローで新たなタ スクをネットワークに追加することが可能 開発の効率化 22 https://www.youtube.com/watch?v=hx7BXih7zx8t=881s
  • 23. Mobility Technologies Co., Ltd. ■ 8個のカメラそれぞれでの推論結果を最後にフュージョンするのでは十分な精度が得られない ■ 推論結果のフュージョンのためには複雑かつ手動でのチューニングが必要となる 複数カメラのフュージョン 23 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3420s
  • 24. Mobility Technologies Co., Ltd. ■ Transformerにより複数カメラの特徴をフュージョン ■ 出力空間(BEV)をラスタライズしてpositional encodingを生成し、MLPを通してqueryを得る ■ 各カメラの特徴からkeyとvalueを生成し、Transformerにより特徴のフュージョンとBEV変換を実施 複数カメラのフュージョン 24 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3555s
  • 25. Mobility Technologies Co., Ltd. 特徴空間でのフュージョンの効果 25 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3754s 出力空間でのフュージョン 特徴空間でのフュージョン ��
  • 26. Mobility Technologies Co., Ltd. 特徴空間でのフュージョンの効果 26 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3783s ��
  • 27. Mobility Technologies Co., Ltd. ■ 他車両の速度などの推測のためには時間方向の情報が必要となる ■ 適切な進路決定のためには、過去に見た標識や路面標示を覚えておく必要がある ■ フュージョンした複数カメラの特徴量をキューに保存することで過去の情報を参照できるようにする ■ 保存した特徴量をビデオモジュール(後述)に入力し、最後尾にあるヘッドが利用する特徴量を生成 時間方向の情報活用 27 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3830s
  • 28. Mobility Technologies Co., Ltd. ■ time-basedとspace-basedの両方でプッシュのタイミングを決定 ■ time-basedでは一定時間(例:27ms)おきに特徴をプッシュすることで一時的なオクルージョンなどに対応 ■ space-basedでは一定距離(例:1m)おきに特徴をプッシュすることで過去の標識や路面表示などを記憶 特徴キューにプッシュするタイミング 28 https://www.youtube.com/watch?v=j0z4FweCy4M&t=3895s
  • 29. Mobility Technologies Co., Ltd. ■ ビデオモジュールには3D CNNやTransformerも検討したが、最終的にSpatial RNNを採用 ■ 車両が移動する2次元平面に相当するメモリを持ち、車両の運動に併せて車両近傍の特徴量だけを更新 ■ ニューラルネットは現在の状況に応じて適切にメモリの読み書きを行う(例えば自車両の右側が他車両で隠されてい た場合はその部分の特徴量を更新しないなど) ビデオモジュール 29 https://www.youtube.com/watch?v=j0z4FweCy4M&t=4031s
  • 30. Mobility Technologies Co., Ltd. ビデオモジュールの効果 30 https://www.youtube.com/watch?v=j0z4FweCy4M&t=4175s ��
  • 31. Mobility Technologies Co., Ltd. ■ 各カメラの画像をシンプルな単一ネッ トワークで個別に処理していた状態 から3、4年でここまで成長 ■ 今後の改善としては、時空間方向の 特徴量フュージョンをさらに早い段階 で実施することや、最終的な出力 データをよりsparseにしてエッジ処理 におけるレイテンシを小さくすることな どが挙げられる アーキテクチャ全体像 31 https://www.youtube.com/watch?v=j0z4FweCy4M&t=4280s
  • 32. Mobility Technologies Co., Ltd. ハードウェア 3 32
  • 33. Mobility Technologies Co., Ltd. ■ 車両でのエッジ推論にはFSD Chipと呼ぶ自社開発の車載チップを利用 ■ 2021年6月時点の情報では、学習用のスパコンはNVIDIA A100を5760基搭載したものだった(世界5位程度) 内製車載チップとオンプレスパコン(2021年6月時点) 33 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1173s
  • 34. Mobility Technologies Co., Ltd. ■ 面積の100%を機械学習とIOが占める専用チップとしてD1 Chipを自社開発 ■ D1 Chip内部には1024 GFLOPsのトレーニングノード(64 bitスーパースカラCPU)が354基 ■ 新たなフォーマットとしてCFP8(Configurable fp8)を提案* ■ GPUレベルの計算能力、CPUレベルのフレキシビリティ、IO帯域は最新ネットワークスイッチチップの2倍 Dojo(2021年8月発表) 34 https://www.youtube.com/watch?v=j0z4FweCy4M&t=6788s * https://tesla-cdn.thron.com/static/SBY4B9_tesla-dojo-technology_OPNZ0M.pdf
  • 35. Mobility Technologies Co., Ltd. ■ D1 Chipを25個並べたTraining Tileがクラスタの1ユニットとなる ■ マルチチップモジュールとしてはおそらく世界最大 ■ 演算能力は9 PFLOPs(BF16/CFP8) Dojo(2021年8月発表) 35 https://www.youtube.com/watch?v=j0z4FweCy4M&t=6923s
  • 36. Mobility Technologies Co., Ltd. ■ Training Tileを並べたTraining Matrixをさらに並べることで、D1 ChipのクラスタであるExaPODを構築 ■ 100万以上のトレーニングノードを持ち演算能力は1 E(エクサ)FLOPを超える Dojo(2021年8月発表) 36 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7154s
  • 37. Mobility Technologies Co., Ltd. ■ ユーザが必要とする計算能力に応じてクラスタをDPU(Dojo Processing Unit)と呼ぶ仮想ユニットに分割 ■ PyTorchのコードでGPUを指定していた箇所を”dojo”に置き換えるだけでDPUが利用可能 ■ コンパイラのバックエンドにはLLVMを利用 Dojo(2021年8月発表) 37 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7239s
  • 38. Mobility Technologies Co., Ltd. ■ Dojoは2022年稼働予定(ソフトウェアチームが既存のGPUクラスタをturn offするのがゴール) ■ 次世代は10倍の改善を目指す Dojo(2021年8月発表) 38 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7450s
  • 39. Mobility Technologies Co., Ltd. 39 One more thing...
  • 40. Mobility Technologies Co., Ltd. ■ FSDの開発で培った技術を流用してヒューマノイドロボットを開発 ■ 人間の物理的な労働の置き換えを狙う ■ 2022年中にプロトタイプを開発 Tesla Bot 40 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7514s