Enviar búsqueda
Cargar
Gpu vs fpga
•
34 recomendaciones
•
18,727 vistas
Yukitaka Takemura
Seguir
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 28
Descargar ahora
Descargar para leer sin conexión
Recomendados
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
Shinya Takamaeda-Y
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門
NVIDIA Japan
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Fixstars Corporation
すごい constexpr たのしくレイトレ!
すごい constexpr たのしくレイトレ!
Genya Murakami
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門
Norishige Fukushima
Gstreamer Basics
Gstreamer Basics
Seiji Hiraki
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
Norishige Fukushima
FPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみた
Takefumi MIYOSHI
Recomendados
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
Shinya Takamaeda-Y
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門
NVIDIA Japan
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Fixstars Corporation
すごい constexpr たのしくレイトレ!
すごい constexpr たのしくレイトレ!
Genya Murakami
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門
Norishige Fukushima
Gstreamer Basics
Gstreamer Basics
Seiji Hiraki
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
Norishige Fukushima
FPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみた
Takefumi MIYOSHI
モデル高速化百選
モデル高速化百選
Yusuke Uchida
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
一路 川染
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
MITSUNARI Shigeo
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
Yukitaka Takemura
BoostAsioで可読性を求めるのは間違っているだろうか
BoostAsioで可読性を求めるのは間違っているだろうか
Yuki Miyatake
機械学習 / Deep Learning 大全 (4) GPU編
機械学習 / Deep Learning 大全 (4) GPU編
Daiyu Hatakeyama
ネットワーク ゲームにおけるTCPとUDPの使い分け
ネットワーク ゲームにおけるTCPとUDPの使い分け
モノビット エンジン
RustによるGPUプログラミング環境
RustによるGPUプログラミング環境
KiyotomoHiroyasu
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
Takateru Yamagishi
メタプログラミングって何だろう
メタプログラミングって何だろう
Kota Mizushima
目grep入門 +解説
目grep入門 +解説
murachue
何となく勉強した気分になれるパーサ入門
何となく勉強した気分になれるパーサ入門
masayoshi takahashi
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
Shinya Takamaeda-Y
明日使えないすごいビット演算
明日使えないすごいビット演算
京大 マイコンクラブ
プログラムを高速化する話
プログラムを高速化する話
京大 マイコンクラブ
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
ryos36
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
NVIDIA Japan
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
NVIDIA Japan
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
Kentaro Sano
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
Kei Nakazawa
Más contenido relacionado
La actualidad más candente
モデル高速化百選
モデル高速化百選
Yusuke Uchida
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
一路 川染
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
MITSUNARI Shigeo
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
Yukitaka Takemura
BoostAsioで可読性を求めるのは間違っているだろうか
BoostAsioで可読性を求めるのは間違っているだろうか
Yuki Miyatake
機械学習 / Deep Learning 大全 (4) GPU編
機械学習 / Deep Learning 大全 (4) GPU編
Daiyu Hatakeyama
ネットワーク ゲームにおけるTCPとUDPの使い分け
ネットワーク ゲームにおけるTCPとUDPの使い分け
モノビット エンジン
RustによるGPUプログラミング環境
RustによるGPUプログラミング環境
KiyotomoHiroyasu
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
Takateru Yamagishi
メタプログラミングって何だろう
メタプログラミングって何だろう
Kota Mizushima
目grep入門 +解説
目grep入門 +解説
murachue
何となく勉強した気分になれるパーサ入門
何となく勉強した気分になれるパーサ入門
masayoshi takahashi
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
Shinya Takamaeda-Y
明日使えないすごいビット演算
明日使えないすごいビット演算
京大 マイコンクラブ
プログラムを高速化する話
プログラムを高速化する話
京大 マイコンクラブ
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
ryos36
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
NVIDIA Japan
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
NVIDIA Japan
La actualidad más candente
(20)
モデル高速化百選
モデル高速化百選
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
BoostAsioで可読性を求めるのは間違っているだろうか
BoostAsioで可読性を求めるのは間違っているだろうか
機械学習 / Deep Learning 大全 (4) GPU編
機械学習 / Deep Learning 大全 (4) GPU編
ネットワーク ゲームにおけるTCPとUDPの使い分け
ネットワーク ゲームにおけるTCPとUDPの使い分け
RustによるGPUプログラミング環境
RustによるGPUプログラミング環境
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
メタプログラミングって何だろう
メタプログラミングって何だろう
目grep入門 +解説
目grep入門 +解説
何となく勉強した気分になれるパーサ入門
何となく勉強した気分になれるパーサ入門
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
明日使えないすごいビット演算
明日使えないすごいビット演算
プログラムを高速化する話
プログラムを高速化する話
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
Destacado
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
Kentaro Sano
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
Kei Nakazawa
FPGAことはじめ
FPGAことはじめ
Takahiro Nakayama
ソフトウェア技術者はFPGAをどのように使うか
ソフトウェア技術者はFPGAをどのように使うか
なおき きしだ
$30で始めるFPGA
$30で始めるFPGA
Yukitaka Takemura
Zynq + Vivado HLS入門
Zynq + Vivado HLS入門
narusugimoto
増え続ける情報に対応するためのFPGA基礎知識
増え続ける情報に対応するためのFPGA基礎知識
なおき きしだ
電子回路の民主化とその実践
電子回路の民主化とその実践
Junichi Akita
Polyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGA
ryos36
cocos2d-x で PlugAir を 使えるようにしてみた
cocos2d-x で PlugAir を 使えるようにしてみた
Hideyuki TAKEI
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
Takeshi HASEGAWA
Beatroboでのハードウェアプロトタイピング
Beatroboでのハードウェアプロトタイピング
Hideyuki TAKEI
Cortex-M0プロセッサから自作してLチカをやってみた
Cortex-M0プロセッサから自作してLチカをやってみた
Junichi Akita
IkaLog: Data Collector for Splatoon and Machine Learning
IkaLog: Data Collector for Splatoon and Machine Learning
Takeshi HASEGAWA
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)
Shinya Takamaeda-Y
集積回路が真の道具になるために
集積回路が真の道具になるために
Junichi Akita
IkaLog20170316pynq_dist
IkaLog20170316pynq_dist
Takeshi HASEGAWA
2017年のFPGA Community活動について
2017年のFPGA Community活動について
Mr. Vengineer
Klabの梅雨対策
Klabの梅雨対策
Hideyuki TAKEI
Golang, make and robotics #gocon
Golang, make and robotics #gocon
Hideyuki TAKEI
Destacado
(20)
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
FPGAことはじめ
FPGAことはじめ
ソフトウェア技術者はFPGAをどのように使うか
ソフトウェア技術者はFPGAをどのように使うか
$30で始めるFPGA
$30で始めるFPGA
Zynq + Vivado HLS入門
Zynq + Vivado HLS入門
増え続ける情報に対応するためのFPGA基礎知識
増え続ける情報に対応するためのFPGA基礎知識
電子回路の民主化とその実践
電子回路の民主化とその実践
Polyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGA
cocos2d-x で PlugAir を 使えるようにしてみた
cocos2d-x で PlugAir を 使えるようにしてみた
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
Beatroboでのハードウェアプロトタイピング
Beatroboでのハードウェアプロトタイピング
Cortex-M0プロセッサから自作してLチカをやってみた
Cortex-M0プロセッサから自作してLチカをやってみた
IkaLog: Data Collector for Splatoon and Machine Learning
IkaLog: Data Collector for Splatoon and Machine Learning
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)
集積回路が真の道具になるために
集積回路が真の道具になるために
IkaLog20170316pynq_dist
IkaLog20170316pynq_dist
2017年のFPGA Community活動について
2017年のFPGA Community活動について
Klabの梅雨対策
Klabの梅雨対策
Golang, make and robotics #gocon
Golang, make and robotics #gocon
Similar a Gpu vs fpga
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
NVIDIA Japan
Myoshimi extreme
Myoshimi extreme
Masato Yoshimi
なにわTech20161215
なにわTech20161215
Natsutani Minoru
FPGAで遊んでみた
FPGAで遊んでみた
Akira Kaneda
CUDAプログラミング入門
CUDAプログラミング入門
NVIDIA Japan
20170421 tensor flowusergroup
20170421 tensor flowusergroup
ManaMurakami1
プログラム説明 kgPhotonMapping v0-1-0
プログラム説明 kgPhotonMapping v0-1-0
Takahiro KOGUCHI
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
Takefumi MIYOSHI
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
智啓 出川
FPGAスタートアップ資料
FPGAスタートアップ資料
marsee101
FPGAでベンチマークしたときに苦労した話@fpgax#12
FPGAでベンチマークしたときに苦労した話@fpgax#12
Jun Ando
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
Kohei KaiGai
仮想FPGAクラウド
仮想FPGAクラウド
Eric Fukuda
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究
Yuichi Yoshida
20221116_DBTS_PGStrom_History
20221116_DBTS_PGStrom_History
Kohei KaiGai
Tensor flow usergroup 2016 (公開版)
Tensor flow usergroup 2016 (公開版)
Hiroki Nakahara
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
Kohei KaiGai
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
Daiyu Hatakeyama
20170726 py data.tokyo
20170726 py data.tokyo
ManaMurakami1
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
Takuma Usui
Similar a Gpu vs fpga
(20)
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
Myoshimi extreme
Myoshimi extreme
なにわTech20161215
なにわTech20161215
FPGAで遊んでみた
FPGAで遊んでみた
CUDAプログラミング入門
CUDAプログラミング入門
20170421 tensor flowusergroup
20170421 tensor flowusergroup
プログラム説明 kgPhotonMapping v0-1-0
プログラム説明 kgPhotonMapping v0-1-0
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
FPGAスタートアップ資料
FPGAスタートアップ資料
FPGAでベンチマークしたときに苦労した話@fpgax#12
FPGAでベンチマークしたときに苦労した話@fpgax#12
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
仮想FPGAクラウド
仮想FPGAクラウド
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究
20221116_DBTS_PGStrom_History
20221116_DBTS_PGStrom_History
Tensor flow usergroup 2016 (公開版)
Tensor flow usergroup 2016 (公開版)
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
20170726 py data.tokyo
20170726 py data.tokyo
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
Último
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Último
(12)
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
Gpu vs fpga
1.
GPU vs FPGA @yukitaketake 竹村幸尚@DMP
2.
がっかりポイント • 私は「組み込み」GPUを設計しています – CUDAとか関係ないです –
OpenCL全然盛り上がってないです • FPGAはあまり触ってません – 指示出す側です – FPGAと格闘していたのは10年以上前です • Altera FLEX10Kとか…
3.
DMP グラフィックスIPソリューション 組込み機器向け高性能・低消費電力グラフィックスIP
コア 高性能2D/3DグラフィックスIP 低電力モバイルから高性能アミューズメントまでサポート ビルディング・ブロック構造によるスケーラブルなアーキテクチャ OpenVG 1.1対応 PICA200Lite (OpenGLES 1.1 ) ベクターグラフィックスIPコア フォトリアリスティック 3DグラフィックスIPコア 標準3DグラフィックスIPコア (OpenGL ES 1.1 互換 + 独自拡 張) SMAPH-S (OpenGLES 2.0 ) PICA200 SMAPH-F
4.
GPUの初歩 • 材料 – 頂点データ –
Indexデータ – テクスチャ – シェーダ • パラメタ/テーブル等をレジスタへ void main() { #if defined MASK vec4 mask = texture2D( texture_unit2, out_texcoord0); #else const vec4 mask = vec4( 1.0, 1.0, 1.0, 1.0); #endif #if defined ALPHA_TEST if( mask.x < 0.6) discard; #endif vec3 color = texture2D( texture_unit0, out_texcoord0).xyz; color = planar_reflection2( color);
5.
GPUの初歩 • 頂点データ処理 Position0 – 頂点ごとにデータ整形 –
FP32bit化 – Index arrayに従って整列 Color 0 Position1 Color 1 Position2 Color 2 : : Color0 : : Palette indexx 0 3 4 16 : : x Index array Position0 Palette index0 Texture0 FixedColor Color3 全てfloat24/vec4 Texturex FixedColor Position3 Palette index3 Texture3 Position4 Palette index2 FixedColor : : Palette index0 Palette index1 Color4 Texture2 Texture4 Texture1 Palette index4 Colorx Texture0 FixedColor Positionx VPへ
6.
GPUの初歩 • 頂点シェーダプロセッサ – 頂点テクスチャリード –
M-V変換 • 頂点バッファ – 頂点シェーダ処理後のデータをストア テクスチャ ユニット 頂点データ 頂点データ 処理 頂点プロセサ 頂点バッファ
7.
GPUの初歩 • トライアングルセットアップ – 頂点をプリミティブ化 –
クリッピング – カリング • ラスタライズ テクスチャ – 演算器の塊 • プロセッサでやるとかw テクスチャ ユニット 頂点データ 頂点データ 処理 頂点プロセサ 頂点バッファ トライアングル セットアップ ラスタライザ
8.
GPUの初歩 テーブル パラメタ • ピクセル(フラグメント)シェーダ – テクスチャリード 頂点データ 処理 頂点バッファ トライアングル セットアップ ラスタライザ スケジューラ 頂点データ ユニファイド シェーダ テクスチャユニット テクスチャデータ •
ピクセルシェーダと頂点シェー ダは同じプロセッサで動作させ る – 元々は別プロセッサ – ユニファイドシェーダ
9.
GPUの初歩 • ROP(Rendering Output Pipeline
/ Rasterize OPeration) – – – – – – シェーダから1pixelのカラーを受け取って Zバッファを読んでそのピクセルを描画すべきか判定して そのpixelが一番手前ならZバッファを更新して (フレームバッファから既に書かれているカラーを読んで) (シェーダからのアルファ値に従ってブレンドして) フレームバッファに書き込む 頂点データ テーブル/パラメタ 頂点データ 処理 Zバッファ トライアングル セットアップ スケジューラ ユニファイドシェーダと テクスチャユニットだけを使うのが GPGPU 頂点バッファ ユニファイド シェーダ ROP フレームバッファ ラスタライザ テクスチャユニット テクスチャデータ
10.
GPUの初歩 • まとめ図
11.
GPUの特徴 • スループットコンピューティング – グラフィックスはmsの世界 –
CPUはレイテンシコンピューティング? – FPGAはどちらにも振れる • 最短のレイテンシを得るならFPGA • 浮動小数点演算重視 – 圧倒的なFLOPS値 • もはやTFLOPSに • ただし電力食い – 整数無視と言っても良いぐらい • 最近はそうでもないけど – GPUで整数演算をするのはもったいないかも • 電力効率最悪かも • 整数ならFPGA大活躍の可能性
12.
GPU性能を上げるために • 可能なら固定パイプラインで – やることが決まっていればプロセッサより高効率 •
出来るだけ沢山演算器を詰める – 最低限の精度で • 各演算器の使用率を出来るだけ高く – 沢山入れても動いてないんじゃ意味が無い • 動作周波数を高く – パイプライン演算器 • 浮動小数点演算だと必須 – ちょっと古いGPUだと4stage – 最近のは多分8stageとか • 整数・固定少数でも32bitなら必要 • 段数深くすれば高周波数対応可能 – 効率良く動かすのは難しくなる
13.
パイプライン演算器 • GPUはなぜパイプライン演算器を使いこなせる のか – 各パイプラインに別々のスレッドが走っている •
GPUが性能出せる秘密はこれ – このように動けないアプリケーションでは性能が出な い • FPGAでも性能を出すには、同じようにパイプライ ン演算器にデータを詰めないといけない – レイテンシに特化するならその限りではない?
14.
GPUのほうが有利な場合 • • • • 大量の浮動小数点演算 電力気にしない データ並列性 レイテンシ気にしない
15.
FPGAのほうが有利な場合 • Float/int精度が不要 – 小さい演算器使える • • • • • 消費電力重要 レイテンシ重要 パイプラインを深く出来る 少ないリソースで足りるアプリケーション 苦労を厭わない –
HW屋でもFPGAツールにはハマること多いです • FPGAアーキテクチャに合う回路が作れる • 特殊なメモリアーキテクチャが必要 – 大きな帯域は必ずしも必要ない • 帯域だけで勝負したらGPUが上になる
16.
特徴比較 CPU GPU FPGA ASIC コスト ○ ○ △ ? 電力 ☓ ☓ ○ ◎ メモリ帯域 ○ ◎ △ ◎ 自由度 △ △ ○ ◎ Op/sec ○ ◎ △ ○ 開発容易性 ◎ ○ △ ☓☓ ASIC化 △ ☓ ◎ - データ制御 ○ ☓ ◎ ◎
17.
事例その1 - GPU •
FPGAにGPUを入れてみる。 – 使ったもの • TED社製FPGAボード – Xilinx Virtex7使用(XC7V2000T) » ハイエンドもいいところ – お値段約xxx万円(当時) – 入れたもの • DMP OpenGLES3.0準拠GPU – SMAPH-S – 4 shaders » 4SIMD x 4
18.
FPGAボード例
19.
FPGAボード例
20.
FPGAボード例
21.
事例その1 - GPU •
結果 – Slice LUT:70% – Slice reg: 15% – BRAM:20% – たかが4つのSIMDプロセッサで割といっぱいということ • GPUは配線が多いので、あまり詰まらない • 現時点ではFPGAで浮動小数点演算を扱うのはメリット少ない? – これでもかなりましになった » Virtex6とかひどかった • ハズレ世代に注意しましょう
22.
事例その2 – 演算器アレイ •
目的 – FPGAにどれぐらい浮動小数点演算器が詰まるか確 かめてみる • 格安FPGAでどれぐらいのFLOPS値まで行けるか – 浮動小数点演算アクセラレータとして使うイメージ • 環境 – Xilinx Zynq-7000 • XC7Z020CLG484 • f:50MHz – 速い浮動小数点演算機が用意できませんで – 頑張れば200MHzぐらいまでは行けるかと
23.
ブロック図 • 動作フローは以下の通り AXI Interconnect master – DMAC – – FP
Unit Array IBUF1 SW OBUF0 SW IBUF0 – OBUF1 • IBUFへの書き込み及び OBUFからの読み出しは、ダ ブルバッファにより計算中 にも行う。 • FP Unit Arrayの規模をどこ まで増やせるか Configuration Register AXI Interconnect slave ARMからモード等をレジス タ設定 DMACでARM側メモリから IBUF0又は1へ計算データ 転送 起動。計算結果をOBUF0 又は1に書き込み DMACでOBUFからARM側 へ書き戻し
24.
ブロック図 MAD MAD INP MAD MAD UNIT • 基本ユニット – Fp32
multiply and add x 4 – Fp32 x 8 variable input – Fp32 x 4 constant input – 4stage pipeline
25.
ブロック図 1set IBUF0 UNIT FIFO UNIT SFU UNIT FIFO UNIT SFU UNIT FIFO FIFO FIFO OBUF0 FIFO Constant register • UNIT2つとSFU1つをセットに数珠つなぎ – SFU •
RCP/RSQ/SIN/COS/EXP/LOG • Fp32bit x 1 • あくまで評価のための回路 – 多少なりとも使い物にしようとするなら、UNITの入力及びバッファを増やさな いといけないが… • 配線使い過ぎるとFPGAには入らない • ホントはUNIT内部に比較器等入れて、簡単な分岐が出来るようにしたい
26.
FPGA構成 • AXIバスでARM側と つなぐだけ – レジスタ設定用ス レーブポートも AXIで
27.
事例その2 – 演算器アレイ • 結果 –
Slice LUT: 94.91% – Slice Reg: 35.57% – 入ったもの • IBUF0 UNIT FIFO UNIT SFU UNIT これだけ→ – 33 FP units FIFO • 1.65GFLOPS • 200MHzなら6.6GFLOPS FIFO – もちろん実際こんなに出ませんが Constant register – 1ランク上のFPGAの場合 • • • XC7Z030CLG484 93FP units 29.65GFLOPS – 200MHzなら118.6GFLOPS – Artixクラスだと制御系でかなりリソース食ってしまい、計算にリソースが回らない? • Z030はKintexクラスだそうで OBUF0
28.
まとめ • 安価なFPGAではやれることが少ない – 特に演算系 –
演算系ならGPUオススメ • ASIC化を見据えたプロトタイプ作成用に魅力
Descargar ahora