SlideShare a Scribd company logo
1 of 20
Download to read offline
n 

      l 

      l 
            • 



n 
      l 
      l 
n 
n 
n 
n 
n 
n 
Intel Single Chip Cloud Computer
                      48 cores (x86)




TILERA TILE-Gx100
   100 cores (MIPS)
n 
      l 
      l 
n 
      l 
      l 
            DRAM Controller   DRAM Controller




                                                        Local
                                                       Memory
                                                Core
                                                        INCC


                                                                R

                                                       Node




            DRAM Controller   DRAM Controller
n 
      l 
      l 
n 
      l 
            • 
            • 
      l 

            • 
            • 
            • 
n 
      l 
            • 
      l 
            • 
                 – 
            • 
                 – 
n 
      l 
      l 
      l 




      l 
      l 
            • 
n 


n 
      l 


n 
      l 

            • 
n 
      l 
      l 

                                                    Core

                                            store             stall

                                               Store Buffer
                 : data
                 : control                 store              stall

                                            Violation Detector
                   load                Head Address        0x1000
                                                                       load
                                        Tail Address       0x2000      (DMA Status)

                                          DMA Req           Yes
                             store
                                            store      DMA status
                               read
            Local Memory                     DMA Controller
            (Scratchpad)                               PUT to (3,2)
                               write    DMA reg

                                                    DMA Transfer
                                                                      Rout
                                                                       er
                                                    On Chip Network
n 


      l 


      l 
            • 
                 – 
                 – 
            • 
                 – 
                 – 
n 
      l 
      l 
      l 
      l 
n 
      l 
      l 
            • 
n 
      l 
      l 
      l 


n 
n 
      l 

            • 
n 
      l 

            • 
n 
      l 

            • 
n 
      l 
n 
      l 
n 
                               n 
                                        l 
                                        l 
                                          Performance (# cores = 16)                                                                        Performance (# cores = 64)
                             100.00%                                                                                         100.00%
Normalized Execution Cycle




                                                                                                Normalized Execution Cycle
                             95.00%                                                                                          95.00%


                             90.00%                                                                                          90.00%


                             85.00%                                                                                          85.00%


                             80.00%                                                                                          80.00%
                                                                            Matrix                                                                                         Matrix
                                                                                      Bitonic                                                                                        Bitonic
                                         Pipeline   Stencil   All to All   Multiply                                                     Pipeline   Stencil   All to All   Multiply
                                                                                       Sort                                                                                           Sort
                                                                           Cannon                                                                                         Cannon
                              #buf=8     96.27%     99.85%    97.86%       97.25%     99.98%                                  #buf=8    96.83%     99.83%    91.91%       92.80%     99.90%
                              #buf=16    92.64%     99.85%    94.86%       97.21%     99.98%                                  #buf=16   94.20%     99.83%    89.27%       92.80%     99.82%
                              #buf=32    89.50%     99.85%    92.26%       97.19%     99.98%                                  #buf=32   91.90%     99.83%    81.51%       92.80%     99.87%
n 

                         l 

                         l 
                                 Core Stall Rate (# cores = 16)                                                           Core Stall Rate (# cores = 64)
                        30.00%                                                                                   30.00%

                        25.00%                                                                                   25.00%

                        20.00%                                                                                   20.00%
Stall Rate




                                                                                         Stall Rate
                        15.00%                                                                                   15.00%

                        10.00%                                                                                   10.00%

                        5.00%                                                                                    5.00%

                        0.00%                                                                                    0.00%
                                                                     Matrix                                                                                   Matrix
                                                                               Bitonic                                                                                  Bitonic
                                  Pipeline   Stencil   All to All   Multiply                                               Pipeline   Stencil   All to All   Multiply
                                                                                Sort                                                                                     Sort
                                                                    Cannon                                                                                   Cannon
             Blocking             10.22%     0.22%     21.39%       1.32%      3.76%                  Blocking              7.43%     0.31%     26.57%       2.33%      8.05%
             Proposal: #buf=8     0.71%      0.00%     19.33%       0.68%      1.74%                  Proposal: #buf=8      0.16%     0.00%     19.42%       1.64%      4.46%
             Proposal: #buf=16    0.55%      0.00%     18.02%       0.66%      1.73%                  Proposal: #buf=16     0.17%     0.00%     16.37%       1.63%      4.38%
             Proposal: #buf=32    0.00%      0.00%     16.70%       0.62%      1.73%                  Proposal: #buf=32     0.00%     0.00%      9.88%       1.65%      4.36%
n 

                                            l 
                                            l 
                                            l 
                                           Aggressive Store Rate (# cores = 16)                                                                     Aggressive Store Rate (# cores = 64)
                                          1.400%                                                                                                 3.500%
Rate of Store into Store Buffer




                                                                                                       Rate of Store into Store Buffer
                                          1.200%                                                                                                 3.000%
                                          1.000%
                                                                                                                                                 2.500%
                                          0.800%
                                                                                                                                                 2.000%
                                          0.600%
                                          0.400%                                                                                                 1.500%

                                          0.200%                                                                                                 1.000%
                                          0.000%                                                                                                 0.500%
                                                                                   Matrix
                                                                                   Multipl
                                                     Pipelin              All to             Bitonic                                             0.000%
                                                               Stencil               y                                                                                                          Matrix
                                                        e                  All                Sort                                                                                                        Bitonic
                                                                                   Canno                                                                     Pipeline   Stencil   All to All   Multiply
                                                                                     n                                                                                                                     Sort
                                                                                                                                                                                               Cannon
                                  Proposal: #buf=8   0.456%    0.013%    0.311%    0.135%    0.003%                                      Proposal: #buf=8    0.330%     0.000%    1.147%       0.046%     0.014%
                                  Proposal: #buf=16 0.691%     0.013%    0.517%    0.131%    0.003%                                      Proposal: #buf=16   0.486%     0.000%    1.852%       0.045%     0.015%
                                  Proposal: #buf=32 1.194%     0.013%    0.932%    0.111%    0.003%                                      Proposal: #buf=32   0.843%     0.000%    3.092%       0.044%     0.017%
n 
                                             l 

                                                      • 
                                             l 

                                        Aggressive Store Rate (for Data) (# cores = 16)                                                                 Aggressive Store Rate (for Data) # cores = 64
                                           1.000%                                                                                                       3.500%
Rate of Store into Store Buffer




                                                                                                             Rate of Store into Store Buffer
                                                                                                                                                        3.000%
                                           0.800%
                                                                                                                                                        2.500%
                                           0.600%                                                                                                       2.000%

                                           0.400%                                                                                                       1.500%

                                                                                                                                                        1.000%
                                           0.200%
                                                                                                                                                        0.500%

                                           0.000%                                                                                                       0.000%
                                                                                         Matrix                                                                                                       Matrix
                                                                                                   Bitonic                                                                                                      Bitonic
                                                      Pipeline   Stencil   All to All   Multiply                                                                   Pipeline   Stencil   All to All   Multiply
                                                                                                    Sort                                                                                                         Sort
                                                                                        Cannon                                                                                                       Cannon
                                  Proposal: #buf=8    0.000%     0.000%    0.311%       0.000%     0.000%                                      Proposal: #buf=8    0.000%     0.000%    1.147%       0.000%     0.000%
                                  Proposal: #buf=16   0.217%     0.000%    0.517%       0.000%     0.000%                                      Proposal: #buf=16   0.147%     0.000%    1.852%       0.000%     0.001%
                                  Proposal: #buf=32   0.703%     0.000%    0.932%       0.000%     0.000%                                      Proposal: #buf=32   0.495%     0.000%    3.092%       0.000%     0.002%
n 

      l 

      l 
            • 



n 
      l 
      l 
n 
      l 
n 
      l 
n 
      l 
n 
      l 
n 
      l 
      l 

More Related Content

Similar to DMAベースメニーコアにおける通信オーバーヘッド削減手法 @SWoPP2011 ARC-196

メニーコアプロセッサにおけるコア間通信レイテンシ隠蔽手法の検討 @IPSJ72
メニーコアプロセッサにおけるコア間通信レイテンシ隠蔽手法の検討 @IPSJ72メニーコアプロセッサにおけるコア間通信レイテンシ隠蔽手法の検討 @IPSJ72
メニーコアプロセッサにおけるコア間通信レイテンシ隠蔽手法の検討 @IPSJ72Shinya Takamaeda-Y
 
Learning Moving Cast Shadows for Foreground Detection (VS 2008)
Learning Moving Cast Shadows for Foreground Detection (VS 2008)Learning Moving Cast Shadows for Foreground Detection (VS 2008)
Learning Moving Cast Shadows for Foreground Detection (VS 2008)Jia-Bin Huang
 
Scalable Elastic Systems Architecture (SESA)
Scalable Elastic Systems Architecture (SESA)Scalable Elastic Systems Architecture (SESA)
Scalable Elastic Systems Architecture (SESA)Eric Van Hensbergen
 
High Throughput, High Content Screening - Automating the Pipeline
High Throughput, High Content Screening - Automating the PipelineHigh Throughput, High Content Screening - Automating the Pipeline
High Throughput, High Content Screening - Automating the PipelineRajarshi Guha
 
Evaluating Data Freshness in Large Scale Replicated Databases
Evaluating Data Freshness in Large Scale Replicated DatabasesEvaluating Data Freshness in Large Scale Replicated Databases
Evaluating Data Freshness in Large Scale Replicated DatabasesMiguel Araújo
 
Video Compression Basics by sahil jain
Video Compression Basics by sahil jainVideo Compression Basics by sahil jain
Video Compression Basics by sahil jainSahil Jain
 

Similar to DMAベースメニーコアにおける通信オーバーヘッド削減手法 @SWoPP2011 ARC-196 (6)

メニーコアプロセッサにおけるコア間通信レイテンシ隠蔽手法の検討 @IPSJ72
メニーコアプロセッサにおけるコア間通信レイテンシ隠蔽手法の検討 @IPSJ72メニーコアプロセッサにおけるコア間通信レイテンシ隠蔽手法の検討 @IPSJ72
メニーコアプロセッサにおけるコア間通信レイテンシ隠蔽手法の検討 @IPSJ72
 
Learning Moving Cast Shadows for Foreground Detection (VS 2008)
Learning Moving Cast Shadows for Foreground Detection (VS 2008)Learning Moving Cast Shadows for Foreground Detection (VS 2008)
Learning Moving Cast Shadows for Foreground Detection (VS 2008)
 
Scalable Elastic Systems Architecture (SESA)
Scalable Elastic Systems Architecture (SESA)Scalable Elastic Systems Architecture (SESA)
Scalable Elastic Systems Architecture (SESA)
 
High Throughput, High Content Screening - Automating the Pipeline
High Throughput, High Content Screening - Automating the PipelineHigh Throughput, High Content Screening - Automating the Pipeline
High Throughput, High Content Screening - Automating the Pipeline
 
Evaluating Data Freshness in Large Scale Replicated Databases
Evaluating Data Freshness in Large Scale Replicated DatabasesEvaluating Data Freshness in Large Scale Replicated Databases
Evaluating Data Freshness in Large Scale Replicated Databases
 
Video Compression Basics by sahil jain
Video Compression Basics by sahil jainVideo Compression Basics by sahil jain
Video Compression Basics by sahil jain
 

More from Shinya Takamaeda-Y

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムShinya Takamaeda-Y
 
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモDNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモShinya Takamaeda-Y
 
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発Shinya Takamaeda-Y
 
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Shinya Takamaeda-Y
 
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Shinya Takamaeda-Y
 
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Shinya Takamaeda-Y
 
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)Shinya Takamaeda-Y
 
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」Shinya Takamaeda-Y
 
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Shinya Takamaeda-Y
 
PythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングPythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングShinya Takamaeda-Y
 
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討Shinya Takamaeda-Y
 
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Shinya Takamaeda-Y
 
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようPythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようShinya Takamaeda-Y
 
A CGRA-based Approach for Accelerating Convolutional Neural Networks
A CGRA-based Approachfor Accelerating Convolutional Neural NetworksA CGRA-based Approachfor Accelerating Convolutional Neural Networks
A CGRA-based Approach for Accelerating Convolutional Neural NetworksShinya Takamaeda-Y
 
Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Shinya Takamaeda-Y
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようShinya Takamaeda-Y
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)Shinya Takamaeda-Y
 
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向Shinya Takamaeda-Y
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)Shinya Takamaeda-Y
 

More from Shinya Takamaeda-Y (20)

オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
 
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモDNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
 
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
 
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
 
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
 
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
 
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)
 
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
 
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
 
PythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミングPythonとVeriloggenを用いたRTL設計メタプログラミング
PythonとVeriloggenを用いたRTL設計メタプログラミング
 
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討
 
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
 
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみようPythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
 
A CGRA-based Approach for Accelerating Convolutional Neural Networks
A CGRA-based Approachfor Accelerating Convolutional Neural NetworksA CGRA-based Approachfor Accelerating Convolutional Neural Networks
A CGRA-based Approach for Accelerating Convolutional Neural Networks
 
Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみようPythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
 
Zynq+PyCoRAM(+Debian)入門
Zynq+PyCoRAM(+Debian)入門Zynq+PyCoRAM(+Debian)入門
Zynq+PyCoRAM(+Debian)入門
 
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
 

Recently uploaded

Presentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreterPresentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreternaman860154
 
Scaling API-first – The story of a global engineering organization
Scaling API-first – The story of a global engineering organizationScaling API-first – The story of a global engineering organization
Scaling API-first – The story of a global engineering organizationRadu Cotescu
 
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationSafe Software
 
Google AI Hackathon: LLM based Evaluator for RAG
Google AI Hackathon: LLM based Evaluator for RAGGoogle AI Hackathon: LLM based Evaluator for RAG
Google AI Hackathon: LLM based Evaluator for RAGSujit Pal
 
SQL Database Design For Developers at php[tek] 2024
SQL Database Design For Developers at php[tek] 2024SQL Database Design For Developers at php[tek] 2024
SQL Database Design For Developers at php[tek] 2024Scott Keck-Warren
 
WhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure service
WhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure serviceWhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure service
WhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure servicePooja Nehwal
 
Transcript: #StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
Transcript: #StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024Transcript: #StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
Transcript: #StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024BookNet Canada
 
Breaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountBreaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountPuma Security, LLC
 
Salesforce Community Group Quito, Salesforce 101
Salesforce Community Group Quito, Salesforce 101Salesforce Community Group Quito, Salesforce 101
Salesforce Community Group Quito, Salesforce 101Paola De la Torre
 
The Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxThe Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxMalak Abu Hammad
 
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...Miguel Araújo
 
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...Neo4j
 
FULL ENJOY 🔝 8264348440 🔝 Call Girls in Diplomatic Enclave | Delhi
FULL ENJOY 🔝 8264348440 🔝 Call Girls in Diplomatic Enclave | DelhiFULL ENJOY 🔝 8264348440 🔝 Call Girls in Diplomatic Enclave | Delhi
FULL ENJOY 🔝 8264348440 🔝 Call Girls in Diplomatic Enclave | Delhisoniya singh
 
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptxHampshireHUG
 
How to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerHow to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerThousandEyes
 
Transforming Data Streams with Kafka Connect: An Introduction to Single Messa...
Transforming Data Streams with Kafka Connect: An Introduction to Single Messa...Transforming Data Streams with Kafka Connect: An Introduction to Single Messa...
Transforming Data Streams with Kafka Connect: An Introduction to Single Messa...HostedbyConfluent
 
Maximizing Board Effectiveness 2024 Webinar.pptx
Maximizing Board Effectiveness 2024 Webinar.pptxMaximizing Board Effectiveness 2024 Webinar.pptx
Maximizing Board Effectiveness 2024 Webinar.pptxOnBoard
 
Histor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slideHistor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slidevu2urc
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking MenDelhi Call girls
 
Boost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityBoost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityPrincipled Technologies
 

Recently uploaded (20)

Presentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreterPresentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreter
 
Scaling API-first – The story of a global engineering organization
Scaling API-first – The story of a global engineering organizationScaling API-first – The story of a global engineering organization
Scaling API-first – The story of a global engineering organization
 
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
 
Google AI Hackathon: LLM based Evaluator for RAG
Google AI Hackathon: LLM based Evaluator for RAGGoogle AI Hackathon: LLM based Evaluator for RAG
Google AI Hackathon: LLM based Evaluator for RAG
 
SQL Database Design For Developers at php[tek] 2024
SQL Database Design For Developers at php[tek] 2024SQL Database Design For Developers at php[tek] 2024
SQL Database Design For Developers at php[tek] 2024
 
WhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure service
WhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure serviceWhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure service
WhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure service
 
Transcript: #StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
Transcript: #StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024Transcript: #StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
Transcript: #StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
 
Breaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountBreaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path Mount
 
Salesforce Community Group Quito, Salesforce 101
Salesforce Community Group Quito, Salesforce 101Salesforce Community Group Quito, Salesforce 101
Salesforce Community Group Quito, Salesforce 101
 
The Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxThe Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptx
 
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...
 
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
 
FULL ENJOY 🔝 8264348440 🔝 Call Girls in Diplomatic Enclave | Delhi
FULL ENJOY 🔝 8264348440 🔝 Call Girls in Diplomatic Enclave | DelhiFULL ENJOY 🔝 8264348440 🔝 Call Girls in Diplomatic Enclave | Delhi
FULL ENJOY 🔝 8264348440 🔝 Call Girls in Diplomatic Enclave | Delhi
 
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
 
How to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerHow to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected Worker
 
Transforming Data Streams with Kafka Connect: An Introduction to Single Messa...
Transforming Data Streams with Kafka Connect: An Introduction to Single Messa...Transforming Data Streams with Kafka Connect: An Introduction to Single Messa...
Transforming Data Streams with Kafka Connect: An Introduction to Single Messa...
 
Maximizing Board Effectiveness 2024 Webinar.pptx
Maximizing Board Effectiveness 2024 Webinar.pptxMaximizing Board Effectiveness 2024 Webinar.pptx
Maximizing Board Effectiveness 2024 Webinar.pptx
 
Histor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slideHistor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slide
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men
 
Boost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityBoost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivity
 

DMAベースメニーコアにおける通信オーバーヘッド削減手法 @SWoPP2011 ARC-196

  • 1.
  • 2. n  l  l  •  n  l  l 
  • 4. Intel Single Chip Cloud Computer 48 cores (x86) TILERA TILE-Gx100 100 cores (MIPS)
  • 5. n  l  l 
  • 6. n  l  l  DRAM Controller DRAM Controller Local Memory Core INCC R Node DRAM Controller DRAM Controller
  • 7. n  l  l  n  l  •  •  l  •  •  • 
  • 8. n  l  •  l  •  –  •  – 
  • 9. n  l  l  l  l  l  • 
  • 10. n  n  l  n  l  • 
  • 11. n  l  l  Core store stall Store Buffer : data : control store stall Violation Detector load Head Address 0x1000 load Tail Address 0x2000 (DMA Status) DMA Req Yes store store DMA status read Local Memory DMA Controller (Scratchpad) PUT to (3,2) write DMA reg DMA Transfer Rout er On Chip Network
  • 12. n  l  l  •  –  –  •  –  – 
  • 13. n  l  l  l  l  n  l  l  •  n  l  l  l  n 
  • 14. n  l  •  n  l  •  n  l  •  n  l  n  l 
  • 15. n  n  l  l  Performance (# cores = 16) Performance (# cores = 64) 100.00% 100.00% Normalized Execution Cycle Normalized Execution Cycle 95.00% 95.00% 90.00% 90.00% 85.00% 85.00% 80.00% 80.00% Matrix Matrix Bitonic Bitonic Pipeline Stencil All to All Multiply Pipeline Stencil All to All Multiply Sort Sort Cannon Cannon #buf=8 96.27% 99.85% 97.86% 97.25% 99.98% #buf=8 96.83% 99.83% 91.91% 92.80% 99.90% #buf=16 92.64% 99.85% 94.86% 97.21% 99.98% #buf=16 94.20% 99.83% 89.27% 92.80% 99.82% #buf=32 89.50% 99.85% 92.26% 97.19% 99.98% #buf=32 91.90% 99.83% 81.51% 92.80% 99.87%
  • 16. n  l  l  Core Stall Rate (# cores = 16) Core Stall Rate (# cores = 64) 30.00% 30.00% 25.00% 25.00% 20.00% 20.00% Stall Rate Stall Rate 15.00% 15.00% 10.00% 10.00% 5.00% 5.00% 0.00% 0.00% Matrix Matrix Bitonic Bitonic Pipeline Stencil All to All Multiply Pipeline Stencil All to All Multiply Sort Sort Cannon Cannon Blocking 10.22% 0.22% 21.39% 1.32% 3.76% Blocking 7.43% 0.31% 26.57% 2.33% 8.05% Proposal: #buf=8 0.71% 0.00% 19.33% 0.68% 1.74% Proposal: #buf=8 0.16% 0.00% 19.42% 1.64% 4.46% Proposal: #buf=16 0.55% 0.00% 18.02% 0.66% 1.73% Proposal: #buf=16 0.17% 0.00% 16.37% 1.63% 4.38% Proposal: #buf=32 0.00% 0.00% 16.70% 0.62% 1.73% Proposal: #buf=32 0.00% 0.00% 9.88% 1.65% 4.36%
  • 17. n  l  l  l  Aggressive Store Rate (# cores = 16) Aggressive Store Rate (# cores = 64) 1.400% 3.500% Rate of Store into Store Buffer Rate of Store into Store Buffer 1.200% 3.000% 1.000% 2.500% 0.800% 2.000% 0.600% 0.400% 1.500% 0.200% 1.000% 0.000% 0.500% Matrix Multipl Pipelin All to Bitonic 0.000% Stencil y Matrix e All Sort Bitonic Canno Pipeline Stencil All to All Multiply n Sort Cannon Proposal: #buf=8 0.456% 0.013% 0.311% 0.135% 0.003% Proposal: #buf=8 0.330% 0.000% 1.147% 0.046% 0.014% Proposal: #buf=16 0.691% 0.013% 0.517% 0.131% 0.003% Proposal: #buf=16 0.486% 0.000% 1.852% 0.045% 0.015% Proposal: #buf=32 1.194% 0.013% 0.932% 0.111% 0.003% Proposal: #buf=32 0.843% 0.000% 3.092% 0.044% 0.017%
  • 18. n  l  •  l  Aggressive Store Rate (for Data) (# cores = 16) Aggressive Store Rate (for Data) # cores = 64 1.000% 3.500% Rate of Store into Store Buffer Rate of Store into Store Buffer 3.000% 0.800% 2.500% 0.600% 2.000% 0.400% 1.500% 1.000% 0.200% 0.500% 0.000% 0.000% Matrix Matrix Bitonic Bitonic Pipeline Stencil All to All Multiply Pipeline Stencil All to All Multiply Sort Sort Cannon Cannon Proposal: #buf=8 0.000% 0.000% 0.311% 0.000% 0.000% Proposal: #buf=8 0.000% 0.000% 1.147% 0.000% 0.000% Proposal: #buf=16 0.217% 0.000% 0.517% 0.000% 0.000% Proposal: #buf=16 0.147% 0.000% 1.852% 0.000% 0.001% Proposal: #buf=32 0.703% 0.000% 0.932% 0.000% 0.000% Proposal: #buf=32 0.495% 0.000% 3.092% 0.000% 0.002%
  • 19. n  l  l  •  n  l  l 
  • 20. n  l  n  l  n  l  n  l  n  l  l