SlideShare una empresa de Scribd logo
1 de 25
Вчера. Сегодня. Завтра.

                          1
Гетерогенные вычисления


CPU          GPU



                          Ускорение



                                  2
Минимальное портирование для
     значительного ускорения
                           Код приложения




                                               Весь остальной
      Только критические                    последовательный
GPU   функции                                         CPU код   CPU
      Параллелизация
      в соответствии
      с программной
      моделью CUDA




                                                                      3
GPU Tesla в основе 3 из Top 5 СК
    #2 : Tianhe-1A                 #4 : Nebulae                  #5 : Tsubame 2.0
7168 Tesla GPU’s 2.5 PFLOPS   4650 Tesla GPU’s 1.2 PFLOPS    4224 Tesla GPU’s 1.194 PFLOPS




   ―внедрили гетерогенную вычислительную архитектуру, использующую
        Мы не только создали самый быстрый компьютер, но так же


                                           ‖
        CPU и GPU, это действительно инновация.
                                                     Премьер министр Вен Цзябао
                                                     Публичный комментарий Tianhe-1A
                                                                                             4
Топ50 – интересные факты

• 7 кластеров на базе NVIDIA Tesla.

• 7 кластеров на базе GPU обеспечивают суммарную
  производительность равную производительности
  всех остальных систем в списке:

     1616,7 из 3275,86 ТФлопс


                                                   5
Самый эффективный петафлопный СК

        Tsubame 2.0

          1.192 Пф

         1.340 МВт

4200 Tesla M2050 GPUs

Токийский технологический институт
                                       6
Будущее сегодня




       18,000+ Tesla GPUs

         20+ PetaFlops

В 3 раза более энергоэффективный
  по сравнению с #1 (K Computer)

                                   7
Самый быстрый вычислитель для задач МД
       Эффективная производительность 1.87 Petaflops/s
                      Institute of Process Engineering (IPE)
                         Chinese Academy of Sciences (CAS)




Моделирование кристаллического кремния           Использованы все 7168 Tesla GPU




                                                                                   8
Решения Tesla для рабочих станций и ЦОД


                                       Tesla M-series GPUs               Tesla C-series GPUs
                                   M2090 | M2075 | M2070 | M2050        C2075 | C2070 | C2050
                                        Серверы & блейды                  Рабочие станции
                      M2090         M2075       M2070       M2050         C2075 C2070 C2050
Кол-во ядер              512          448         448         448           448      448        448
Объем памяти            6 GB         6 GB        6 GB         3 GB         6 GB     6 GB        3 GB
Пс памяти                                                                  148.8    148.8       148.8
                      177.6 GB/s    150 GB/s    150 GB/s   148.8 GB/s
(ECC откл)                                                                 GB/s     GB/s        GB/s
          Одинарная
Пиковая                 1331         1030        1030         1030         1030     1030        1030
          точность
произв
Gflops    Двойная
                         665          515         515         515           515      515        515
          точность


                                                                                                        9
Решения Tesla для рабочих станций и ЦОД


                                      Tesla M-series GPUs   Tesla C-series GPUs
                                        M2090 | M2075              C2075
                                      Серверы & блейды       Рабочие станции
                         M2090        M2075                 C2075
Кол-во ядер                 512         448                    448
Объем памяти               6 GB        6 GB                   6 GB
Пс памяти                                                     148.8
                         177.6 GB/s   150 GB/s
(ECC откл)                                                    GB/s
             Одинарная
Пиковая                    1331        1030                   1030
             точность
произв
Gflops       Двойная
                            665         515                    515
             точность


                                                                                  10
Самый быстрый в мире HPC процессор
Tesla M2090: 512 ядерный продукт архитектуры Fermi

512 CUDA ядер     35
                               M2090 vs M2070: 20-30% ускорение

                  30

 665 GFlops       25


                  20

  178 GB/s        15


                  10


                  5


                  0
                       Supercomputing   Life Science      Oil & Gas  Material Science Manufacturing
                          Linpack         AMBER        Kirchoff Time   WL-LSMS          Abaqus
                                                          Migration
                                                                                                      12
Мировой рекорд производительности в
                            AMBER
4 Tesla M2090 GPUs                    192 Quad-Core CPUs
      + 2 CPUs
   69 нс/день                            46 нс/день




                     Больший размер
Быстрее      =                        = Больший реализм
                         молекул
                                             JAC NVE Benchmark   13
14
Новая версия ANSYS Mechanical – R14
                                    Preview available now, R14 release coming in November

                                     ANSYS Mechanical14.0 Preview 3 DMP vs. 13.0 SP2 SMP for Tesla GPU

                           750
                                                                    Xeon 5670 + Tesla C2075 for 13.0 SP2 SMP   V13sp-5 Model
                                                                    Xeon 5670 + Tesla C2075 for 14.0 P3 DMP
    ANSYS Mechanical Times in




                                                Lower
                                                  is
                           500                  better


                                          414   32%           395
                                                                        45%               358     33%
                                                314
                           250                                          273                       270
    Seconds




                                                                                                               - Turbine geometry
                                                                                                               - 2,100 K DOF
                                        13SP    14P         13SP       14P               13SP    14P           - Static, nonlinear
                                0       2       3           2          3                 2       3             - Direct sparse
                                            4 Core              6 Core                      8 Core

                                                                                                                                     15
Прирост более чем в 4 раза vs стандартной лицензии
 NOTE: Based on ANSYS Mechanical 14.0 Preview 3 DMP Solver Aug 2011 and Model V13sp-5

  5
  Factors Gain Over Base License Results




                                           CPU Speed-up
  4                                        GPU Speed-up                      4.4
                                                                                     Extra 40% cost
                                           Solution Cost                              yields 400%
                                                                                      performance
  3


  2
                                                            2.1

  1                                                               1.35              1.38
                                                                                                      V13sp-5 Model:
                                           1.0    1.0
                                                                                                      - 2,100 K DOF
  0                                                                                                   -Static nonlinear
                                                                                                      -Direct sparse



                                             Base License   ANSYS HPC Pack   ANSYS HPC Pack
                                                2 Core         6 Cores        6 Cores + GPU

                                                                                                                          16
MATLAB


MATLAB R2011b
      Критическая масса функционала уже на GPU

Преимущества
      177 функций портированны на GPU (из ~250)
      •   Random number generation •   Solvers        •   SVD
      •   FFT                      •   Convolutions   •   Cholesky and LU
      •   Matrix multiplications   •   Min/max            factorization

      Поддержка компилятора MATLAB
      GPU функционал в Communications Systems Toolbox
      Дальнейшее повышение производительности

Фокусный рынок: наука, исследования и ...
                                                                            17
Gaussian будет ускорен на CUDA

Aug. 29, 2011 — NVIDIA announced plans with Gaussian,
Inc., and The Portland Group® (PGI) to develop a future
GPU-accelerated release of Gaussian, the world’s leading
software application for quantum chemistry.




                                                           18
CUDA 4.0
Портирование приложений становится удобнее

  Удобная работа с несколькими GPU
            GPU Direct 2.0

 Удобство в портировании приложений
       Unified Virtual Addressing

       Программирование на C++
               Thrust

                                             19
До появления GPUDirect v2.0
Требовалась копия в памяти хоста
            GPU1     GPU2
           Memory   Memory


                             System
                             Memory




                               CPU
           GPU1     GPU2


   PCI-e                       Chip
                                set
                                      20
GPUDirect v2.0: взаимодействие Peer-to-Peer
       Прямая передача данных между GPU
                   GPU1     GPU2
                  Memory   Memory


                                    System
                                    Memory




                                      CPU
                  GPU1     GPU2


          PCI-e                       Chip
                                       set

                                              21
Unified Virtual Addressing
                     Единое адресное пространство


          Без UVA                                  UVA
System      GPU0        GPU1             System     GPU0     GPU1
Memory     Memory      Memory            Memory    Memory   Memory
 0x0000     0x0000      0x0000            0x0000


 0xFFFF     0xFFFF      0xFFFF                               0xFFFF




 CPU        GPU0        GPU1              CPU       GPU0     GPU1


                                 PCI-e                                PCI-e



                                                                       22
Параллельные алгоритмы в стиле C++ STL (Thrust)
Производительные C++ параллельные алгоритмы & структуры данных
    Синтаксис схож с C++ STL (Standard Template Library )

    Open Source библиотека: Apache License 2.0 (http://code.google.com/p/thrust/)

Автоматический выбор более производительных алгоритмов
    Алгоритмы имеют различные бекэнды (GPU, CPU/OpenMP)

    Параллельная сортировка в 5x - 100x быстрее чем в STL и TBB


        Структуры данных                Алгоритмы

    • thrust::device_vector      • thrust::sort
    • thrust::host_vector        • thrust::reduce
    • thrust::device_ptr         • thrust::exclusive_scan
    • И т.п.                     • И.т.п.
                                                                                    23
Результаты опроса пользователей
Изменение 1-5% кода
                                   В 2 раза быстрее за 3 чел/мес
                              10

                               8

                               6
                      Speed
                       Up
                               4

                               2

                               0
                                   0          3           6
                                              Чел-мес

                                                              24
Роадмап Tesla CUDA GPU
                     16
                                                          Maxwell

                     14
DP GFLOPS per Watt




                     12

                     10

                      8

                      6                         Kepler

                      4
                                      Fermi
                      2   T10


                          2008         2010      2012       2014
                                                                    25
26

Más contenido relacionado

Destacado

презентация л.р. №14
презентация л.р. №14презентация л.р. №14
презентация л.р. №14student_kai
 
ANSYS EKM – эффективное управление данными инженерных расчетов в процессе раз...
ANSYS EKM – эффективное управление данными инженерных расчетов в процессе раз...ANSYS EKM – эффективное управление данными инженерных расчетов в процессе раз...
ANSYS EKM – эффективное управление данными инженерных расчетов в процессе раз...Yury Novozhilov
 
презентация л.р. №2
презентация л.р. №2презентация л.р. №2
презентация л.р. №2student_kai
 
Fujifilm - where zettabytes lives @ hpc day 2012 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kievFujifilm - where zettabytes lives @ hpc day 2012 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kievVolodymyr Saviak
 
Erbe e frutta in cucina - Herbes et fruits en cuisine - Herbs and fruit in th...
Erbe e frutta in cucina - Herbes et fruits en cuisine - Herbs and fruit in th...Erbe e frutta in cucina - Herbes et fruits en cuisine - Herbs and fruit in th...
Erbe e frutta in cucina - Herbes et fruits en cuisine - Herbs and fruit in th...Maria Grazia Cardani
 
Alekseev hpc day 2011 Kiev
Alekseev hpc day 2011 KievAlekseev hpc day 2011 Kiev
Alekseev hpc day 2011 KievVolodymyr Saviak
 
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...Volodymyr Saviak
 
Mellanox hpc update @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kievMellanox hpc update @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kievVolodymyr Saviak
 
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...Volodymyr Saviak
 
Petrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievPetrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievVolodymyr Saviak
 
Mellanox hpc day 2011 kiev
Mellanox hpc day 2011 kievMellanox hpc day 2011 kiev
Mellanox hpc day 2011 kievVolodymyr Saviak
 
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...Volodymyr Saviak
 
Kindratenko hpc day 2011 Kiev
Kindratenko hpc day 2011 KievKindratenko hpc day 2011 Kiev
Kindratenko hpc day 2011 KievVolodymyr Saviak
 
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
Extreme networks - network design principles for hpc @ hpcday 2012 kievExtreme networks - network design principles for hpc @ hpcday 2012 kiev
Extreme networks - network design principles for hpc @ hpcday 2012 kievVolodymyr Saviak
 
Massive solutions hpc day 2011 kiev
Massive solutions hpc day 2011 kievMassive solutions hpc day 2011 kiev
Massive solutions hpc day 2011 kievVolodymyr Saviak
 

Destacado (20)

презентация л.р. №14
презентация л.р. №14презентация л.р. №14
презентация л.р. №14
 
ANSYS EKM – эффективное управление данными инженерных расчетов в процессе раз...
ANSYS EKM – эффективное управление данными инженерных расчетов в процессе раз...ANSYS EKM – эффективное управление данными инженерных расчетов в процессе раз...
ANSYS EKM – эффективное управление данными инженерных расчетов в процессе раз...
 
презентация л.р. №2
презентация л.р. №2презентация л.р. №2
презентация л.р. №2
 
Cfx12 02 intro_cfx
Cfx12 02 intro_cfxCfx12 02 intro_cfx
Cfx12 02 intro_cfx
 
Fujifilm - where zettabytes lives @ hpc day 2012 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kievFujifilm - where zettabytes lives @ hpc day 2012 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kiev
 
Erbe e frutta in cucina - Herbes et fruits en cuisine - Herbs and fruit in th...
Erbe e frutta in cucina - Herbes et fruits en cuisine - Herbs and fruit in th...Erbe e frutta in cucina - Herbes et fruits en cuisine - Herbs and fruit in th...
Erbe e frutta in cucina - Herbes et fruits en cuisine - Herbs and fruit in th...
 
Hp kiev hpcday_20121012
Hp kiev hpcday_20121012Hp kiev hpcday_20121012
Hp kiev hpcday_20121012
 
Alekseev hpc day 2011 Kiev
Alekseev hpc day 2011 KievAlekseev hpc day 2011 Kiev
Alekseev hpc day 2011 Kiev
 
Apc hpc day 2011 kiev
Apc hpc day 2011 kievApc hpc day 2011 kiev
Apc hpc day 2011 kiev
 
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
 
Mellanox hpc update @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kievMellanox hpc update @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kiev
 
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
 
Petrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievPetrenko hpc day 2011 Kiev
Petrenko hpc day 2011 Kiev
 
Mellanox hpc day 2011 kiev
Mellanox hpc day 2011 kievMellanox hpc day 2011 kiev
Mellanox hpc day 2011 kiev
 
Golovinskiy hpc day 2011
Golovinskiy hpc day 2011Golovinskiy hpc day 2011
Golovinskiy hpc day 2011
 
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
 
Let's not waste water!
Let's not waste water!Let's not waste water!
Let's not waste water!
 
Kindratenko hpc day 2011 Kiev
Kindratenko hpc day 2011 KievKindratenko hpc day 2011 Kiev
Kindratenko hpc day 2011 Kiev
 
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
Extreme networks - network design principles for hpc @ hpcday 2012 kievExtreme networks - network design principles for hpc @ hpcday 2012 kiev
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
 
Massive solutions hpc day 2011 kiev
Massive solutions hpc day 2011 kievMassive solutions hpc day 2011 kiev
Massive solutions hpc day 2011 kiev
 

Similar a Nvidia hpc day 2011 kiev

Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктурыОбработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктурыVsevolod Shabad
 
Инструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningИнструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningSkolkovo Robotics Center
 
Aппаратное обеспечения для решения задач механики сыпучих сред
Aппаратное обеспечения для решения задач механики сыпучих средAппаратное обеспечения для решения задач механики сыпучих сред
Aппаратное обеспечения для решения задач механики сыпучих средYury Novozhilov
 
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)Ontico
 
Программно-технические комплексы для работы с геолого-геофизическими данными
Программно-технические комплексы для работы с геолого-геофизическими даннымиПрограммно-технические комплексы для работы с геолого-геофизическими данными
Программно-технические комплексы для работы с геолого-геофизическими даннымиVsevolod Shabad
 
High performance computing - принципы проектирования сети
High performance computing - принципы проектирования сетиHigh performance computing - принципы проектирования сети
High performance computing - принципы проектирования сетиMUK
 
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000Cisco Russia
 
Работа с Big Data
Работа с Big Data Работа с Big Data
Работа с Big Data MATLAB
 
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)Ontico
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиАндрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBS
 
Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Boris Kizko
 
Современные серверы DEPO Storm и системы хранения DEPO Storage
Современные серверы DEPO Storm и системы хранения DEPO StorageСовременные серверы DEPO Storm и системы хранения DEPO Storage
Современные серверы DEPO Storm и системы хранения DEPO StorageDEPO Computers
 
А.Левенчук -- аппаратное ускорение аналитики в BigData
А.Левенчук -- аппаратное ускорение аналитики в BigDataА.Левенчук -- аппаратное ускорение аналитики в BigData
А.Левенчук -- аппаратное ускорение аналитики в BigDataAnatoly Levenchuk
 
Hpc 2.26.03.2013.
Hpc 2.26.03.2013.Hpc 2.26.03.2013.
Hpc 2.26.03.2013.Boris Kizko
 
Взгляд в Будущее: обзор и стратегия развития магистрального оборудования Сisc...
Взгляд в Будущее: обзор и стратегия развития магистрального оборудования Сisc...Взгляд в Будущее: обзор и стратегия развития магистрального оборудования Сisc...
Взгляд в Будущее: обзор и стратегия развития магистрального оборудования Сisc...Cisco Russia
 
Тюним память и сетевой стек в Linux: история перевода высоконагруженных сер...
Тюним память  и сетевой стек в Linux: история перевода высоконагруженных  сер...Тюним память  и сетевой стек в Linux: история перевода высоконагруженных  сер...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных сер...Dmitry Samsonov
 
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...odnoklassniki.ru
 
Гидродинамическое моделирование: возможности оптимизации ИТ-инфраструктуры
Гидродинамическое моделирование: возможности оптимизации ИТ-инфраструктурыГидродинамическое моделирование: возможности оптимизации ИТ-инфраструктуры
Гидродинамическое моделирование: возможности оптимизации ИТ-инфраструктурыVsevolod Shabad
 
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...Ontico
 

Similar a Nvidia hpc day 2011 kiev (20)

Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктурыОбработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
 
Инструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningИнструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learning
 
Aппаратное обеспечения для решения задач механики сыпучих сред
Aппаратное обеспечения для решения задач механики сыпучих средAппаратное обеспечения для решения задач механики сыпучих сред
Aппаратное обеспечения для решения задач механики сыпучих сред
 
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
 
Программно-технические комплексы для работы с геолого-геофизическими данными
Программно-технические комплексы для работы с геолого-геофизическими даннымиПрограммно-технические комплексы для работы с геолого-геофизическими данными
Программно-технические комплексы для работы с геолого-геофизическими данными
 
High performance computing - принципы проектирования сети
High performance computing - принципы проектирования сетиHigh performance computing - принципы проектирования сети
High performance computing - принципы проектирования сети
 
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
 
Работа с Big Data
Работа с Big Data Работа с Big Data
Работа с Big Data
 
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиАндрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
 
Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Hpc 1.24.02.2013.
Hpc 1.24.02.2013.
 
Современные серверы DEPO Storm и системы хранения DEPO Storage
Современные серверы DEPO Storm и системы хранения DEPO StorageСовременные серверы DEPO Storm и системы хранения DEPO Storage
Современные серверы DEPO Storm и системы хранения DEPO Storage
 
33 mhz
33 mhz33 mhz
33 mhz
 
А.Левенчук -- аппаратное ускорение аналитики в BigData
А.Левенчук -- аппаратное ускорение аналитики в BigDataА.Левенчук -- аппаратное ускорение аналитики в BigData
А.Левенчук -- аппаратное ускорение аналитики в BigData
 
Hpc 2.26.03.2013.
Hpc 2.26.03.2013.Hpc 2.26.03.2013.
Hpc 2.26.03.2013.
 
Взгляд в Будущее: обзор и стратегия развития магистрального оборудования Сisc...
Взгляд в Будущее: обзор и стратегия развития магистрального оборудования Сisc...Взгляд в Будущее: обзор и стратегия развития магистрального оборудования Сisc...
Взгляд в Будущее: обзор и стратегия развития магистрального оборудования Сisc...
 
Тюним память и сетевой стек в Linux: история перевода высоконагруженных сер...
Тюним память  и сетевой стек в Linux: история перевода высоконагруженных  сер...Тюним память  и сетевой стек в Linux: история перевода высоконагруженных  сер...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных сер...
 
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
 
Гидродинамическое моделирование: возможности оптимизации ИТ-инфраструктуры
Гидродинамическое моделирование: возможности оптимизации ИТ-инфраструктурыГидродинамическое моделирование: возможности оптимизации ИТ-инфраструктуры
Гидродинамическое моделирование: возможности оптимизации ИТ-инфраструктуры
 
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...
 

Nvidia hpc day 2011 kiev

  • 3. Минимальное портирование для значительного ускорения Код приложения Весь остальной Только критические последовательный GPU функции CPU код CPU Параллелизация в соответствии с программной моделью CUDA 3
  • 4. GPU Tesla в основе 3 из Top 5 СК #2 : Tianhe-1A #4 : Nebulae #5 : Tsubame 2.0 7168 Tesla GPU’s 2.5 PFLOPS 4650 Tesla GPU’s 1.2 PFLOPS 4224 Tesla GPU’s 1.194 PFLOPS ―внедрили гетерогенную вычислительную архитектуру, использующую Мы не только создали самый быстрый компьютер, но так же ‖ CPU и GPU, это действительно инновация. Премьер министр Вен Цзябао Публичный комментарий Tianhe-1A 4
  • 5. Топ50 – интересные факты • 7 кластеров на базе NVIDIA Tesla. • 7 кластеров на базе GPU обеспечивают суммарную производительность равную производительности всех остальных систем в списке: 1616,7 из 3275,86 ТФлопс 5
  • 6. Самый эффективный петафлопный СК Tsubame 2.0 1.192 Пф 1.340 МВт 4200 Tesla M2050 GPUs Токийский технологический институт 6
  • 7. Будущее сегодня 18,000+ Tesla GPUs 20+ PetaFlops В 3 раза более энергоэффективный по сравнению с #1 (K Computer) 7
  • 8. Самый быстрый вычислитель для задач МД Эффективная производительность 1.87 Petaflops/s Institute of Process Engineering (IPE) Chinese Academy of Sciences (CAS) Моделирование кристаллического кремния Использованы все 7168 Tesla GPU 8
  • 9. Решения Tesla для рабочих станций и ЦОД Tesla M-series GPUs Tesla C-series GPUs M2090 | M2075 | M2070 | M2050 C2075 | C2070 | C2050 Серверы & блейды Рабочие станции M2090 M2075 M2070 M2050 C2075 C2070 C2050 Кол-во ядер 512 448 448 448 448 448 448 Объем памяти 6 GB 6 GB 6 GB 3 GB 6 GB 6 GB 3 GB Пс памяти 148.8 148.8 148.8 177.6 GB/s 150 GB/s 150 GB/s 148.8 GB/s (ECC откл) GB/s GB/s GB/s Одинарная Пиковая 1331 1030 1030 1030 1030 1030 1030 точность произв Gflops Двойная 665 515 515 515 515 515 515 точность 9
  • 10. Решения Tesla для рабочих станций и ЦОД Tesla M-series GPUs Tesla C-series GPUs M2090 | M2075 C2075 Серверы & блейды Рабочие станции M2090 M2075 C2075 Кол-во ядер 512 448 448 Объем памяти 6 GB 6 GB 6 GB Пс памяти 148.8 177.6 GB/s 150 GB/s (ECC откл) GB/s Одинарная Пиковая 1331 1030 1030 точность произв Gflops Двойная 665 515 515 точность 10
  • 11. Самый быстрый в мире HPC процессор Tesla M2090: 512 ядерный продукт архитектуры Fermi 512 CUDA ядер 35 M2090 vs M2070: 20-30% ускорение 30 665 GFlops 25 20 178 GB/s 15 10 5 0 Supercomputing Life Science Oil & Gas Material Science Manufacturing Linpack AMBER Kirchoff Time WL-LSMS Abaqus Migration 12
  • 12. Мировой рекорд производительности в AMBER 4 Tesla M2090 GPUs 192 Quad-Core CPUs + 2 CPUs 69 нс/день 46 нс/день Больший размер Быстрее = = Больший реализм молекул JAC NVE Benchmark 13
  • 13. 14
  • 14. Новая версия ANSYS Mechanical – R14 Preview available now, R14 release coming in November ANSYS Mechanical14.0 Preview 3 DMP vs. 13.0 SP2 SMP for Tesla GPU 750 Xeon 5670 + Tesla C2075 for 13.0 SP2 SMP V13sp-5 Model Xeon 5670 + Tesla C2075 for 14.0 P3 DMP ANSYS Mechanical Times in Lower is 500 better 414 32% 395 45% 358 33% 314 250 273 270 Seconds - Turbine geometry - 2,100 K DOF 13SP 14P 13SP 14P 13SP 14P - Static, nonlinear 0 2 3 2 3 2 3 - Direct sparse 4 Core 6 Core 8 Core 15
  • 15. Прирост более чем в 4 раза vs стандартной лицензии NOTE: Based on ANSYS Mechanical 14.0 Preview 3 DMP Solver Aug 2011 and Model V13sp-5 5 Factors Gain Over Base License Results CPU Speed-up 4 GPU Speed-up 4.4 Extra 40% cost Solution Cost yields 400% performance 3 2 2.1 1 1.35 1.38 V13sp-5 Model: 1.0 1.0 - 2,100 K DOF 0 -Static nonlinear -Direct sparse Base License ANSYS HPC Pack ANSYS HPC Pack 2 Core 6 Cores 6 Cores + GPU 16
  • 16. MATLAB MATLAB R2011b Критическая масса функционала уже на GPU Преимущества 177 функций портированны на GPU (из ~250) • Random number generation • Solvers • SVD • FFT • Convolutions • Cholesky and LU • Matrix multiplications • Min/max factorization Поддержка компилятора MATLAB GPU функционал в Communications Systems Toolbox Дальнейшее повышение производительности Фокусный рынок: наука, исследования и ... 17
  • 17. Gaussian будет ускорен на CUDA Aug. 29, 2011 — NVIDIA announced plans with Gaussian, Inc., and The Portland Group® (PGI) to develop a future GPU-accelerated release of Gaussian, the world’s leading software application for quantum chemistry. 18
  • 18. CUDA 4.0 Портирование приложений становится удобнее Удобная работа с несколькими GPU GPU Direct 2.0 Удобство в портировании приложений Unified Virtual Addressing Программирование на C++ Thrust 19
  • 19. До появления GPUDirect v2.0 Требовалась копия в памяти хоста GPU1 GPU2 Memory Memory System Memory CPU GPU1 GPU2 PCI-e Chip set 20
  • 20. GPUDirect v2.0: взаимодействие Peer-to-Peer Прямая передача данных между GPU GPU1 GPU2 Memory Memory System Memory CPU GPU1 GPU2 PCI-e Chip set 21
  • 21. Unified Virtual Addressing Единое адресное пространство Без UVA UVA System GPU0 GPU1 System GPU0 GPU1 Memory Memory Memory Memory Memory Memory 0x0000 0x0000 0x0000 0x0000 0xFFFF 0xFFFF 0xFFFF 0xFFFF CPU GPU0 GPU1 CPU GPU0 GPU1 PCI-e PCI-e 22
  • 22. Параллельные алгоритмы в стиле C++ STL (Thrust) Производительные C++ параллельные алгоритмы & структуры данных Синтаксис схож с C++ STL (Standard Template Library ) Open Source библиотека: Apache License 2.0 (http://code.google.com/p/thrust/) Автоматический выбор более производительных алгоритмов Алгоритмы имеют различные бекэнды (GPU, CPU/OpenMP) Параллельная сортировка в 5x - 100x быстрее чем в STL и TBB Структуры данных Алгоритмы • thrust::device_vector • thrust::sort • thrust::host_vector • thrust::reduce • thrust::device_ptr • thrust::exclusive_scan • И т.п. • И.т.п. 23
  • 23. Результаты опроса пользователей Изменение 1-5% кода В 2 раза быстрее за 3 чел/мес 10 8 6 Speed Up 4 2 0 0 3 6 Чел-мес 24
  • 24. Роадмап Tesla CUDA GPU 16 Maxwell 14 DP GFLOPS per Watt 12 10 8 6 Kepler 4 Fermi 2 T10 2008 2010 2012 2014 25
  • 25. 26