SlideShare una empresa de Scribd logo
1 de 54
Descargar para leer sin conexión
Решения для высокопроизводительных
вычислений от NVIDIA

Октябрь 2009

                                     1
Гетерогенные вычисления




           4 ядра


             Вычисления CPU + GPU
      Гибридные вычислительные системы


                                         2
Когда прирост производительности имеет значение?
                                                                                                                 Shader Model 4 + CUDA
                                                                                                                (754Mill / 1.4 Bill / 3.0 Bill
                                                                                                                      Transistors)
Производительность в GFlops




                                                         Sailships           Steamships             Airplanes
                                                                                                                                         Fermi
                              1000
   Скорость в миль/час




                                                                                          Shader Model 3 + GPGPU
                                                                  Shader Model 1 & 2 (222 / 302 Mill Transistors)
                              100                            (63Mill / 130 Mill Transistors)
                                              Pixel Transfer
                                       (1Mill / 22 Mill Transistors)

                               10



                                1
                                     1700 1725 1750 1775 1800 1825 1850 1875 1900 1925 1950 1970

                                       1995         1999        2002        2003          2004      2005        2006        2008         2010
                                                                                                                                                 3
GPU : переломный момент в отрасли
суперкомпьютеров
            Десктоп эффективнее кластера


                 4 Tesla
               C1060 GPUs          59,9 сек




              256 AMD dual-
              core Opterons                                  67,4 сек



                              55              60               65             70   Tesla Personal
  CalcUA                            Компьютерная томография,                       Supercomputer
  $5 млн.                               время обработки
                                                                                      $10,000
                                   Источник: University of Antwerp, Belgium
                                                                                                    4
Прирост производительности до 150 раз


    146X                  36X                  18X                   50X                100X
Рентгенография,     Молекулярная          Транскодирование    Математические         Астрофизика
  томография           динамика                 видео          вычисления               RIKEN
    U of Utah     U of Illinois, Urbana     Elemental Tech     AccelerEyes




     149X                  47X                 20X                  130X                 30X
  Финансовые           Линейная            3D ультразвук      Квантовая химия           Генная
    задачи              алгебра             Techniscan       U of Illinois, Urbana    инженерия
    Oxford         Universidad Jaime                                                 U of Maryland


                                                                                                     5
Compute Unified Device Architecture

Программно-аппаратная архитектура для
      параллельных вычислений
                                        6
Архитектура параллельных вычислений CUDA



Архитектура для
параллельных вычислений

Включает Си компилятор

Стандартные языки и API


                          ATI’s Compute “Solution”




                                                     7
CUDA. Факты.

900+ научных трудов

115+ университетов преподают
CUDA

60 тыс. разработчиков

200 млн. GPU с CUDA

                               www.NVIDIA.ru/CUDA
                                                    8
Более 250 заказчиков / разработчиков ПО
     Life Sciences &                 Productivit       Oil and                    Manufa                   CAE /        Commun
    Medical Equipment                 y / Misc          Gas            EDA        cturing   Finance       Numerics       ication

  Max Planck      GE Healthcare           CEA            Hess        Synopsys     Renault     Symcor         The           Nokia
     FDA             Siemens         WRF Weather        TOTAL        Nascentric   Boeing      Level 3     Mathworks         RIM
   Robarts         Techniscan         Modeling        CGG/Veritas     Gauda                  SciComp       Wolfram        Philips
   Research      Boston Scientific      OptiTex        Chevron          CST                  Hanweck        National     Samsung
  Medtronic          Eli Lilly           Tech-X        Headwave       Agilent                 Quant       Instruments       LG
     AGC             Silicon           Elemental      Acceleware                             Catalyst       Access         Sony
                                     Technologies                                                          Analytics
  Evolved          Informatics                        Seismic City                          RogueWave                    Ericsson
                                     Dimensional                                                            Tech-x
  machines          Stockholm           Imaging         P-Wave                              BNP Paribas                    NTT
Smith-Waterman      Research                            Seismic                                             RIKEN        DoCoMo
                                       Manifold
DNA sequencing       Harvard                            Imaging                                             SOFA         Mitsubishi
                                        Digisens
  AutoDock          Delaware                            Mercury                                                           Hitachi
                                      General Mills
  NAMD/VMD          Pittsburg                          Computer                                                           Radio
                                       Rapidmind
Folding@Home       ETH Zurich                             ffA                                                            Research
                                       MS Visual
Howard Huges     Institute Atomic                                                                                       Laboratory
                                        Studio
  Medical            Physics                                                                                            US Air Force
                                     Rhythm & Hues
CRIBI Genomics
                                        xNormal
                                       Elcomsoft
                                         LINZIK
                                                                                                                               9
Параллельные вычисления на GPU
200+ млн. GPU в мире поддерживают CUDA

    GeForce®                  TeslaTM                     Quadro®
    Развлечения   Высокопроизводительные вычисления   Дизайн, разработка




                                                                           10
Выбор CUDA платформы
                                                                Tesla   Quadro   GeForce

Стресс-тест с проверкой точности вычислений                      X
Произведено NVIDIA из высококачественных комплектующих           X        X
3-х летняя гарантия, корпоративная поддержка                     X        X
4 Гб оперативной памяти для работы с большими объемами данных    X        X
Единое профессиональное решение для вычислений и графики                  X
Пользовательские приложения: PhysX, Video, Imaging                                 X
Короткий жизненный цикл пользовательского продукта                                 X
Производится и сопровождается партнерами NVIDIA                                    X
Поддержка осуществляется через партнеров NVIDIA                                    X

                                                                                       11
Вычислительные решения Tesla

  Созданы для профессионалов.




                                12
GPU NVIDIA Tesla 10-й серии

L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1




L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1




                                                                             13
Tesla: созданы для вычислений
Системные решения           Профессиональный уровень

                            Высококачественная память
                            Надежность вычислений
                            24-часовой стресс-тест




  Поддержка NVIDIA          Вычислительные ресурсы

3-х летняя гарантия         Архитектура вычислений CUDA
Длинный жизненный цикл      4 ГБ ОЗУ
Корпоративная поддержка     двойная точность IEEE-754



                                                        14
Вычислительные решения Tesla




                                                                    Tesla Personal
                         Tesla S1070 1U System
                                                  Tesla C1060       Supercomputer
                                                 Computing Board    (4 Tesla C1060s)

       GPUs                  4 Tesla GPUs           1 Tesla GPU       4 Tesla GPUs
Single Precision Perf.        4.14 Teraflops        933 Gigaflops      3.7 Teraflops
Double Precision Perf         346 Gigaflops         78 Gigaflops       312 Gigaflops
      Memory                   4 GB / GPU               4 GB            4 GB / GPU



                                                                                       15
Tesla S1070: эффективное решение

   До 20 раз лучше показатель
    производительность/Ватт


                                Hess        University of Heidelberg
                                Chevron     University of Illinois
                                Petrobras   University of North Carolina
                                NCSA        Max Planck Institute
                                CEA         Rice University
                                TiTech      University of Maryland
                                JFCOM       GusGus
                                SAIC        Eotvas University
                                Federal     University of Wuppertal
                                Motorola    Chinese Academy of Sciences
                                Kodak       National Taiwan University

                                                                  16
Пример: ЦОД стоимостью $5 млн.
CPU 1U Server   2 Quad-core Xeon           8 CPU Cores +            CPU 1U Server
                  CPUs: 8 cores            960 GPU Сores
                                                                   Tesla 1U System
                0.17 Teraflop (single)   4.14 Teraflops (single)
                0.08 Teraflop (double)   0.346 Teraflop (double)
                       $ 3,000                  $ 11,000
                        700 W                   1500 W



                 1819 CPU servers         455 CPU servers
                                         455 Tesla systems
                310 Teraflops (single)   1961 Teraflops (single)         6x more perf
                155 Teraflops (double)   196 Teraflops (double)

                Total area 16K sq feet    Total area 9K sq feet          60% smaller
                    Total 1273 KW            Total 682 KW
                                                                         ½ the power
                                                                                        17
Персональный суперкомпьютер Tesla
                 Производительность
                   Массивно параллельная CUDA архитектура
                   960 ядер. 4 Терафлоп/с
                   В 250 раз мощнее ПК

                 Удобство
                   Суперкомпьютер на рабочем столе
                   Включается в обычную розетку

                 Доступность
                   Программируется на Си под Windows и Linux
                   Стоимость порядка $10,000


                                                          18
В 100 раз доступнее
                                            В 20 раз экономичнее              Tesla
                250x                                                        Personal
Производительность




                                                                          Supercomputer



                           Supercomputing
                               Cluster                       В 250 раз
                                                             быстрее




                     1x                                                       Современный
                                                                                   ПК



                          $100K - $1M                               < $10 K
                                               Доступность                                  19
Высокопроизводительные вычисления на базе GPU

                                               Tesla Cluster
                      5000x
Производительность




                                                                             Tesla Personal
                                                                             Supercomputer
                      250x
                              Supercomputing
                                  Cluster


                                                                                Standard
                                                                               Workstation
                        1x



                              $100K - $1M                          < $10 K
                                                     Доступность                              20
21
Медицинская техника

 GE Healthcare : CT
     40% increase in CT resolution
     2x increase in frame rate

 Techniscan: Ultra-sound
                                        Source: Stone et al, UIUC
     High resolution ultra-sound
     2x increase in acquisition

 Digisens : Tomography
     Tomography reconstruction

 Several others on
     X-Ray, Flow Cytometry, MRI, etc

                                       Source: Batenburg, Sijbers, et al   22
Digisens SnapCT: Визуализация результатов CT




                                               23
3D анализ данных сейсморазведки

SVI Pro 2009 is the first
application to accelerate 3D
seismic analysis through
parallel computation on multiple
GPUs.
Leading to performance gains
of up to 37x on workstation
hardware.



                                   24
3D анализ данных сейсморазведки / Mercury




                                            25
Клиенты


                 GPU vs CPU
                 преимущества
Oil & Gas ISVs
                 Performance / Watt    18x - 27x   12x - 17x


                 Performance / Space   20x - 31x   15x - 20x


                 Performance / Cost    15x - 20x   10x - 12x



                                                           26
Финансы: оценка котировок




           1        Одинаковая производительность        1

    2 Tesla S1070        16x экономия места     500 CPU Servers

        $24 K           10x меньше стоимость          $250 K

      2.8 kWatts      13x меньше потребление        37.5 kWatts
                                                                  27
Финансы: прогнозирование рынка в режиме РВ
 Volera real-time option valuation engine
 Value entire U.S. listed options market in real-time using 3 NVIDIA Tesla S1070’s



                       GPUs          CPUs           Savings

 Processors             12            736

 Rack Space             6U            92U             15x

 Hardware Cost        $36,000      $370,000           10x

 Annual Cost          $31,000      $390,000           13x



 Figures assume:
    Tesla S1070 + one 8-core host server per node
    $260 / U / month rack and power charges
    3-year hardware amortization
                                                                                     28
MATLAB: ускорение на GPU

 Jacket CUDA plugin from
 Accelereyes
    http://www.accelereyes.com
    15-day trail version avaiable


 Tesla GPU in a workstation
    For MATLAB and research              143x Speedup



                                      86x Speedup


                                    44x Speedup




                                                        29
Молекулярная динамика & квантовая химия
 Available MD software
      NAMD / VMD (alpha release)
      GROMACS (alpha release)
      HOOMD
 OpenMM : Library for molecular
 modeling https://simtk.org/home/openmm
                                           Source: Stone, Phillips, Hardy, Schulten




              Source: Ufimtsev, Martinez    Source: Anderson, Lorenz, Travesset
                                                                                      30
Биоинформатика
                              62x Speedup



 Available applications      102x Speedup

      GPU HMMER
      MUMmerGPU sequencing
      MATLAB acceleration
      Protein docking




                                            31
32
Промышленность / FEA (Finite Element Analysis)

 Сочетание визуализации и симуляции
 Переход от сервера к рабочей станции(пример: CFD)




                                                     33
Новое поколение архитектуры GPU CUDA
              “Fermi”

                                       34
Обзор Fermi
Суперкомпьютер в формате GPU
                                 3 млрд транзисторов
DRAM I/F




                      DRAM I/F
                                 Вдвое больше ядер (512 ядер)

                                 8-кратный прирост DP производительности




                      DRAM I/F
HOST I/F




                                 ECC

              L2                 L1 и L2 кэш
Giga Thread




                      DRAM I/F
                                 Вдвое большая пропускная способность
                                 памяти (GDDR5)

                                 До 1Тб памяти на GPU
                      DRAM I/F
DRAM I/F




                                 Конкурируещее исполнение кода, C++



                                                                        35
“Oak Ridge National Lab (ORNL) has already announced it will be
using Fermi technology in an upcoming super that is "expected to
be 10-times more powerful than today's fastest supercomputer."

Since ORNL's Jaguar supercomputer, for all intents and purposes,
holds that title, and is in the process of being upgraded to 2.3
PFlops….

…we can surmise that the upcoming Fermi-equipped super is going
to be in the   20 Petaflops   range.”




                                                September 30 2009


                                                                    36
Цель Fermi




                      DRAM I/F




                                         DRAM I/F
 Расширение круга
 задач, решаемых с
 помощью GPU




                                         DRAM I/F
                      HOST I/F
 Больше                             L2




                      Giga Thread




                                         DRAM I/F
 пользователей и
 приложений для GPU




                                         DRAM I/F
                      DRAM I/F



                                                    37
Архитектура SM                            Instruction Cache

                                        Scheduler Scheduler


                                        Dispatch    Dispatch

 32 CUDA ядра в SM (512 ядер всего)         Register File

                                        Core Core Core Core



 8-и кратный прирост пиковой
                                        Core Core Core Core


 производительности в операциях с       Core Core Core Core


 плавающей точкой                       Core Core Core Core


    50% от пиковой производительности   Core Core Core Core

    вычислений с одинарной точностью    Core Core Core Core

                                        Core Core Core Core

 Два менеджера потоков                  Core Core Core Core

                                        Load/Store Units x 16
                                        Special Func Units x 4
 64 KB RAM общей памяти и L1 кэш        Interconnect Network

 (конфигурируемый)                        64K Configurable
                                         Cache/Shared Mem

                                           Uniform Cache



                                                                 38
Архитектура ядра CUDA                                        Instruction Cache

                                                           Scheduler Scheduler


                                                           Dispatch    Dispatch

 Поддержка стандарта IEEE 754-2008,                            Register File


 недоступного на современных CPU                           Core Core Core Core

                                                           Core Core Core Core


 FMA(Fused multiply-add) операции                          Core Core Core Core



 как для операций с одинарной так
                                                           Core Core Core Core
                                      CUDA Core
 и с двойной точностью                  Dispatch Port
                                                           Core Core Core Core


                                      Operand Collector    Core Core Core Core

                                                           Core Core Core Core
 Новый ALU оптимизированный           FP Unit   INT Unit   Core Core Core Core
 для 64-битных операций и                                  Load/Store Units x 16

 операций с повышенной точностью        Result Queue       Special Func Units x 4

                                                           Interconnect Network

                                                             64K Configurable
                                                            Cache/Shared Mem

                                                              Uniform Cache



                                                                                    39
Иерархический кэш
 Первая архитектура GPU поддерживающая
 иерархический кэш в сочетании с разделяемой
 памятью на GPU

 L1 в каждом SM (32 ядра)
     Улучшение пропускной способности и снижение
     латентности




                                                                            DRAM I/F
                                                    DRAM I/F
 Унифицированный L2 кэш (768 KB)




                                                                            DRAM I/F
                                                    HOST I/F
     Позволяет эффективно общаться всем ядрам GPU                 L2




                                                    Giga Thread




                                                                            DRAM I/F
          Parallel DataCache™




                                                    DRAM I/F




                                                                            DRAM I/F
           Memory Hierarchy
                                                                       40
Быстрый интерфейс памяти

 GDDR5 интерфейс памяти
    2-кратный прирост vs GDDR3


 Поддержка до 1Тб памяти на GPU
    Для работы с большими наборами данных




                                                                    DRAM I/F
                                            DRAM I/F




                                                                    DRAM I/F
                                            HOST I/F
                                                          L2




                                            Giga Thread




                                                                    DRAM I/F
                                            DRAM I/F




                                                                    DRAM I/F
                                                               41
ECC
 ECC защита для
    DRAM
        ECC поддержка для GDDR5 памяти


      Все внутренняя памяти защищена ECC
        Файл регистров, L1 кэш, L2 кэш




                                           42
GigaThreadTM Hardware Thread Scheduler (HTS)
Аппаратный менеджер потоков
  Одновременно управляет
  тысячами активных потоков


  В 10 раз более быстрое           HTS
  переключение между контекстами


  Одновременное исполнение
  нескольких кернелов




                                               43
Аппаратный менеджер потоков GigaThread
Одновременное исполнение нескольких кернелов + быстрое переключение контекста


         Kernel 1                        Kernel 1            Kernel 2

                                                                           Ker
                        Kernel 2               Kernel 2         Kernel 3
                                                                            4

           Kernel 2                     nel
                                                          Kernel 5
 Time




            Kernel 3

        Kernel 4


                       Kernel 5


         Последовательное исполнение          Параллельное исполнение
                                                                                 44
Схема передачи данных GigaThread
 2 DMA устройства
    Одновременная передача данных
    CPUGPUи GPUCPU
    Передача независит от счета на CPU и
    GPU

                                                    SDT

 Схема работы:


        Kernel 0     CPU       SDT0        GPU      SDT1

                   Kernel 1     CPU       SDT0      GPU    SDT1

                              Kernel 2     CPU      SDT0   GPU    SDT1

                                         Kernel 3   CPU    SDT0   GPU    SDT1


                                                                                45
Расширенная поддержка со стороны ПО

 Полная поддержка C++
    Виртуальные функции
    Метки


 Поддержка системных вызовов
    Поддержка С пайпов, семафоров, printf и тд


 Унифицированное 64-битное адресное пространство памяти



                                                          46
Параллельная архитектура CUDA


                 GPU Computing Applications




                               tm       Direct                                                          Java and
   C++    C            OpenCL                                       Fortran
                                       Compute                                                           Python




                            NVIDIA GPU
              with the CUDA Parallel Computing Architecture


                                                OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc.   47
NVIDIA Nexus IDE

1-й в индустрии IDE (Integrated Development Environment) для
   массивно-параллельных приложений


Ускорение разработки
гетерогенных (CPU + GPU) приложений

Полная интеграция со средствами
  разработки Visual Studio



                                                               48
49
“
I believe history will record Fermi as a significant
milestone.
            ”
        Dave Patterson
        Director Parallel Computing Research Laboratory, U.C. Berkeley
        Co-Author of Computer Architecture: A Quantitative Approach




         “     Fermi surpasses anything announced by NVIDIA's
                                leading GPU competitor (AMD).

                                                                    Tom Halfhill
                                                                                      ”
                                                                      Senior Editor
                                                             Microprocessor Report

                                                                                      50
“   Fermi is the world’s first complete GPU computing
    architecture.
                   ”
           Peter Glaskowsky
           Technology Analyst
           The Envisioneering Group




“     The convergence of new, fast GPUs optimized for computation as
       well as 3-D graphics acceleration and industry-standard software
     development tools marks the real beginning of the GPU computing
                    era. Gentlemen, start your GPU computing engines.

                                              Nathan Brookwood
                                                                             ”
                                             Principle Analyst & Founder
                                                                Insight 64
                                                                             51
Экосистема CUDA

Более 115 университетов преподают CUDA                        Языки      Компиляторы
                UIUC                  IIT Delhi                C, C++      PGI Fortran
                 MIT                  Tsinghua                 DirectX    CAPs HMPP
               Harvard               Dortmundt                 Fortran      MCUDA
               Berkeley              ETH Zurich                 Java          MPI
              Cambridge               Moscow                   OpenCL    NOAA Fortran2C
                Oxford                  NTU                    Python       OpenMP
                  …                       …


      Приложения                     Библиотеки          Консалтинг          OEM
                                            FFT
                                          BLAS
  Oil & Gas    Finance      CFD                            ANEO
                                         LAPACK
                                     Image processing
  Medical     Biophysics   Imaging   Video processing
                                     Signal processing
                                          Vision
  Numerics       DSP         EDA                         GPU Tech

                                                                                          52
Ссылки
 Fermi
   http://www.nvidia.ru/fermi
 CUDA Zone
    http://www.nvidia.ru/cuda
    Приложения, документы, видео
 Tesla
    http://www.nvidia.ru/tesla
    Спецификации, технические и маркетинговые материалы

 Вертикальные отраслевые решения
    http://www.nvidia.com/object/vertical_solutions.html

 YouTube Videos
    http://www.youtube.com/nvidiatesla


                                                           53
Вопросы?




           54

Más contenido relacionado

Destacado

Kickfolio - 500Startups Batch 5
Kickfolio - 500Startups Batch 5Kickfolio - 500Startups Batch 5
Kickfolio - 500Startups Batch 5500 Startups
 
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.seEdahn Small
 
How Wealthsimple raised $2M in 2 weeks
How Wealthsimple raised $2M in 2 weeksHow Wealthsimple raised $2M in 2 weeks
How Wealthsimple raised $2M in 2 weeksWealthsimple
 
AdPushup Fundraising Deck - First Pitch
AdPushup Fundraising Deck - First PitchAdPushup Fundraising Deck - First Pitch
AdPushup Fundraising Deck - First Pitchadpushup
 
Zenpayroll Pitch Deck Template
Zenpayroll Pitch Deck TemplateZenpayroll Pitch Deck Template
Zenpayroll Pitch Deck TemplateJoseph Hsieh
 
The deck we used to raise $270k for our startup Castle
The deck we used to raise $270k for our startup CastleThe deck we used to raise $270k for our startup Castle
The deck we used to raise $270k for our startup Castleentercastle
 
AppVirality.com - Investor Pitch Deck
AppVirality.com - Investor Pitch DeckAppVirality.com - Investor Pitch Deck
AppVirality.com - Investor Pitch DeckLaxman Papineni
 
The 10 most interesting slides that helped our SaaS company raise 9 million
The 10 most interesting slides that helped our SaaS company raise 9 millionThe 10 most interesting slides that helped our SaaS company raise 9 million
The 10 most interesting slides that helped our SaaS company raise 9 millionGoCanvas
 
Swipes pitch deck for Beta Pitch 2013 Finals in Berlin
Swipes pitch deck for Beta Pitch 2013 Finals in BerlinSwipes pitch deck for Beta Pitch 2013 Finals in Berlin
Swipes pitch deck for Beta Pitch 2013 Finals in BerlinSwipes App
 
500’s Demo Day Batch 16 >> Podozi
500’s Demo Day Batch 16 >>  Podozi500’s Demo Day Batch 16 >>  Podozi
500’s Demo Day Batch 16 >> Podozi500 Startups
 
Fittr Pitch Deck
Fittr Pitch DeckFittr Pitch Deck
Fittr Pitch Decknolanperk
 
The Deck We Used to Raise $1M Seed Round
The Deck We Used to Raise $1M Seed RoundThe Deck We Used to Raise $1M Seed Round
The Deck We Used to Raise $1M Seed RoundBen Lang
 
Dwolla Startup Pitch Deck
Dwolla Startup Pitch DeckDwolla Startup Pitch Deck
Dwolla Startup Pitch DeckJoseph Hsieh
 
20 Tweetable Quotes to Inspire Marketing & Design Creative Genius
20 Tweetable Quotes to Inspire Marketing & Design Creative Genius20 Tweetable Quotes to Inspire Marketing & Design Creative Genius
20 Tweetable Quotes to Inspire Marketing & Design Creative GeniusIMPACT Branding & Design LLC
 
40 Tools in 20 Minutes: Hacking your Marketing Career
40 Tools in 20 Minutes: Hacking your Marketing Career40 Tools in 20 Minutes: Hacking your Marketing Career
40 Tools in 20 Minutes: Hacking your Marketing CareerEric Leist
 

Destacado (18)

Kickfolio - 500Startups Batch 5
Kickfolio - 500Startups Batch 5Kickfolio - 500Startups Batch 5
Kickfolio - 500Startups Batch 5
 
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
10 Tips for Making Beautiful Slideshow Presentations by www.visuali.se
 
How Wealthsimple raised $2M in 2 weeks
How Wealthsimple raised $2M in 2 weeksHow Wealthsimple raised $2M in 2 weeks
How Wealthsimple raised $2M in 2 weeks
 
AdPushup Fundraising Deck - First Pitch
AdPushup Fundraising Deck - First PitchAdPushup Fundraising Deck - First Pitch
AdPushup Fundraising Deck - First Pitch
 
Zenpayroll Pitch Deck Template
Zenpayroll Pitch Deck TemplateZenpayroll Pitch Deck Template
Zenpayroll Pitch Deck Template
 
The deck we used to raise $270k for our startup Castle
The deck we used to raise $270k for our startup CastleThe deck we used to raise $270k for our startup Castle
The deck we used to raise $270k for our startup Castle
 
SteadyBudget's Seed Funding Pitch Deck
SteadyBudget's Seed Funding Pitch DeckSteadyBudget's Seed Funding Pitch Deck
SteadyBudget's Seed Funding Pitch Deck
 
AppVirality.com - Investor Pitch Deck
AppVirality.com - Investor Pitch DeckAppVirality.com - Investor Pitch Deck
AppVirality.com - Investor Pitch Deck
 
The 10 most interesting slides that helped our SaaS company raise 9 million
The 10 most interesting slides that helped our SaaS company raise 9 millionThe 10 most interesting slides that helped our SaaS company raise 9 million
The 10 most interesting slides that helped our SaaS company raise 9 million
 
Swipes pitch deck for Beta Pitch 2013 Finals in Berlin
Swipes pitch deck for Beta Pitch 2013 Finals in BerlinSwipes pitch deck for Beta Pitch 2013 Finals in Berlin
Swipes pitch deck for Beta Pitch 2013 Finals in Berlin
 
500’s Demo Day Batch 16 >> Podozi
500’s Demo Day Batch 16 >>  Podozi500’s Demo Day Batch 16 >>  Podozi
500’s Demo Day Batch 16 >> Podozi
 
Square Pitch Deck
Square Pitch DeckSquare Pitch Deck
Square Pitch Deck
 
Fittr Pitch Deck
Fittr Pitch DeckFittr Pitch Deck
Fittr Pitch Deck
 
The Deck We Used to Raise $1M Seed Round
The Deck We Used to Raise $1M Seed RoundThe Deck We Used to Raise $1M Seed Round
The Deck We Used to Raise $1M Seed Round
 
Dwolla Startup Pitch Deck
Dwolla Startup Pitch DeckDwolla Startup Pitch Deck
Dwolla Startup Pitch Deck
 
Manpacks
ManpacksManpacks
Manpacks
 
20 Tweetable Quotes to Inspire Marketing & Design Creative Genius
20 Tweetable Quotes to Inspire Marketing & Design Creative Genius20 Tweetable Quotes to Inspire Marketing & Design Creative Genius
20 Tweetable Quotes to Inspire Marketing & Design Creative Genius
 
40 Tools in 20 Minutes: Hacking your Marketing Career
40 Tools in 20 Minutes: Hacking your Marketing Career40 Tools in 20 Minutes: Hacking your Marketing Career
40 Tools in 20 Minutes: Hacking your Marketing Career
 

Similar a Nvidia Hpc Day Kiev Rus

Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...Ontico
 
HighLoad++ 2018 Высоконагруженная распределенная система управления современн...
HighLoad++ 2018 Высоконагруженная распределенная система управления современн...HighLoad++ 2018 Высоконагруженная распределенная система управления современн...
HighLoad++ 2018 Высоконагруженная распределенная система управления современн...Vadim Podolniy
 
5 6 еремина мфти
5 6 еремина мфти5 6 еремина мфти
5 6 еремина мфти4smpir
 
Смарт - Технологии, Взгляд Со Стороны Разработчика
Смарт - Технологии, Взгляд Со Стороны РазработчикаСмарт - Технологии, Взгляд Со Стороны Разработчика
Смарт - Технологии, Взгляд Со Стороны РазработчикаPositive Hack Days
 
Программируемость и автоматизация решений Ciscо - практическое применение
Программируемость и автоматизация решений Ciscо - практическое применениеПрограммируемость и автоматизация решений Ciscо - практическое применение
Программируемость и автоматизация решений Ciscо - практическое применениеCisco Russia
 
Работа решателей Ansys на российском интерконнекте Ангара
Работа решателей Ansys на российском интерконнекте АнгараРабота решателей Ansys на российском интерконнекте Ангара
Работа решателей Ansys на российском интерконнекте АнгараYury Novozhilov
 
Японские инновации или чем уникальны японские серверы Fujitsu
Японские инновации или чем уникальны японские серверы FujitsuЯпонские инновации или чем уникальны японские серверы Fujitsu
Японские инновации или чем уникальны японские серверы FujitsuFujitsu Russia
 
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...Volodymyr Saviak
 
Технологии Intel для построения эффективной инфраструктуры
Технологии Intel для построения эффективной инфраструктурыТехнологии Intel для построения эффективной инфраструктуры
Технологии Intel для построения эффективной инфраструктурыCisco Russia
 
Дмитрий Рыжков. Intel Android x86.
Дмитрий Рыжков. Intel Android x86.Дмитрий Рыжков. Intel Android x86.
Дмитрий Рыжков. Intel Android x86.Leonid Bogolubov
 
Как Облачные вычисления изменят мир Информационных Технологий (ИТ)
Как Облачные вычисления изменят мир Информационных Технологий (ИТ)Как Облачные вычисления изменят мир Информационных Технологий (ИТ)
Как Облачные вычисления изменят мир Информационных Технологий (ИТ)Michael Kozloff
 
Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Boris Kizko
 
WhereShock Platform 4CIO 09.2018
WhereShock Platform 4CIO 09.2018WhereShock Platform 4CIO 09.2018
WhereShock Platform 4CIO 09.2018Vadim Podolniy
 
Review of IBM's Modern Approaches to Construction of Information Processing S...
Review of IBM's Modern Approaches to Construction of Information Processing S...Review of IBM's Modern Approaches to Construction of Information Processing S...
Review of IBM's Modern Approaches to Construction of Information Processing S...SSA KPI
 
Инструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningИнструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningSkolkovo Robotics Center
 
Обновление продуктовой линейки Juniper Networks. Маршрутизация. Коммутация. Б...
Обновление продуктовой линейки Juniper Networks. Маршрутизация. Коммутация. Б...Обновление продуктовой линейки Juniper Networks. Маршрутизация. Коммутация. Б...
Обновление продуктовой линейки Juniper Networks. Маршрутизация. Коммутация. Б...TERMILAB. Интернет - лаборатория
 
Veselova honewell krasnodar_ekbpromo
Veselova honewell krasnodar_ekbpromoVeselova honewell krasnodar_ekbpromo
Veselova honewell krasnodar_ekbpromoekbpromo
 

Similar a Nvidia Hpc Day Kiev Rus (20)

Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
 
HighLoad++ 2018 Высоконагруженная распределенная система управления современн...
HighLoad++ 2018 Высоконагруженная распределенная система управления современн...HighLoad++ 2018 Высоконагруженная распределенная система управления современн...
HighLoad++ 2018 Высоконагруженная распределенная система управления современн...
 
5 6 еремина мфти
5 6 еремина мфти5 6 еремина мфти
5 6 еремина мфти
 
5 6 еремина мфти
5 6 еремина мфти5 6 еремина мфти
5 6 еремина мфти
 
Смарт - Технологии, Взгляд Со Стороны Разработчика
Смарт - Технологии, Взгляд Со Стороны РазработчикаСмарт - Технологии, Взгляд Со Стороны Разработчика
Смарт - Технологии, Взгляд Со Стороны Разработчика
 
Программируемость и автоматизация решений Ciscо - практическое применение
Программируемость и автоматизация решений Ciscо - практическое применениеПрограммируемость и автоматизация решений Ciscо - практическое применение
Программируемость и автоматизация решений Ciscо - практическое применение
 
Efficiency vvv
Efficiency vvvEfficiency vvv
Efficiency vvv
 
Работа решателей Ansys на российском интерконнекте Ангара
Работа решателей Ansys на российском интерконнекте АнгараРабота решателей Ansys на российском интерконнекте Ангара
Работа решателей Ansys на российском интерконнекте Ангара
 
Японские инновации или чем уникальны японские серверы Fujitsu
Японские инновации или чем уникальны японские серверы FujitsuЯпонские инновации или чем уникальны японские серверы Fujitsu
Японские инновации или чем уникальны японские серверы Fujitsu
 
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
 
Технологии Intel для построения эффективной инфраструктуры
Технологии Intel для построения эффективной инфраструктурыТехнологии Intel для построения эффективной инфраструктуры
Технологии Intel для построения эффективной инфраструктуры
 
Дмитрий Рыжков. Intel Android x86.
Дмитрий Рыжков. Intel Android x86.Дмитрий Рыжков. Intel Android x86.
Дмитрий Рыжков. Intel Android x86.
 
Как Облачные вычисления изменят мир Информационных Технологий (ИТ)
Как Облачные вычисления изменят мир Информационных Технологий (ИТ)Как Облачные вычисления изменят мир Информационных Технологий (ИТ)
Как Облачные вычисления изменят мир Информационных Технологий (ИТ)
 
Hpc 1.24.02.2013.
Hpc 1.24.02.2013.Hpc 1.24.02.2013.
Hpc 1.24.02.2013.
 
WhereShock Platform 4CIO 09.2018
WhereShock Platform 4CIO 09.2018WhereShock Platform 4CIO 09.2018
WhereShock Platform 4CIO 09.2018
 
Review of IBM's Modern Approaches to Construction of Information Processing S...
Review of IBM's Modern Approaches to Construction of Information Processing S...Review of IBM's Modern Approaches to Construction of Information Processing S...
Review of IBM's Modern Approaches to Construction of Information Processing S...
 
Инструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learningИнструментарий Nvidia для deep learning
Инструментарий Nvidia для deep learning
 
Обновление продуктовой линейки Juniper Networks. Маршрутизация. Коммутация. Б...
Обновление продуктовой линейки Juniper Networks. Маршрутизация. Коммутация. Б...Обновление продуктовой линейки Juniper Networks. Маршрутизация. Коммутация. Б...
Обновление продуктовой линейки Juniper Networks. Маршрутизация. Коммутация. Б...
 
Veselova honewell krasnodar_ekbpromo
Veselova honewell krasnodar_ekbpromoVeselova honewell krasnodar_ekbpromo
Veselova honewell krasnodar_ekbpromo
 
Apc by schneider electric
Apc by schneider electricApc by schneider electric
Apc by schneider electric
 

Más de Oleg Nazarevych

Етикет службового листування
Етикет службового листуванняЕтикет службового листування
Етикет службового листуванняOleg Nazarevych
 
Оцінка трудомісткості і термінів проекту
Оцінка трудомісткості і термінів проектуОцінка трудомісткості і термінів проекту
Оцінка трудомісткості і термінів проектуOleg Nazarevych
 
5 Управління ризиками (2016)
5 Управління ризиками (2016)5 Управління ризиками (2016)
5 Управління ризиками (2016)Oleg Nazarevych
 
Л2 Управління проектами. Визначення та концепції
Л2 Управління проектами. Визначення та концепціїЛ2 Управління проектами. Визначення та концепції
Л2 Управління проектами. Визначення та концепціїOleg Nazarevych
 
Л1 Введення в програмну інженерію
Л1 Введення в програмну інженеріюЛ1 Введення в програмну інженерію
Л1 Введення в програмну інженеріюOleg Nazarevych
 
Ініціація проекту
Ініціація проектуІніціація проекту
Ініціація проектуOleg Nazarevych
 
4 Планування проекту (2018)
4 Планування проекту (2018)4 Планування проекту (2018)
4 Планування проекту (2018)Oleg Nazarevych
 
Введення в програмну інженерію. Моделі розробки проектів
Введення в програмну інженерію. Моделі розробки проектівВведення в програмну інженерію. Моделі розробки проектів
Введення в програмну інженерію. Моделі розробки проектівOleg Nazarevych
 
Відеоскрайбінг
ВідеоскрайбінгВідеоскрайбінг
ВідеоскрайбінгOleg Nazarevych
 
Основи графічного дизайну
Основи графічного дизайнуОснови графічного дизайну
Основи графічного дизайнуOleg Nazarevych
 
Тема 1 Основні терміни і поняття
Тема 1 Основні терміни і поняттяТема 1 Основні терміни і поняття
Тема 1 Основні терміни і поняттяOleg Nazarevych
 
Дебетові системи електронних платежів
Дебетові системи електронних платежівДебетові системи електронних платежів
Дебетові системи електронних платежівOleg Nazarevych
 
Тема 15 Банерна реклама
Тема 15 Банерна рекламаТема 15 Банерна реклама
Тема 15 Банерна рекламаOleg Nazarevych
 
Тема 3 (2) Основні принципи функціонування та роботи систем електронної комерції
Тема 3 (2) Основні принципи функціонування та роботи систем електронної комерціїТема 3 (2) Основні принципи функціонування та роботи систем електронної комерції
Тема 3 (2) Основні принципи функціонування та роботи систем електронної комерціїOleg Nazarevych
 
Тема 14 Пошукова оптимізація. SEO оптимізація
Тема 14 Пошукова оптимізація. SEO оптимізаціяТема 14 Пошукова оптимізація. SEO оптимізація
Тема 14 Пошукова оптимізація. SEO оптимізаціяOleg Nazarevych
 
Тема № 12. Дебетові системи електронних платежів
Тема № 12. Дебетові системи електронних платежівТема № 12. Дебетові системи електронних платежів
Тема № 12. Дебетові системи електронних платежівOleg Nazarevych
 
Тема 5 Системи електронної комерції B2C
Тема 5 Системи електронної комерції B2CТема 5 Системи електронної комерції B2C
Тема 5 Системи електронної комерції B2COleg Nazarevych
 
Тема 7 (2) Послуги в електронній комерції
Тема 7 (2) Послуги в електронній комерціїТема 7 (2) Послуги в електронній комерції
Тема 7 (2) Послуги в електронній комерціїOleg Nazarevych
 
Тема 18 Методи аналізу ефективності інтернет реклами
Тема 18 Методи аналізу ефективності інтернет рекламиТема 18 Методи аналізу ефективності інтернет реклами
Тема 18 Методи аналізу ефективності інтернет рекламиOleg Nazarevych
 

Más de Oleg Nazarevych (20)

Етикет службового листування
Етикет службового листуванняЕтикет службового листування
Етикет службового листування
 
Оцінка трудомісткості і термінів проекту
Оцінка трудомісткості і термінів проектуОцінка трудомісткості і термінів проекту
Оцінка трудомісткості і термінів проекту
 
5 Управління ризиками (2016)
5 Управління ризиками (2016)5 Управління ризиками (2016)
5 Управління ризиками (2016)
 
Л2 Управління проектами. Визначення та концепції
Л2 Управління проектами. Визначення та концепціїЛ2 Управління проектами. Визначення та концепції
Л2 Управління проектами. Визначення та концепції
 
Л1 Введення в програмну інженерію
Л1 Введення в програмну інженеріюЛ1 Введення в програмну інженерію
Л1 Введення в програмну інженерію
 
Ініціація проекту
Ініціація проектуІніціація проекту
Ініціація проекту
 
4 Планування проекту (2018)
4 Планування проекту (2018)4 Планування проекту (2018)
4 Планування проекту (2018)
 
Введення в програмну інженерію. Моделі розробки проектів
Введення в програмну інженерію. Моделі розробки проектівВведення в програмну інженерію. Моделі розробки проектів
Введення в програмну інженерію. Моделі розробки проектів
 
Відеоскрайбінг
ВідеоскрайбінгВідеоскрайбінг
Відеоскрайбінг
 
3D графіка
3D графіка3D графіка
3D графіка
 
Основи графічного дизайну
Основи графічного дизайнуОснови графічного дизайну
Основи графічного дизайну
 
Тема 1 Основні терміни і поняття
Тема 1 Основні терміни і поняттяТема 1 Основні терміни і поняття
Тема 1 Основні терміни і поняття
 
Дебетові системи електронних платежів
Дебетові системи електронних платежівДебетові системи електронних платежів
Дебетові системи електронних платежів
 
Тема 15 Банерна реклама
Тема 15 Банерна рекламаТема 15 Банерна реклама
Тема 15 Банерна реклама
 
Тема 3 (2) Основні принципи функціонування та роботи систем електронної комерції
Тема 3 (2) Основні принципи функціонування та роботи систем електронної комерціїТема 3 (2) Основні принципи функціонування та роботи систем електронної комерції
Тема 3 (2) Основні принципи функціонування та роботи систем електронної комерції
 
Тема 14 Пошукова оптимізація. SEO оптимізація
Тема 14 Пошукова оптимізація. SEO оптимізаціяТема 14 Пошукова оптимізація. SEO оптимізація
Тема 14 Пошукова оптимізація. SEO оптимізація
 
Тема № 12. Дебетові системи електронних платежів
Тема № 12. Дебетові системи електронних платежівТема № 12. Дебетові системи електронних платежів
Тема № 12. Дебетові системи електронних платежів
 
Тема 5 Системи електронної комерції B2C
Тема 5 Системи електронної комерції B2CТема 5 Системи електронної комерції B2C
Тема 5 Системи електронної комерції B2C
 
Тема 7 (2) Послуги в електронній комерції
Тема 7 (2) Послуги в електронній комерціїТема 7 (2) Послуги в електронній комерції
Тема 7 (2) Послуги в електронній комерції
 
Тема 18 Методи аналізу ефективності інтернет реклами
Тема 18 Методи аналізу ефективності інтернет рекламиТема 18 Методи аналізу ефективності інтернет реклами
Тема 18 Методи аналізу ефективності інтернет реклами
 

Nvidia Hpc Day Kiev Rus

  • 2. Гетерогенные вычисления 4 ядра Вычисления CPU + GPU Гибридные вычислительные системы 2
  • 3. Когда прирост производительности имеет значение? Shader Model 4 + CUDA (754Mill / 1.4 Bill / 3.0 Bill Transistors) Производительность в GFlops Sailships Steamships Airplanes Fermi 1000 Скорость в миль/час Shader Model 3 + GPGPU Shader Model 1 & 2 (222 / 302 Mill Transistors) 100 (63Mill / 130 Mill Transistors) Pixel Transfer (1Mill / 22 Mill Transistors) 10 1 1700 1725 1750 1775 1800 1825 1850 1875 1900 1925 1950 1970 1995 1999 2002 2003 2004 2005 2006 2008 2010 3
  • 4. GPU : переломный момент в отрасли суперкомпьютеров Десктоп эффективнее кластера 4 Tesla C1060 GPUs 59,9 сек 256 AMD dual- core Opterons 67,4 сек 55 60 65 70 Tesla Personal CalcUA Компьютерная томография, Supercomputer $5 млн. время обработки $10,000 Источник: University of Antwerp, Belgium 4
  • 5. Прирост производительности до 150 раз 146X 36X 18X 50X 100X Рентгенография, Молекулярная Транскодирование Математические Астрофизика томография динамика видео вычисления RIKEN U of Utah U of Illinois, Urbana Elemental Tech AccelerEyes 149X 47X 20X 130X 30X Финансовые Линейная 3D ультразвук Квантовая химия Генная задачи алгебра Techniscan U of Illinois, Urbana инженерия Oxford Universidad Jaime U of Maryland 5
  • 6. Compute Unified Device Architecture Программно-аппаратная архитектура для параллельных вычислений 6
  • 7. Архитектура параллельных вычислений CUDA Архитектура для параллельных вычислений Включает Си компилятор Стандартные языки и API ATI’s Compute “Solution” 7
  • 8. CUDA. Факты. 900+ научных трудов 115+ университетов преподают CUDA 60 тыс. разработчиков 200 млн. GPU с CUDA www.NVIDIA.ru/CUDA 8
  • 9. Более 250 заказчиков / разработчиков ПО Life Sciences & Productivit Oil and Manufa CAE / Commun Medical Equipment y / Misc Gas EDA cturing Finance Numerics ication Max Planck GE Healthcare CEA Hess Synopsys Renault Symcor The Nokia FDA Siemens WRF Weather TOTAL Nascentric Boeing Level 3 Mathworks RIM Robarts Techniscan Modeling CGG/Veritas Gauda SciComp Wolfram Philips Research Boston Scientific OptiTex Chevron CST Hanweck National Samsung Medtronic Eli Lilly Tech-X Headwave Agilent Quant Instruments LG AGC Silicon Elemental Acceleware Catalyst Access Sony Technologies Analytics Evolved Informatics Seismic City RogueWave Ericsson Dimensional Tech-x machines Stockholm Imaging P-Wave BNP Paribas NTT Smith-Waterman Research Seismic RIKEN DoCoMo Manifold DNA sequencing Harvard Imaging SOFA Mitsubishi Digisens AutoDock Delaware Mercury Hitachi General Mills NAMD/VMD Pittsburg Computer Radio Rapidmind Folding@Home ETH Zurich ffA Research MS Visual Howard Huges Institute Atomic Laboratory Studio Medical Physics US Air Force Rhythm & Hues CRIBI Genomics xNormal Elcomsoft LINZIK 9
  • 10. Параллельные вычисления на GPU 200+ млн. GPU в мире поддерживают CUDA GeForce® TeslaTM Quadro® Развлечения Высокопроизводительные вычисления Дизайн, разработка 10
  • 11. Выбор CUDA платформы Tesla Quadro GeForce Стресс-тест с проверкой точности вычислений X Произведено NVIDIA из высококачественных комплектующих X X 3-х летняя гарантия, корпоративная поддержка X X 4 Гб оперативной памяти для работы с большими объемами данных X X Единое профессиональное решение для вычислений и графики X Пользовательские приложения: PhysX, Video, Imaging X Короткий жизненный цикл пользовательского продукта X Производится и сопровождается партнерами NVIDIA X Поддержка осуществляется через партнеров NVIDIA X 11
  • 12. Вычислительные решения Tesla Созданы для профессионалов. 12
  • 13. GPU NVIDIA Tesla 10-й серии L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 13
  • 14. Tesla: созданы для вычислений Системные решения Профессиональный уровень Высококачественная память Надежность вычислений 24-часовой стресс-тест Поддержка NVIDIA Вычислительные ресурсы 3-х летняя гарантия Архитектура вычислений CUDA Длинный жизненный цикл 4 ГБ ОЗУ Корпоративная поддержка двойная точность IEEE-754 14
  • 15. Вычислительные решения Tesla Tesla Personal Tesla S1070 1U System Tesla C1060 Supercomputer Computing Board (4 Tesla C1060s) GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops Memory 4 GB / GPU 4 GB 4 GB / GPU 15
  • 16. Tesla S1070: эффективное решение До 20 раз лучше показатель производительность/Ватт Hess University of Heidelberg Chevron University of Illinois Petrobras University of North Carolina NCSA Max Planck Institute CEA Rice University TiTech University of Maryland JFCOM GusGus SAIC Eotvas University Federal University of Wuppertal Motorola Chinese Academy of Sciences Kodak National Taiwan University 16
  • 17. Пример: ЦОД стоимостью $5 млн. CPU 1U Server 2 Quad-core Xeon 8 CPU Cores + CPU 1U Server CPUs: 8 cores 960 GPU Сores Tesla 1U System 0.17 Teraflop (single) 4.14 Teraflops (single) 0.08 Teraflop (double) 0.346 Teraflop (double) $ 3,000 $ 11,000 700 W 1500 W 1819 CPU servers 455 CPU servers 455 Tesla systems 310 Teraflops (single) 1961 Teraflops (single) 6x more perf 155 Teraflops (double) 196 Teraflops (double) Total area 16K sq feet Total area 9K sq feet 60% smaller Total 1273 KW Total 682 KW ½ the power 17
  • 18. Персональный суперкомпьютер Tesla Производительность Массивно параллельная CUDA архитектура 960 ядер. 4 Терафлоп/с В 250 раз мощнее ПК Удобство Суперкомпьютер на рабочем столе Включается в обычную розетку Доступность Программируется на Си под Windows и Linux Стоимость порядка $10,000 18
  • 19. В 100 раз доступнее В 20 раз экономичнее Tesla 250x Personal Производительность Supercomputer Supercomputing Cluster В 250 раз быстрее 1x Современный ПК $100K - $1M < $10 K Доступность 19
  • 20. Высокопроизводительные вычисления на базе GPU Tesla Cluster 5000x Производительность Tesla Personal Supercomputer 250x Supercomputing Cluster Standard Workstation 1x $100K - $1M < $10 K Доступность 20
  • 21. 21
  • 22. Медицинская техника GE Healthcare : CT 40% increase in CT resolution 2x increase in frame rate Techniscan: Ultra-sound Source: Stone et al, UIUC High resolution ultra-sound 2x increase in acquisition Digisens : Tomography Tomography reconstruction Several others on X-Ray, Flow Cytometry, MRI, etc Source: Batenburg, Sijbers, et al 22
  • 23. Digisens SnapCT: Визуализация результатов CT 23
  • 24. 3D анализ данных сейсморазведки SVI Pro 2009 is the first application to accelerate 3D seismic analysis through parallel computation on multiple GPUs. Leading to performance gains of up to 37x on workstation hardware. 24
  • 25. 3D анализ данных сейсморазведки / Mercury 25
  • 26. Клиенты GPU vs CPU преимущества Oil & Gas ISVs Performance / Watt 18x - 27x 12x - 17x Performance / Space 20x - 31x 15x - 20x Performance / Cost 15x - 20x 10x - 12x 26
  • 27. Финансы: оценка котировок 1 Одинаковая производительность 1 2 Tesla S1070 16x экономия места 500 CPU Servers $24 K 10x меньше стоимость $250 K 2.8 kWatts 13x меньше потребление 37.5 kWatts 27
  • 28. Финансы: прогнозирование рынка в режиме РВ Volera real-time option valuation engine Value entire U.S. listed options market in real-time using 3 NVIDIA Tesla S1070’s GPUs CPUs Savings Processors 12 736 Rack Space 6U 92U 15x Hardware Cost $36,000 $370,000 10x Annual Cost $31,000 $390,000 13x Figures assume: Tesla S1070 + one 8-core host server per node $260 / U / month rack and power charges 3-year hardware amortization 28
  • 29. MATLAB: ускорение на GPU Jacket CUDA plugin from Accelereyes http://www.accelereyes.com 15-day trail version avaiable Tesla GPU in a workstation For MATLAB and research 143x Speedup 86x Speedup 44x Speedup 29
  • 30. Молекулярная динамика & квантовая химия Available MD software NAMD / VMD (alpha release) GROMACS (alpha release) HOOMD OpenMM : Library for molecular modeling https://simtk.org/home/openmm Source: Stone, Phillips, Hardy, Schulten Source: Ufimtsev, Martinez Source: Anderson, Lorenz, Travesset 30
  • 31. Биоинформатика 62x Speedup Available applications 102x Speedup GPU HMMER MUMmerGPU sequencing MATLAB acceleration Protein docking 31
  • 32. 32
  • 33. Промышленность / FEA (Finite Element Analysis) Сочетание визуализации и симуляции Переход от сервера к рабочей станции(пример: CFD) 33
  • 35. Обзор Fermi Суперкомпьютер в формате GPU 3 млрд транзисторов DRAM I/F DRAM I/F Вдвое больше ядер (512 ядер) 8-кратный прирост DP производительности DRAM I/F HOST I/F ECC L2 L1 и L2 кэш Giga Thread DRAM I/F Вдвое большая пропускная способность памяти (GDDR5) До 1Тб памяти на GPU DRAM I/F DRAM I/F Конкурируещее исполнение кода, C++ 35
  • 36. “Oak Ridge National Lab (ORNL) has already announced it will be using Fermi technology in an upcoming super that is "expected to be 10-times more powerful than today's fastest supercomputer." Since ORNL's Jaguar supercomputer, for all intents and purposes, holds that title, and is in the process of being upgraded to 2.3 PFlops…. …we can surmise that the upcoming Fermi-equipped super is going to be in the 20 Petaflops range.” September 30 2009 36
  • 37. Цель Fermi DRAM I/F DRAM I/F Расширение круга задач, решаемых с помощью GPU DRAM I/F HOST I/F Больше L2 Giga Thread DRAM I/F пользователей и приложений для GPU DRAM I/F DRAM I/F 37
  • 38. Архитектура SM Instruction Cache Scheduler Scheduler Dispatch Dispatch 32 CUDA ядра в SM (512 ядер всего) Register File Core Core Core Core 8-и кратный прирост пиковой Core Core Core Core производительности в операциях с Core Core Core Core плавающей точкой Core Core Core Core 50% от пиковой производительности Core Core Core Core вычислений с одинарной точностью Core Core Core Core Core Core Core Core Два менеджера потоков Core Core Core Core Load/Store Units x 16 Special Func Units x 4 64 KB RAM общей памяти и L1 кэш Interconnect Network (конфигурируемый) 64K Configurable Cache/Shared Mem Uniform Cache 38
  • 39. Архитектура ядра CUDA Instruction Cache Scheduler Scheduler Dispatch Dispatch Поддержка стандарта IEEE 754-2008, Register File недоступного на современных CPU Core Core Core Core Core Core Core Core FMA(Fused multiply-add) операции Core Core Core Core как для операций с одинарной так Core Core Core Core CUDA Core и с двойной точностью Dispatch Port Core Core Core Core Operand Collector Core Core Core Core Core Core Core Core Новый ALU оптимизированный FP Unit INT Unit Core Core Core Core для 64-битных операций и Load/Store Units x 16 операций с повышенной точностью Result Queue Special Func Units x 4 Interconnect Network 64K Configurable Cache/Shared Mem Uniform Cache 39
  • 40. Иерархический кэш Первая архитектура GPU поддерживающая иерархический кэш в сочетании с разделяемой памятью на GPU L1 в каждом SM (32 ядра) Улучшение пропускной способности и снижение латентности DRAM I/F DRAM I/F Унифицированный L2 кэш (768 KB) DRAM I/F HOST I/F Позволяет эффективно общаться всем ядрам GPU L2 Giga Thread DRAM I/F Parallel DataCache™ DRAM I/F DRAM I/F Memory Hierarchy 40
  • 41. Быстрый интерфейс памяти GDDR5 интерфейс памяти 2-кратный прирост vs GDDR3 Поддержка до 1Тб памяти на GPU Для работы с большими наборами данных DRAM I/F DRAM I/F DRAM I/F HOST I/F L2 Giga Thread DRAM I/F DRAM I/F DRAM I/F 41
  • 42. ECC ECC защита для DRAM ECC поддержка для GDDR5 памяти Все внутренняя памяти защищена ECC Файл регистров, L1 кэш, L2 кэш 42
  • 43. GigaThreadTM Hardware Thread Scheduler (HTS) Аппаратный менеджер потоков Одновременно управляет тысячами активных потоков В 10 раз более быстрое HTS переключение между контекстами Одновременное исполнение нескольких кернелов 43
  • 44. Аппаратный менеджер потоков GigaThread Одновременное исполнение нескольких кернелов + быстрое переключение контекста Kernel 1 Kernel 1 Kernel 2 Ker Kernel 2 Kernel 2 Kernel 3 4 Kernel 2 nel Kernel 5 Time Kernel 3 Kernel 4 Kernel 5 Последовательное исполнение Параллельное исполнение 44
  • 45. Схема передачи данных GigaThread 2 DMA устройства Одновременная передача данных CPUGPUи GPUCPU Передача независит от счета на CPU и GPU SDT Схема работы: Kernel 0 CPU SDT0 GPU SDT1 Kernel 1 CPU SDT0 GPU SDT1 Kernel 2 CPU SDT0 GPU SDT1 Kernel 3 CPU SDT0 GPU SDT1 45
  • 46. Расширенная поддержка со стороны ПО Полная поддержка C++ Виртуальные функции Метки Поддержка системных вызовов Поддержка С пайпов, семафоров, printf и тд Унифицированное 64-битное адресное пространство памяти 46
  • 47. Параллельная архитектура CUDA GPU Computing Applications tm Direct Java and C++ C OpenCL Fortran Compute Python NVIDIA GPU with the CUDA Parallel Computing Architecture OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc. 47
  • 48. NVIDIA Nexus IDE 1-й в индустрии IDE (Integrated Development Environment) для массивно-параллельных приложений Ускорение разработки гетерогенных (CPU + GPU) приложений Полная интеграция со средствами разработки Visual Studio 48
  • 49. 49
  • 50. “ I believe history will record Fermi as a significant milestone. ” Dave Patterson Director Parallel Computing Research Laboratory, U.C. Berkeley Co-Author of Computer Architecture: A Quantitative Approach “ Fermi surpasses anything announced by NVIDIA's leading GPU competitor (AMD). Tom Halfhill ” Senior Editor Microprocessor Report 50
  • 51. Fermi is the world’s first complete GPU computing architecture. ” Peter Glaskowsky Technology Analyst The Envisioneering Group “ The convergence of new, fast GPUs optimized for computation as well as 3-D graphics acceleration and industry-standard software development tools marks the real beginning of the GPU computing era. Gentlemen, start your GPU computing engines. Nathan Brookwood ” Principle Analyst & Founder Insight 64 51
  • 52. Экосистема CUDA Более 115 университетов преподают CUDA Языки Компиляторы UIUC IIT Delhi C, C++ PGI Fortran MIT Tsinghua DirectX CAPs HMPP Harvard Dortmundt Fortran MCUDA Berkeley ETH Zurich Java MPI Cambridge Moscow OpenCL NOAA Fortran2C Oxford NTU Python OpenMP … … Приложения Библиотеки Консалтинг OEM FFT BLAS Oil & Gas Finance CFD ANEO LAPACK Image processing Medical Biophysics Imaging Video processing Signal processing Vision Numerics DSP EDA GPU Tech 52
  • 53. Ссылки Fermi http://www.nvidia.ru/fermi CUDA Zone http://www.nvidia.ru/cuda Приложения, документы, видео Tesla http://www.nvidia.ru/tesla Спецификации, технические и маркетинговые материалы Вертикальные отраслевые решения http://www.nvidia.com/object/vertical_solutions.html YouTube Videos http://www.youtube.com/nvidiatesla 53