SlideShare una empresa de Scribd logo
1 de 22
Descargar para leer sin conexión
WYKONYWANIE SKRYPTÓW R W
ŚRODOWISKU ROZPROSZONYM


    Barbara Uszczyńska
     Damian Kaliszan




      Poznań, 11 maja 2012
WIRTUALNE LABORATORIUM
      GENOMICZNE
ŚRODOWISKO ROZPROSZONE
Rozproszony system komputerowy (ang. distributed system) to zbiór samodzielnych
komputerów połączonych za pomocą sieci z zaimplementowanym rozproszonym
oprogramowaniem systemowym


Równoległy system komputerowy- zespół co najmniej dwóch procesorów zdolnych
do wspólnego rozwiązywania złożonego zadania obliczeniowego.


Celem środowiska rozproszonego jest zwiększenie wydajności obliczeń oraz ich
dokładności.


Przed rozpoczęciem obliczeń w środowisku rozproszonym należy sprawdzić, czy:

   badany problem może być podzielony na relatywnie niezależne zadania

   prędkość obliczeń wzrasta wraz ze zwiększającą się liczbą procesorów
KLASTER KOMPUTEROWY
Klaster komputerowy (ang. cluster) to system stworzony w wyniku
połączenia jednostek komputerowych. Jednostki współpracując ze
sobą, tworzą zintegrowane środowisko pracy.


W skład komputerów obliczeniowych PCSS wchodzą:


   Fangorn- Klaster Opteron64
   Sherwood-Klaster IA-64
   Guarana-Altix 3700
   Altix-Sgi Origin 3000
   Reef-klaster Intel Xeon
   Chimera-SGI Altix UV


R dostępny jest z klastra Reef.
POZNAŃSKIE CENTRUM
    SUPERKOMPUTEROWO-SIECIOWE




Dział Komputerów Dużej Mocy: https://hpc.man.poznan.pl/
KLASTER REEF

   Dostęp do R możliwy jest jedynie z pozycji
    klastra reef (reef.man.poznan.pl).

   Warunkiem niezbędnym do uruchamiania
    aplikacji R w środowisku rozproszonym
    jest posiadanie grantu obliczeniowego.

   Użytkownikiem klastra reef może być
    każda osoba prowadząca działalność
    naukową, związaną z uczelnią lub
    instytutem naukowym w Polsce.

   Warunkiem niezbędnym do rejestracji jest
    posiadanie konta email w macierzystej
    jednostce naukowej.
WYKONYWANIE SKRYPTÓW R
                       Plik „opakowujący”, cechy:

                          Służy do zdefiniowania zapotrzebowania na
                           moc obliczeniową (liczby procesorów oraz
                           wielkość pamięci).

                          Pozwala na ustalenie priorytetu obliczeń
                           i ulokowanie zadania w systemie kolejkowym.

                          Format .sh
Obudowanie skryptu:
                                        Powyższy skrypt rezerwuje
                                        dla zadania 2 procesory na
                                        jednym węźle obliczeniowym
                                        oraz pamięć wielkości 3GB.


Wykonywanie skryptu:
                              Zlecanie zadania: qsub

                              Status zadania: qstat
SKRYPT TESTOWY-R



                   Prosty przykład wykorzystania algorytmu
                   grupowania pojęciowego opartego na modelu
                   probabilistycznym (EM) w analizie danych
                   uzyskiwanych za pomocą mikromacierzy
                   DNA.
SKRYPT TESTOWY
                 1 procesor na jednym węźle obliczeniowym oraz pamięć
                 wielkości 4GB są wystarczające do przeprowadzenia
                 obliczeń testowych


                 Im bardziej wymagające parametry obliczeniowe tym
                 większy czas oczekiwania na realizację zadania.




                    Nazwa skryptu R zlecanego do wykonania w środowisku
                    rozproszonym
WYKONYWANIE SKRYPTÓW R
SKŁADANIE WNIOSKU
GRANTY OBLICZENIOWE->ZŁÓŻ WNIOSEK
SKŁADANIE WNIOSKU
SKŁADANIE WNIOSKU
SKŁADANIE WNIOSKU
PAKIETY R NA KLASTRZE REEF
Na klastrze reef zdeponowane są następujące pakiety R:
         affy               fda                  org.Hs.eg.db
         affydata           foreign              parallel
         affyio             gcrma                preprocessCore
         affyPLM            genefilter           RColorBrewer
         affyQCReport       geneplotter          ROC
         annaffy            GO.db                rpart
         annotate           graphics             RSQLite
         AnnotationDbi      grDevices            simpleaffy
         base               grid                 smoothSurv
         bayesSurv          hgu95av2.db          spatial
         Biobase            IRanges              splines
         BiocInstaller      KEGG.db              stats
         Biostrings         KernSmooth           stats4
         boot               lattice              survival
         class              limma                tcltk
         cluster            marray               tools
         coda               MASS                 utils
         codetools          Matrix               VGAM
         compiler           methods              vsn
         CSAR               mgcv                 xtable
         datasets           multtest             zlibbioc
         DBI                nlme                 zoo
         DynDoc             nnet
SYSTEM PRZETWARZANIA-GRID
GRID to system zrzeszający wiele jednostek komputerowych w jedną, potocznie
zwaną superkomputerem. Komputery połączone są ze sobą siecią komputerową
(internet).


Cechy systemu GRID:

   Stworzony jest w celu obliczania tego samego zadania
   Hosty GRID mogą być rozmieszczone na całym świecie
   Dostępny dla większości systemów operacyjnych (Windows, Linux, Mac OS)
   Sercem systemu GRID stanowi serwer z systemem Linux, który koordynuje
    proces wykonywania zadań.
   Ogromna moc obliczeniowa
   Kontrola obliczeń
   Zapotrzebowanie na energię elektryczną oraz problem chłodzenia, rozłożone
    jest na każdą składową systemu
   Relatywnie niski koszt utrzymania
GRID
PL-GRID
PL-Grid to projekt, dzięki któremu powstała ogólnopolska infrastruktura superkomputerów
oraz łączący je system gridowy pozwalający na ich efektywne wykorzystanie.


Projektu PL-Grid obejmuje pięć ośrodków superkomputerowych w Polsce:

   Gdańsk
   Kraków
   Poznań
   Warszawa
   Wrocław


Łącznie infrastruktura dostarcza ponad
20 tysięcy procesorów (rdzeni) oraz 2500
terabajtów przestrzeni dyskowej.


https://portal.plgrid.pl/web/guest/wiki-pl-grid
PL-GRID DOSTĘPNE OPROGRAMOWANIE




        Oprogramowanie R jest zainstalowana w Poznaniu
        (PCSS), Wrocławiu (WCSS) i Warszawie (ICM).
PL-GRID REJESTRACJA
             Użytkownikiem PL-Grid może być każda osoba
             prowadząca działalność naukową, związaną z uczelnią
             lub instytutem naukowym w Polsce.

             Konieczna jest rejestracja w bazie „Ludzie nauki”
             prowadzonej przez Ośrodek Przetwarzania Informacji –
             OPI.

             gLite:
                używany jest od wielu lat w środowisku gridowym
                szczególnie przez naukowców skupionych wokół
                 CERN i zagadnień fizyki wysokich energii.
                wymaga pewnej znajomości systemu linux, a
                 większość poleceń wydaje się w trybie tekstowym.

             UNICORE:
                bardziej przyjazne rozwiązanie dla początkujących
                 użytkowników.
                Zadania zleca się w większości w trybie graficznym,
                 przez aplikację działającą w systemie operacyjnym
                 Windows/UNIX/Mac.
PODSUMOWANIE-PCSS
Zalety                                Wady

                                      Aplikacja R dostępna jest jedynie na
                                      klastrze reef.
         Skrócenie czasu obliczeń.
                                      Proces składania wniosku o grant
                                      obliczeniowy jest wymagający czasowo.
                                      Zapis skryptu w sposób umożliwiający
                                      podział    na  poszczególne  zadania
         Lepsza jakość wyników.       (opcjonalnie).
                                      Przygotowanie skryptu opakowującego
                                      (.sh).
                                      Wymagająca obsługa interfejsu.

   Stały kontakt z administratorem.   Brak informacji na temat uruchamiania R
                                      na stronie KDM.

Más contenido relacionado

Destacado

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Destacado (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

Wykonywanie skryptów R w środowisku rozproszonym

  • 1. WYKONYWANIE SKRYPTÓW R W ŚRODOWISKU ROZPROSZONYM Barbara Uszczyńska Damian Kaliszan Poznań, 11 maja 2012
  • 3. ŚRODOWISKO ROZPROSZONE Rozproszony system komputerowy (ang. distributed system) to zbiór samodzielnych komputerów połączonych za pomocą sieci z zaimplementowanym rozproszonym oprogramowaniem systemowym Równoległy system komputerowy- zespół co najmniej dwóch procesorów zdolnych do wspólnego rozwiązywania złożonego zadania obliczeniowego. Celem środowiska rozproszonego jest zwiększenie wydajności obliczeń oraz ich dokładności. Przed rozpoczęciem obliczeń w środowisku rozproszonym należy sprawdzić, czy:  badany problem może być podzielony na relatywnie niezależne zadania  prędkość obliczeń wzrasta wraz ze zwiększającą się liczbą procesorów
  • 4. KLASTER KOMPUTEROWY Klaster komputerowy (ang. cluster) to system stworzony w wyniku połączenia jednostek komputerowych. Jednostki współpracując ze sobą, tworzą zintegrowane środowisko pracy. W skład komputerów obliczeniowych PCSS wchodzą:  Fangorn- Klaster Opteron64  Sherwood-Klaster IA-64  Guarana-Altix 3700  Altix-Sgi Origin 3000  Reef-klaster Intel Xeon  Chimera-SGI Altix UV R dostępny jest z klastra Reef.
  • 5. POZNAŃSKIE CENTRUM SUPERKOMPUTEROWO-SIECIOWE Dział Komputerów Dużej Mocy: https://hpc.man.poznan.pl/
  • 6. KLASTER REEF  Dostęp do R możliwy jest jedynie z pozycji klastra reef (reef.man.poznan.pl).  Warunkiem niezbędnym do uruchamiania aplikacji R w środowisku rozproszonym jest posiadanie grantu obliczeniowego.  Użytkownikiem klastra reef może być każda osoba prowadząca działalność naukową, związaną z uczelnią lub instytutem naukowym w Polsce.  Warunkiem niezbędnym do rejestracji jest posiadanie konta email w macierzystej jednostce naukowej.
  • 7. WYKONYWANIE SKRYPTÓW R Plik „opakowujący”, cechy:  Służy do zdefiniowania zapotrzebowania na moc obliczeniową (liczby procesorów oraz wielkość pamięci).  Pozwala na ustalenie priorytetu obliczeń i ulokowanie zadania w systemie kolejkowym.  Format .sh Obudowanie skryptu: Powyższy skrypt rezerwuje dla zadania 2 procesory na jednym węźle obliczeniowym oraz pamięć wielkości 3GB. Wykonywanie skryptu: Zlecanie zadania: qsub Status zadania: qstat
  • 8. SKRYPT TESTOWY-R Prosty przykład wykorzystania algorytmu grupowania pojęciowego opartego na modelu probabilistycznym (EM) w analizie danych uzyskiwanych za pomocą mikromacierzy DNA.
  • 9. SKRYPT TESTOWY 1 procesor na jednym węźle obliczeniowym oraz pamięć wielkości 4GB są wystarczające do przeprowadzenia obliczeń testowych Im bardziej wymagające parametry obliczeniowe tym większy czas oczekiwania na realizację zadania. Nazwa skryptu R zlecanego do wykonania w środowisku rozproszonym
  • 16. PAKIETY R NA KLASTRZE REEF Na klastrze reef zdeponowane są następujące pakiety R:  affy  fda  org.Hs.eg.db  affydata  foreign  parallel  affyio  gcrma  preprocessCore  affyPLM  genefilter  RColorBrewer  affyQCReport  geneplotter  ROC  annaffy  GO.db  rpart  annotate  graphics  RSQLite  AnnotationDbi  grDevices  simpleaffy  base  grid  smoothSurv  bayesSurv  hgu95av2.db  spatial  Biobase  IRanges  splines  BiocInstaller  KEGG.db  stats  Biostrings  KernSmooth  stats4  boot  lattice  survival  class  limma  tcltk  cluster  marray  tools  coda  MASS  utils  codetools  Matrix  VGAM  compiler  methods  vsn  CSAR  mgcv  xtable  datasets  multtest  zlibbioc  DBI  nlme  zoo  DynDoc  nnet
  • 17. SYSTEM PRZETWARZANIA-GRID GRID to system zrzeszający wiele jednostek komputerowych w jedną, potocznie zwaną superkomputerem. Komputery połączone są ze sobą siecią komputerową (internet). Cechy systemu GRID:  Stworzony jest w celu obliczania tego samego zadania  Hosty GRID mogą być rozmieszczone na całym świecie  Dostępny dla większości systemów operacyjnych (Windows, Linux, Mac OS)  Sercem systemu GRID stanowi serwer z systemem Linux, który koordynuje proces wykonywania zadań.  Ogromna moc obliczeniowa  Kontrola obliczeń  Zapotrzebowanie na energię elektryczną oraz problem chłodzenia, rozłożone jest na każdą składową systemu  Relatywnie niski koszt utrzymania
  • 18. GRID
  • 19. PL-GRID PL-Grid to projekt, dzięki któremu powstała ogólnopolska infrastruktura superkomputerów oraz łączący je system gridowy pozwalający na ich efektywne wykorzystanie. Projektu PL-Grid obejmuje pięć ośrodków superkomputerowych w Polsce:  Gdańsk  Kraków  Poznań  Warszawa  Wrocław Łącznie infrastruktura dostarcza ponad 20 tysięcy procesorów (rdzeni) oraz 2500 terabajtów przestrzeni dyskowej. https://portal.plgrid.pl/web/guest/wiki-pl-grid
  • 20. PL-GRID DOSTĘPNE OPROGRAMOWANIE Oprogramowanie R jest zainstalowana w Poznaniu (PCSS), Wrocławiu (WCSS) i Warszawie (ICM).
  • 21. PL-GRID REJESTRACJA Użytkownikiem PL-Grid może być każda osoba prowadząca działalność naukową, związaną z uczelnią lub instytutem naukowym w Polsce. Konieczna jest rejestracja w bazie „Ludzie nauki” prowadzonej przez Ośrodek Przetwarzania Informacji – OPI. gLite:  używany jest od wielu lat w środowisku gridowym  szczególnie przez naukowców skupionych wokół CERN i zagadnień fizyki wysokich energii.  wymaga pewnej znajomości systemu linux, a większość poleceń wydaje się w trybie tekstowym. UNICORE:  bardziej przyjazne rozwiązanie dla początkujących użytkowników.  Zadania zleca się w większości w trybie graficznym, przez aplikację działającą w systemie operacyjnym Windows/UNIX/Mac.
  • 22. PODSUMOWANIE-PCSS Zalety Wady Aplikacja R dostępna jest jedynie na klastrze reef. Skrócenie czasu obliczeń. Proces składania wniosku o grant obliczeniowy jest wymagający czasowo. Zapis skryptu w sposób umożliwiający podział na poszczególne zadania Lepsza jakość wyników. (opcjonalnie). Przygotowanie skryptu opakowującego (.sh). Wymagająca obsługa interfejsu. Stały kontakt z administratorem. Brak informacji na temat uruchamiania R na stronie KDM.