SlideShare a Scribd company logo
1 of 63
Cloud based NGS Analysis Framework



김형용 책임개발자

E-mail_hygkim@insilicogen.com
KM사업부
Insilicogen, Inc.
“데이터를 얻는 능력, 즉 데이터를 이해하는
능력, 처리하는 능력, 가치를 뽑아내는 능력,
시각화하는 능력, 전달하는 능력이야말로
앞으로 10년간 엄청나게 중요한 능력이 될
것이다”


Hal Varian,
Chief Economist at Google




                            2
VIRTUALIZATION
Virtualization
Virtualization

                 가상화



 • 컴퓨터 자원의 추상화를 일컫는 말
 • 가상의 물리적 리소스를 만들어 냄.


 •물리적인 1대의 하드웨어 자원을 논리적으로 여러 개로 나누어 사용하거나,
 •여러대의 하드웨어 자원을 논리적으로 통합하여 이용하는 기술


 • 하드웨어 관리, 재난에 대한 시스템 복구 등 여러 문제를 해결할 수 있는 방법으로 최근
 각광 받고 있음
Virtualization

          가상화의 장점!!

 • 비용절감
       서버 한 대를 분할하여 여러 대의 서버를 구성할 수 있음
       서버 구입비용 절감, 전기, 상면비용, 서버관리비용이 절감
 • 자원의 효율적인 사용
       서버의 비 활용되는 자원을 이용하여 가상머신을 만듬으로써 효율적인 자원사용이 가능
 • 안정적인 운영
       서버를 이미지로 백업, 손쉬운 서버 이전으로 장애에 대한 신속한 대처 가능
 • SW의 지속적인 운영
       서버 HW의 수명 주기가 끝나면 OS 벤더는 장치 드라이버 지원이 중단됨
          -> 마이그레이션 문제가 발생
       가상머신에 기존의 시스템을 가상머신에 올리기 때문에 장치 드라이버에 대한 문제
          가 발생하지 않음



                                           Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   6
가상화 이점


                            단일서버
                            - CPU: 2
                   Type A
                            - RAM: 96G
                            - HDD: 1T



                            단일서버
     일반적인          Type B
                            - CPU: 24
                            - RAM: 96G
     서버 구성
                            - HDD: 500G


                            클러스터서버
                            - CPU: 2
                   Type C   - RAM: 8G
                            - HDD: 500G
                            - NODE: 12EA

    추가적인 하드웨어 구매필요
    모든 자원이 활용되는 것은 아님

                                           Cop
                                           7
가상화 이점


                          단일서버
                          - CPU: 2
                 Type A                  가상머신
                          - RAM: 96G
                          - HDD: 1T


                          단일서버
                          - CPU: 24
                 Type B                  가상머신
                          - RAM: 96G
                          - HDD: 500G
     가상화 이용
      서버 구성               클러스터서버
                          - CPU: 2
                 Type C   - RAM: 8G      가상머신
                          - HDD: 500G
                          - NODE: 12EA



    하드웨어 비용 절감
    자원의 효율적 이용

                                                Cop
                                                8
클라우드 서비스에 기본적으로 활용




                     Cop
                     9
OpenNebula

 • Virtual Machine(VM) 관리 Tool
 • Xen, KVM, VMWare등의 관리 제공
 • OpenNebula 의 기능들
 - User Management
 - VM Image Management
 - Virtual Network Management
 - Virtual Machine Management
 - User Interfaces
 - Service Management
 - Scheduling
 - Infrastructure Management
 - Storage Management




                                 10
OpenNebula - Sunstone




                        11
OpenStack

 IaaS cloud computing by
  Raskpace Cloud and NASA
 Open source software for
  building private and public
  clouds
 Deliver solutions for all types of
  clouds by being simple to
  implement, massively scalable




                                       12
GRID COMPUTING
Grid vs Cluster


              대용량 데이터에 대한 연산을 작은 소규모 연산들로 나누어
   공통점        작은 여러대의 컴퓨터로 분산시켜 수행

              WAN상에서 서로 다른 기종의 머신들을 연결
   차이점        다양한 플랫폼을 서로 연결함
              연결대수에 제한이 없음




                                         Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   14
Grid




       Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   15
Globus Toolkit

  대표적인 계산 그리드 미들웨어
  Open source toolkit for building computing grids
   developed and provided by Globus Alliance
  Standards implementation
    • Open Grid Service Architecture (OGSA)
    • Open Grid Service Infrastructure (OGSI)
    • Web Services Resource Framework (WSRF)
    • Job Submission Description Language (JSDL)
    • Distributed Resource Management Application
       API (DRMAA)
    • SOAP
    • WSDL
    • Grid Security Infrastructure




                                                      Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   16
High level Open Grid Forum API specification for submission and control of jobs to a
Distributed Resource Management (DRM, Job scheduler) system, such as a Cluster
or Grid computing infrastructure




                                                             Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   17
PBS (Portable Batch System)

  Computer software that performs job scheduling in Unix cluster environment
  A component of the Globus Toolkit
  Originally developed by NASA
  Following versions
     • OpenPBS
     • TORQUE – a fork of OpenPBS
     • PBS Professional (PBS pro) - commercial




                                                              Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   18
TORQUE

 Distributed resource manager providing control
  over batch jobs and distributed compute node
 It stands for Terascale Open Source Resource and
  QUEue Manager
 Slave 노드의 CPU개수, core 개수, RAM사이즈, 임
  시저장소 등의 설정정보를 가지고 스케줄러에 의해
  요청이 왔을 때 클러스터 리소스를 분배함


                        Slave 1


      Master
                        Slave 2

         NFS
                        Slave 3
     > qsub a.sh
      a.sh 명령을 스케줄러에 따라 slave로 넘김


                                                     Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   19
Virtualized Galaxy (Test-bed)




                                Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   20
CLOUD COMPUTING


                                                                  21
                  Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.
Cloud computing

  Delivery of computing and storage
   capacity as a service to a
   heterogeneous community of end-
   recipients.




                                       Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   22
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   23
VPS (Virtual Private Server)
  Internet hosting services to refer a virtual machine in a cloud




                                                                     Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   24
AMAZON WEB SERVICES


                                                                      25
                      Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.
Amazon EC2 (Amazon Elastic Compute Cloud)




                              Virtualization + Grid(Cluster) computing in a Cloud




                                                                                    26
Amazon EC2 (Amazon Elastic Compute Cloud)




                                            27
Amazon EC2 (Amazon Elastic Compute Cloud)




                                            28
Amazon EC2 (Amazon Elastic Compute Cloud)




                                            29
Amazon S3 (Amazon Simple Storage Service)




                                            30
Aspera Connect Server




    FTP 대비 국내연결시 3x~5x, 해외연결시 5x~1000x 전송속도 향상
    1000 Genome, EBI 등 해외 주요 생물정보 사이트에서도 서비스




                                                 31
GALAXY CLOUDMAN


                                                                    32
                  Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   33
Galaxy 구성요소


                                 Galaxy 주요구성 요소



                                  Datasources : 입력 데이터 지정. 별도의 지역
                                 시스템이나, 외부 웹사이트의 데이터를 등록 가능
                                  Tool : 기본적인 분석의 최소 단위, 지역설치시
                                 원하는 툴을 만들어 넣을 수 있음
                                  History : 입력데이터가 Tool의 조합을 거쳐
                                 얻어진 중간 결과물 목록
                                  Workflow : History 는 입력데이터 및 파라메터만
                                 바꾸면 새로운 데이터 결과를 얻을 수 있다. 이를
                                 별도로 프로세스 등록
                                  Visualization : 분석결과를 가시화 도구와 연결
                                  Page : 위 요소들을 종합한 보고서 작성 기능


Eprimer3 tool 을 별도로 만들어 등록한 예제



                                                  Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   34
Galaxy tool 은


           입력                                     출력
                       Tool
           포맷                                     포맷

   입력 데이터를 (포맷에 맞게) 작업하여 (포맷에 맞게) 출력 데이터를 만드는 역할

                              조합하면 Workflow가 된다




                                             Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   35
Creating your own Galaxy




                           Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   36
Primer design tool




                     Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   37
Galaxy on Cloud

   Using Amazon EC2 + S3

   Select AMIs in Community AMIs




                                   Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   38
Galaxy on Cloud




                  Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   39
Galaxy on Cloud




                  Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   40
Galaxy on Cloud




                  Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   41
Galaxy on Cloud




                  Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   42
Galaxy on Cloud




                  Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   43
Galaxy on Insilicogen

   Galaxy localization on cluster

                                    Tool development




     Workflow development




                                                       Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   44
CLOUD BASED NGS ANALYSIS
SERVICE

                                                                       45
                     Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
AWS를 활용 HPC 서비스 제공 (예, PacBio의 SMART)
                    Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   46
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   47
30x Human genome
      1 sample (150G)
      500만원 (1년저장)




Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   48
구글로부터 투자받아
   NCBI SRA 서비스 연동

   온라인에서 실험없이
   곧바로 분석 가능




Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   49
BGI의 무료 분석서비스
현재 인간데이터 분석에 초점. 6월부터 타
생물종 지원예정




        Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   50
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   51
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   52
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   53
Bina Box 라는 별도의 컴퓨터를
분석장비에 장착

이곳에서 기본 분석 후 데이터 용
량을 줄여 Cloud로 전송




    Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   54
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   55
Genome-in-a-Day




                  Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   56
57
58
CONCLUSION


                                                               59
             Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
Cloud based NGS analysis


 No need to purchase hardware
 Data acquisition and analysis and service in the same space
 Elastic computing power and storage
 But, data transfer problem (Aspera, NAS box)




                                                                                             My Book
                                                                                             Thunderbolt 6TB




                                                                Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   60
Opportunity


 Domestic Analysis Market Expansion (PGM21, Teragen,…)
 For large NGS analysis, We need more server and storage
 AWS is more easy and cheap
 Customer want to easy analysis and high quality product
 Need to easy web application
 With KT?




                                                            Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   61
What can we do?



  Customized/Advanced Analysis Service Positioning
  Galaxy + IncoBook on the cloud
  Specialized analysis pipeline on the cloud




                                                      Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.   62
www.insilicogen.com
E-mail km@insilicogen.com
Tel 031-278-0061
Fax 031-278-0062

More Related Content

What's hot

OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316
기한 김
 
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
OpenStack Korea Community
 
2014.03.21 rhci-rhev3.3-by-jshin
2014.03.21 rhci-rhev3.3-by-jshin2014.03.21 rhci-rhev3.3-by-jshin
2014.03.21 rhci-rhev3.3-by-jshin
Jun Hee Shin
 

What's hot (20)

[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
[OpenStack Days Korea 2016] Track2 - How to speed up OpenStack network with P...
 
[OpenInfra Days Korea 2018] Day 2 - E6 - 마이크로서비스를 위한 Istio & Kubernetes [다운로드...
[OpenInfra Days Korea 2018] Day 2 - E6 - 마이크로서비스를 위한 Istio & Kubernetes [다운로드...[OpenInfra Days Korea 2018] Day 2 - E6 - 마이크로서비스를 위한 Istio & Kubernetes [다운로드...
[OpenInfra Days Korea 2018] Day 2 - E6 - 마이크로서비스를 위한 Istio & Kubernetes [다운로드...
 
[OpenInfra Days Korea 2018] (Track 2) Cloud 환경에서의 보안과 네트워크 성능 보안 (xFW), DPDK OVS
[OpenInfra Days Korea 2018] (Track 2) Cloud 환경에서의 보안과 네트워크 성능 보안 (xFW), DPDK OVS[OpenInfra Days Korea 2018] (Track 2) Cloud 환경에서의 보안과 네트워크 성능 보안 (xFW), DPDK OVS
[OpenInfra Days Korea 2018] (Track 2) Cloud 환경에서의 보안과 네트워크 성능 보안 (xFW), DPDK OVS
 
Kubernetes에서 Windows Application 호스팅하기
Kubernetes에서 Windows Application 호스팅하기Kubernetes에서 Windows Application 호스팅하기
Kubernetes에서 Windows Application 호스팅하기
 
[OpenInfra Days Korea 2018] (Track 3) - SDN/NFV enabled Openstack Platform : ...
[OpenInfra Days Korea 2018] (Track 3) - SDN/NFV enabled Openstack Platform : ...[OpenInfra Days Korea 2018] (Track 3) - SDN/NFV enabled Openstack Platform : ...
[OpenInfra Days Korea 2018] (Track 3) - SDN/NFV enabled Openstack Platform : ...
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316
 
[온라인교육시리즈] NKS에서 Cluster & Pods Autoscaling 적용
[온라인교육시리즈] NKS에서 Cluster & Pods Autoscaling 적용[온라인교육시리즈] NKS에서 Cluster & Pods Autoscaling 적용
[온라인교육시리즈] NKS에서 Cluster & Pods Autoscaling 적용
 
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
 
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
[OpenStack Days Korea 2016] Track3 - 방송제작용 UHD 스트로지 구성 및 테스트
 
2014.03.21 rhci-rhev3.3-by-jshin
2014.03.21 rhci-rhev3.3-by-jshin2014.03.21 rhci-rhev3.3-by-jshin
2014.03.21 rhci-rhev3.3-by-jshin
 
NoSQL
NoSQLNoSQL
NoSQL
 
Ibm과 nvidia가 제안하는 딥러닝 플랫폼
Ibm과 nvidia가 제안하는 딥러닝 플랫폼Ibm과 nvidia가 제안하는 딥러닝 플랫폼
Ibm과 nvidia가 제안하는 딥러닝 플랫폼
 
Microsoft Azure 클라우드 에서 Elasticsearch 서비스 사용 - 이건복 님
Microsoft Azure 클라우드 에서 Elasticsearch 서비스 사용 - 이건복 님Microsoft Azure 클라우드 에서 Elasticsearch 서비스 사용 - 이건복 님
Microsoft Azure 클라우드 에서 Elasticsearch 서비스 사용 - 이건복 님
 
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
 
Quic을 이용한 네트워크 성능 개선
 Quic을 이용한 네트워크 성능 개선 Quic을 이용한 네트워크 성능 개선
Quic을 이용한 네트워크 성능 개선
 
[넥슨] kubernetes 소개 (2018)
[넥슨] kubernetes 소개 (2018)[넥슨] kubernetes 소개 (2018)
[넥슨] kubernetes 소개 (2018)
 
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
제4회 한국IBM과 함께하는 난공불락 오픈소스 인프라 세미나- IBM Bluemix
 
[오픈소스컨설팅] AWS re:Invent 2018 기계학습(ML)부분 후기
[오픈소스컨설팅] AWS re:Invent 2018 기계학습(ML)부분 후기[오픈소스컨설팅] AWS re:Invent 2018 기계학습(ML)부분 후기
[오픈소스컨설팅] AWS re:Invent 2018 기계학습(ML)부분 후기
 
[온라인교육시리즈] 네이버클라우드플랫폼 주요 업데이트 - 윤진규 클라우드 솔루션 아키텍트
[온라인교육시리즈] 네이버클라우드플랫폼 주요 업데이트 - 윤진규 클라우드 솔루션 아키텍트[온라인교육시리즈] 네이버클라우드플랫폼 주요 업데이트 - 윤진규 클라우드 솔루션 아키텍트
[온라인교육시리즈] 네이버클라우드플랫폼 주요 업데이트 - 윤진규 클라우드 솔루션 아키텍트
 
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판
Open Source GIS 기초교육 4일차 - GeoServer 기초 2014년 7월판
 

Similar to Cloud based NGS framework

Cloud review 1011_서울대
Cloud review 1011_서울대Cloud review 1011_서울대
Cloud review 1011_서울대
Jaekyu Choi
 
Ahems lab cloud view-final
Ahems lab  cloud view-finalAhems lab  cloud view-final
Ahems lab cloud view-final
kssssw
 

Similar to Cloud based NGS framework (20)

[slideshare]k8s.pptx
[slideshare]k8s.pptx[slideshare]k8s.pptx
[slideshare]k8s.pptx
 
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
[IBM 김상훈] AI 최적화 플랫폼 IBM AC922 소개와 활용 사례
 
Next generation cloud data center technologies
Next generation cloud data center technologiesNext generation cloud data center technologies
Next generation cloud data center technologies
 
NetApp AI Control Plane
NetApp AI Control PlaneNetApp AI Control Plane
NetApp AI Control Plane
 
HPC on IBM Cloud
HPC on IBM CloudHPC on IBM Cloud
HPC on IBM Cloud
 
1711 azure-live
1711 azure-live1711 azure-live
1711 azure-live
 
Abiquo솔루션소개자료 v02 20110712
Abiquo솔루션소개자료 v02 20110712Abiquo솔루션소개자료 v02 20110712
Abiquo솔루션소개자료 v02 20110712
 
Infra as Code with Packer, Ansible and Terraform
Infra as Code with Packer, Ansible and TerraformInfra as Code with Packer, Ansible and Terraform
Infra as Code with Packer, Ansible and Terraform
 
[D2 COMMUNITY] Open Container Seoul Meetup - 마이크로 서비스 아키텍쳐와 Docker kubernetes
[D2 COMMUNITY] Open Container Seoul Meetup -  마이크로 서비스 아키텍쳐와 Docker kubernetes[D2 COMMUNITY] Open Container Seoul Meetup -  마이크로 서비스 아키텍쳐와 Docker kubernetes
[D2 COMMUNITY] Open Container Seoul Meetup - 마이크로 서비스 아키텍쳐와 Docker kubernetes
 
[GS네오텍] Google Compute Engine
[GS네오텍]  Google Compute Engine[GS네오텍]  Google Compute Engine
[GS네오텍] Google Compute Engine
 
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution
 
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 가상 네트워크 (CB-Larva)
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 가상 네트워크 (CB-Larva)Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 가상 네트워크 (CB-Larva)
Cloud-Barista 제5차 오픈 컨퍼런스 : 멀티클라우드 가상 네트워크 (CB-Larva)
 
Why container ?
Why container ?Why container ?
Why container ?
 
cdit hci zerto '소통하는 세미나' 소개자료(201705)
cdit hci zerto '소통하는 세미나' 소개자료(201705)cdit hci zerto '소통하는 세미나' 소개자료(201705)
cdit hci zerto '소통하는 세미나' 소개자료(201705)
 
애플리케이션 최적화를 위한 컨테이너 인프라 구축
애플리케이션 최적화를 위한 컨테이너 인프라 구축애플리케이션 최적화를 위한 컨테이너 인프라 구축
애플리케이션 최적화를 위한 컨테이너 인프라 구축
 
Cloud review 1011_서울대
Cloud review 1011_서울대Cloud review 1011_서울대
Cloud review 1011_서울대
 
SOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AISOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AI
 
Ahems lab cloud view-final
Ahems lab  cloud view-finalAhems lab  cloud view-final
Ahems lab cloud view-final
 
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
 
클라우드란 (기획자대상)
클라우드란 (기획자대상)클라우드란 (기획자대상)
클라우드란 (기획자대상)
 

Cloud based NGS framework

  • 1. Cloud based NGS Analysis Framework 김형용 책임개발자 E-mail_hygkim@insilicogen.com KM사업부 Insilicogen, Inc.
  • 2. “데이터를 얻는 능력, 즉 데이터를 이해하는 능력, 처리하는 능력, 가치를 뽑아내는 능력, 시각화하는 능력, 전달하는 능력이야말로 앞으로 10년간 엄청나게 중요한 능력이 될 것이다” Hal Varian, Chief Economist at Google 2
  • 5. Virtualization 가상화 • 컴퓨터 자원의 추상화를 일컫는 말 • 가상의 물리적 리소스를 만들어 냄. •물리적인 1대의 하드웨어 자원을 논리적으로 여러 개로 나누어 사용하거나, •여러대의 하드웨어 자원을 논리적으로 통합하여 이용하는 기술 • 하드웨어 관리, 재난에 대한 시스템 복구 등 여러 문제를 해결할 수 있는 방법으로 최근 각광 받고 있음
  • 6. Virtualization 가상화의 장점!! • 비용절감  서버 한 대를 분할하여 여러 대의 서버를 구성할 수 있음  서버 구입비용 절감, 전기, 상면비용, 서버관리비용이 절감 • 자원의 효율적인 사용  서버의 비 활용되는 자원을 이용하여 가상머신을 만듬으로써 효율적인 자원사용이 가능 • 안정적인 운영  서버를 이미지로 백업, 손쉬운 서버 이전으로 장애에 대한 신속한 대처 가능 • SW의 지속적인 운영  서버 HW의 수명 주기가 끝나면 OS 벤더는 장치 드라이버 지원이 중단됨 -> 마이그레이션 문제가 발생  가상머신에 기존의 시스템을 가상머신에 올리기 때문에 장치 드라이버에 대한 문제 가 발생하지 않음 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 6
  • 7. 가상화 이점 단일서버 - CPU: 2 Type A - RAM: 96G - HDD: 1T 단일서버 일반적인 Type B - CPU: 24 - RAM: 96G 서버 구성 - HDD: 500G 클러스터서버 - CPU: 2 Type C - RAM: 8G - HDD: 500G - NODE: 12EA 추가적인 하드웨어 구매필요 모든 자원이 활용되는 것은 아님 Cop 7
  • 8. 가상화 이점 단일서버 - CPU: 2 Type A 가상머신 - RAM: 96G - HDD: 1T 단일서버 - CPU: 24 Type B 가상머신 - RAM: 96G - HDD: 500G 가상화 이용 서버 구성 클러스터서버 - CPU: 2 Type C - RAM: 8G 가상머신 - HDD: 500G - NODE: 12EA 하드웨어 비용 절감 자원의 효율적 이용 Cop 8
  • 10. OpenNebula • Virtual Machine(VM) 관리 Tool • Xen, KVM, VMWare등의 관리 제공 • OpenNebula 의 기능들 - User Management - VM Image Management - Virtual Network Management - Virtual Machine Management - User Interfaces - Service Management - Scheduling - Infrastructure Management - Storage Management 10
  • 12. OpenStack  IaaS cloud computing by Raskpace Cloud and NASA  Open source software for building private and public clouds  Deliver solutions for all types of clouds by being simple to implement, massively scalable 12
  • 14. Grid vs Cluster 대용량 데이터에 대한 연산을 작은 소규모 연산들로 나누어 공통점 작은 여러대의 컴퓨터로 분산시켜 수행 WAN상에서 서로 다른 기종의 머신들을 연결 차이점 다양한 플랫폼을 서로 연결함 연결대수에 제한이 없음 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 14
  • 15. Grid Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 15
  • 16. Globus Toolkit  대표적인 계산 그리드 미들웨어  Open source toolkit for building computing grids developed and provided by Globus Alliance  Standards implementation • Open Grid Service Architecture (OGSA) • Open Grid Service Infrastructure (OGSI) • Web Services Resource Framework (WSRF) • Job Submission Description Language (JSDL) • Distributed Resource Management Application API (DRMAA) • SOAP • WSDL • Grid Security Infrastructure Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 16
  • 17. High level Open Grid Forum API specification for submission and control of jobs to a Distributed Resource Management (DRM, Job scheduler) system, such as a Cluster or Grid computing infrastructure Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 17
  • 18. PBS (Portable Batch System)  Computer software that performs job scheduling in Unix cluster environment  A component of the Globus Toolkit  Originally developed by NASA  Following versions • OpenPBS • TORQUE – a fork of OpenPBS • PBS Professional (PBS pro) - commercial Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 18
  • 19. TORQUE  Distributed resource manager providing control over batch jobs and distributed compute node  It stands for Terascale Open Source Resource and QUEue Manager  Slave 노드의 CPU개수, core 개수, RAM사이즈, 임 시저장소 등의 설정정보를 가지고 스케줄러에 의해 요청이 왔을 때 클러스터 리소스를 분배함 Slave 1 Master Slave 2 NFS Slave 3 > qsub a.sh a.sh 명령을 스케줄러에 따라 slave로 넘김 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 19
  • 20. Virtualized Galaxy (Test-bed) Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 20
  • 21. CLOUD COMPUTING 21 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.
  • 22. Cloud computing  Delivery of computing and storage capacity as a service to a heterogeneous community of end- recipients. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 22
  • 23. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 23
  • 24. VPS (Virtual Private Server)  Internet hosting services to refer a virtual machine in a cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 24
  • 25. AMAZON WEB SERVICES 25 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.
  • 26. Amazon EC2 (Amazon Elastic Compute Cloud) Virtualization + Grid(Cluster) computing in a Cloud 26
  • 27. Amazon EC2 (Amazon Elastic Compute Cloud) 27
  • 28. Amazon EC2 (Amazon Elastic Compute Cloud) 28
  • 29. Amazon EC2 (Amazon Elastic Compute Cloud) 29
  • 30. Amazon S3 (Amazon Simple Storage Service) 30
  • 31. Aspera Connect Server FTP 대비 국내연결시 3x~5x, 해외연결시 5x~1000x 전송속도 향상 1000 Genome, EBI 등 해외 주요 생물정보 사이트에서도 서비스 31
  • 32. GALAXY CLOUDMAN 32 Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
  • 33. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 33
  • 34. Galaxy 구성요소 Galaxy 주요구성 요소  Datasources : 입력 데이터 지정. 별도의 지역 시스템이나, 외부 웹사이트의 데이터를 등록 가능  Tool : 기본적인 분석의 최소 단위, 지역설치시 원하는 툴을 만들어 넣을 수 있음  History : 입력데이터가 Tool의 조합을 거쳐 얻어진 중간 결과물 목록  Workflow : History 는 입력데이터 및 파라메터만 바꾸면 새로운 데이터 결과를 얻을 수 있다. 이를 별도로 프로세스 등록  Visualization : 분석결과를 가시화 도구와 연결  Page : 위 요소들을 종합한 보고서 작성 기능 Eprimer3 tool 을 별도로 만들어 등록한 예제 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 34
  • 35. Galaxy tool 은 입력 출력 Tool 포맷 포맷 입력 데이터를 (포맷에 맞게) 작업하여 (포맷에 맞게) 출력 데이터를 만드는 역할 조합하면 Workflow가 된다 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 35
  • 36. Creating your own Galaxy Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 36
  • 37. Primer design tool Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 37
  • 38. Galaxy on Cloud Using Amazon EC2 + S3 Select AMIs in Community AMIs Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 38
  • 39. Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 39
  • 40. Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 40
  • 41. Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 41
  • 42. Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 42
  • 43. Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 43
  • 44. Galaxy on Insilicogen Galaxy localization on cluster Tool development Workflow development Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 44
  • 45. CLOUD BASED NGS ANALYSIS SERVICE 45 Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
  • 46. AWS를 활용 HPC 서비스 제공 (예, PacBio의 SMART) Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 46
  • 47. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 47
  • 48. 30x Human genome 1 sample (150G) 500만원 (1년저장) Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 48
  • 49. 구글로부터 투자받아 NCBI SRA 서비스 연동 온라인에서 실험없이 곧바로 분석 가능 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 49
  • 50. BGI의 무료 분석서비스 현재 인간데이터 분석에 초점. 6월부터 타 생물종 지원예정 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 50
  • 51. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 51
  • 52. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 52
  • 53. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 53
  • 54. Bina Box 라는 별도의 컴퓨터를 분석장비에 장착 이곳에서 기본 분석 후 데이터 용 량을 줄여 Cloud로 전송 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 54
  • 55. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 55
  • 56. Genome-in-a-Day Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 56
  • 57. 57
  • 58. 58
  • 59. CONCLUSION 59 Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
  • 60. Cloud based NGS analysis  No need to purchase hardware  Data acquisition and analysis and service in the same space  Elastic computing power and storage  But, data transfer problem (Aspera, NAS box) My Book Thunderbolt 6TB Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 60
  • 61. Opportunity  Domestic Analysis Market Expansion (PGM21, Teragen,…)  For large NGS analysis, We need more server and storage  AWS is more easy and cheap  Customer want to easy analysis and high quality product  Need to easy web application  With KT? Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 61
  • 62. What can we do?  Customized/Advanced Analysis Service Positioning  Galaxy + IncoBook on the cloud  Specialized analysis pipeline on the cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 62