Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

AWS EMR - Amazon Elastic Map Reduce

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Cargando en…3
×

Eche un vistazo a continuación

1 de 34 Anuncio

Más Contenido Relacionado

Similares a AWS EMR - Amazon Elastic Map Reduce (20)

Anuncio

Más reciente (20)

AWS EMR - Amazon Elastic Map Reduce

  1. 1. AWS – EMR (ELASTIC MAP/REDUCE) Serkan ÖZAL Big Data Hackathon Şubat 2014
  2. 2. İçerik  Amazon EMR Nedir  Amazon EMR Ana Bileşenleri  Amazon EMR Özellikleri  Amazon EMR Kullanım Yöntemleri  Instance Tipleri  Cluster Tipleri  Amazon EMR Node Tipleri  Amazon EMR Mimarisi  Amazon EMR’ın Web Arayüzü İle Kullanımı 2
  3. 3. Hadoop-as-a-service Map-Reduce motoru Diğer araçlar ile entegre EMR Nedir? Ölçeklenebilir Amazon servisleri ile entegre Kolay konfigüre edilebilir ve yönetilebilir
  4. 4. Amazon EMR Ana Bileşenleri  Amazon EC2  Esnek - Kapasite kolay bir şekilde arttırılıp azaltılabilir.  Biçimlendirilebilir: Birçok instance tipi (CPU, Memory, Storage), işletim sistemi ve yazılım paketi destekliyor  Güvenilir: Her Amazon EC2 Region’da 99.95% kullanılabilirlik  Düşük Maliyet: Reserved Instance ve Spot Instance oranında  Amazon S3  1 byte’dan 5 terabyte’ kadar veri tutan object yazılıp okunabilir.  Object’ler bucket’lar içinde tutulur.  Tutulan veriler için 99.999999999% dayanıklılık ve 99.99% devamlılık için tasarlanmıştır.  Veriler şifrelenerek tutulabilir ve veri upload/download işlemleri de güvenli bağlantı üstünden yapılabilir. 4
  5. 5. Amazon EMR Özellikleri  Web arayüzü, komut satırı veya API ile kullanım     5 kolaylığı sunar. Kolay bir şekilde Hadoop cluster’ı kurma, yönetme, ve konfigüre etme sunar. Distributed file system olarak kendi servisleri olan AWS S3’ü sunar. Fakat istenirse Hadoop HDFS’de kullanılabilir. Çalışan cluster ve joblar monitor edilebilip istenirse kapasiteleri değiştirilebilir. Cluster istenilen zamanda veya joblar bittiğinde kapatılabilir ve böylece sadece kullanıldığı kadar ücret ödenir.
  6. 6. Amazon EMR Kullanım Yöntemleri  Web Arayüzü  «console.aws.amazon.com»  Rest API  HTTP requestleri ile kullanılır.  Command Line Tools  Komut satırından girilen komutlar ile kullanılır.  Programlama API  Java  .NET  Ruby  PHP  Javascript (NodeJS için) 6
  7. 7. Reserved Instance  1 ile 3 yıllık süreler boyunca belirtilen sayıda Amazon EC2 instance’ı size ayırılır ve bu süre boyunca siz istemediğiniz sürece sizden alınamaz.  Kullansanız da kullanmasanız da parasını ödersiniz fakat normal durumda sürekli olan kullanımla kıyaslandığında farklı optimizasyon seviyelerine göre %65’e kadar ucuza gelebilir.  Sürekli çalışacak instance’ların maliyet açısından «reserved instance» olarak seçilmesi çok daha uygundur. 7
  8. 8. On Demand Instance  Belirtilen sayıda instance sizin için açılır ve siz istemediğiniz sürece sizden alınamaz.  Kullanıldığınız kadar ödersiniz. Kullanım süresi saat bazlıdır. Yani 5 dk kullanım ile 55 dk kullanımın size olan maliyeti aynıdır.  Kısa süreli çalışacak ve kesilmesi uygun olmayan işlerin yapılması için maliyet açısından «ondemand instance» seçilmesi daha uygundur. 8
  9. 9. Spot Instance  «Spot» instance’lar «On-Demand» ve «Reserved» 9 instance’lara ek olarak sunulur ve müşterilere hesaplama kapasitesi için ek bir opsiyon sağlar.  «Spot» Instance kullanabilmek için müşteriler o anda kulanılmamakta olan EC2 instance’ları için fiyat teklifi yaparlar. Teklif edilen fiyat o anda o instance için belirlenmiş Spot fiyatını aştığı sürece, teklif verilen instance tipi kullanılabilir. Spot fiyatı periyodik olarak arz ve talebe göre değişir.  Bu tip instance’lar daha çok Anaytics, Big Data, Financial modeling and analysis, Image and Media encoding, Scientific Computing alanlarda kullanılmaktadır.
  10. 10. Cluster Tipleri  Transient Cluster  Cluster job süresince var olur ve job bitince kapatılır.  Alive Cluster  Sürekli açık halde bir cluster vardır ve job’lar bu cluster’a gönderilir. Job’lar bittikten sonra cluster sonra gelecek joblar için ayaktadır.  Elastic Cluster başlangıçta belirli bir node sayısı ile başlatılır. Daha sonra manuel olarak yada otomatik olarak (sistemdeki CPU, Memory, Network gibi yük miktarını göz önüne alarak) cluster’daki node sayısı dinamik olarak arttırılıp azaltılabilir.  Cluster 10
  11. 11. Amazon EMR Node Tipleri  Cluster içinde 3 çeşit node (instance) tipi vardır:  Master Node  Core Node’lar  Task Node’lar 11
  12. 12. Amazon EMR Mimarisi 12
  13. 13. Master Node Amazon EMR cluster Cluster’daki diğer instanceları yönetir ve kontrol eder. Onlara iş atar ve sonuçlarını alır. «Job Tracker» bu node’da çalışır. Master instance group Master Node Core instance group
  14. 14. Core Nodes Amazon EMR cluster Core instance’lar hem «Data Node» hem «TaskTracker Node» olarak çalışırlar. Yani hem veri deplolar, sunar hem de ana işin alt kısımlarını yapan task’ları çalıştırırlar. Master instance group Master Node HDFS HDFS Core instance group
  15. 15. Task Nodes Amazon EMR cluster Sistemdeki yük miktarına göre sonradan eklenip çıkarılabilir. «Data Node» olarak görev yapmazlar ve veri tutmazlar. Sadece «TaskTracker Node» olarak görev yapalar ve ana işin alt kısımları olan task’ları çalıştırırlar. Master instance group Master Node HDFS HDFS Core instance group
  16. 16. S3 Amazon EMR cluster Distributed file system olarak işlenilecek veriyi ve oluşan sonuç verisini tutar. Master instance group Master Node HDFS HDFS Core instance group Amazon S3
  17. 17. İşleyiş Amazon EMR cluster «Master Node» slave olarak çalışan «Core Node» ve «Task Node» ları yönetir, onlara alt işleri atar ve onları izler. Tüm slave node’larn hepsi işlerini bitirdiği zaman kendisini çağıran sisteme görevin bittiğini haber eder. Master instance group Master Node HDFS HDFS Core instance group Amazon S3
  18. 18. Amazon EMR’ın Web Arayüzü İle Kullanımı  «console.aws.amazon.com/elasticmapreduce» 18
  19. 19. AWS Console 19
  20. 20. Amazon EMR Console 20
  21. 21. Cluster Configuration 21
  22. 22. Software Configuration 22
  23. 23. Hardware Configuration 23
  24. 24. Security And Access 24
  25. 25. Job Tipi Seçimi 25
  26. 26. Hadoop Jar’ının Tanımlanması 26
  27. 27. Cluster’ı Oluşturma 27
  28. 28. Job Başlıyor 28
  29. 29. Job Sonuçları 29
  30. 30. Job Sonucunun İndirilmesi - 1 30
  31. 31. Job Sonucunun İndirilmesi - 2 31
  32. 32. Cluster’ın Kapatılması 32
  33. 33. Job Sonuçları 33
  34. 34. Teşekkürler 34

Notas del editor

  • EMR Is managed Hadoop Offering that takes burden of deploying and maintaining hadoop clusters away from developers. EMR uses Apache Hadoop mapreduce engine and integrates with variety of different tools.
  • Manages the job flow: coordinating the distribution of the MapReduce executable and subsets of the raw data, to the core and task instance groups It also tracks the status of each task performed, and monitors the health of the instance groups. To monitor the progress of the job flow, you can SSH into the master node as the Hadoop user and either look at the Hadoop log files directly or access the user interface that Hadoop
  • Contains all of the core nodes of a job flow. A core node is an EC2 instance that runs Hadoop map and reduce tasks and stores data using the Hadoop Distributed File System (HDFS). The EC2 instances you assign as core nodes are capacity that must be allotted for the entire job flow run. Core nodes run both the DataNodes and TaskTrackerHadoop daemons.
  • Contains all of the task nodes in a job flow. The task instance group is optional. You can add it when you start the job flow or add a task instance group to a job flow in progress. You can increase and decrease the number of task nodes. Because they don't store data and can be added and removed from a job flow, you can use task nodes to manage the EC2 instance capacity your job flow uses
  • We’ll start with Core nodes. Core nodes run TaskTracker and Datanode. Core nodes are very similar to traditional Hadoop salve nodes. They can process data with mappers and reducers and can also store data with HDFS or Datanode.
  • We’ll start with Core nodes. Core nodes run TaskTracker and Datanode. Core nodes are very similar to traditional Hadoop salve nodes. They can process data with mappers and reducers and can also store data with HDFS or Datanode.

×