SlideShare a Scribd company logo
1 of 80
AWS – Elastic MapReduce
Hadoop ja Amazon Web Sercvices
Mikä on Elastic MapReduce
   Web-palvelu, joka mahdollistaa suurten datamäärien
    tehokkaan käsittelyn
   Käyttää Hadoop-ohjelmistoympäristöä (software framework)
   Tarkoitettu yrityksille, tutkijoille ja sovelluskehittäjille
    analyysien suorittamiseen


   Soveltuu mm.:
       Analyyseihin
       Tutkimukseen
       Simulointiin
       Tiedonlouhintaan
Mikä on Hadoop?
   Hadoop on avoimen lähdekoodin
    ohjelmistoympäristö, joka on valmiiksi
    asennettuna Elastic MapReducen käyttäjille


   Hadoop on käytössä lukuisissa suuryrityksissä
    kuten eBay, IBM ja Yahoo!
Mitä Hadoop tekee?
   Hadoop jakaa käsiteltävän datan osiin, joka
    puolestaan jaetaan EC2-instanssien
    (virtuaalipalvelimia) käsiteltäväksi
   Hadoop kokoaa käsitellyn datan taas yhteen ja
    yhdistää ne lopputulokseksi
   Hadoop huolehtii instanssien välisestä
    kommunikaatiosta ja valvoo niiden toimintaa


   Hadoopin käyttämää hajautetun laskennan
    toimintamallia kutsutaan nimellä MapReduce
Mitä on MapReduce?
   Käsiteltävä data jaetaan siis osiin ja osat
    jaetaan AWS:n tapauksessa EC2-instansseille
    (slave-instansseille, joita master-instanssi
    valvoo)
   Jaetun datan mukana instanssit saavat
    käsittelyohjeet
   Käsiteltyään datan Hadoop yhdistää slave-
    instanssien laskennan tulokset
Mitä Elastic MapReduce maksaa?

   Hinnat riippuvat käytettyjen instanssien
    (virtuaalipalvelin) koosta ja käyttöalueesta (Aasia,
    Yhdysvallat vai EU)
Mitä Elastic MapReduce maksaa?

   Palvelun käyttämisen hinta koostuu siis neljästä osasta:
    EC2, S3, tiedonsiirto ja Elastic MapReduce

                                                       Elastic
    EC2               S3             Tiedonsiirto    MapReduce
Osaamisvaatimukset
sovelluskehittäjälle
   XML (extender markup language)
   Ymmärrys web-palveluiden perusteista
   Ohjelmointiosaaminen tarvittavien
    komentojen (mapper, reducer) antamiseksi
    Elastic MapReduce-palvelulle ja tulosten
    hyödyntämiseksi
       Käytössä myös Hive (versio 0.5) ja Pig (versio 0.6),
        jotka mahdollistavat Hadoopin käytön SQL-tyyppisin
        komennoin ilman tarvetta MapReduce-algoritmejä
        esim. Javalla
Käsiteltävän datan enimmäismäärä

   Ilman yhteydenottoa Amazonin
    (myynti)edustajaan voi ottaa käyttöön 20
    instanssia
   Käsiteltävän datan enimmäismäärä on 34
    teratavua (34 TB)
     20 ”extra large”-instanssia, joissa 1.69 teratavua
     kovalevytilaa kussakin. Elastic MapReduce
     käyttää instanssien kovalevytilaa datan
     säilyttämiseen prosessoinnin aikana
Elastic MapReducen käyttäminen

   Kolme vaihtoehtoista tapaa: konsoli
    (hallintapaneeli), komentorivi (command line
    interface, CLI) ja API (ohjelmointirajapinta)

   Konsoli helpoin ja suppein
   API vaikein ja monipuolisin

   Komentorivi (CLI, command line interface)
    vaatii Rubyn asennettuna toimiakseen
Tietoturva (data security)
   Ainoastaan AWS-tilin omistaja pääsee käsiksi
    Elastic MapReducen S3-palveluun tallentamiin
    tietoihin, ellei toisin määritetä
   S3-palveluun tiedot ladataan HTTPS-protokollalla
   Elastic MapReduce käyttää HTTPS-protokollaa
    siirtäessään tietoja S3:n ja EC2:n välillä
   Tiedot voi myös siirtää S3-palveluun salattuina
    (crypted), kunhan Elastic MapReduce-ajossa
    huolehditaan salauksen purusta ennen datan
    käsittelyä (ylimääräinen työvaihe ennen data
    käsittelyä)
Toimintamalli vaiheittain
1.   Lataa data ja ohjaustiedostot (mapper, reducer
     executable:t) S3-palveluun ja pyydä Elastic
     MapReducea (EMR) aloittamaan työ
2.   EMR käynnistää EC2-klusterin, joka lataa ja ajaa
     Hadoopin
3.   Hadoop tekee työn lataamalla datan S3:sta EC2-
     klusterilla. Dataa voidaan myös ladata
     dynaamisesti.
4.   Hadoop käsittelee datan ja tallentaa tulokset
     klusterista S3:en
5.   Työ on valmis ja tulokset ladattavissa S3-sta
ELASTIC MAPREDUCEN
KÄYTTÖÖNOTTO
Miten palvelua käytetään?
Avaa AWS-tili

Mene osoitteeseen http://aws.amazon.com




                                          Klikkaa jompaa kumpaa
...Avaa AWS-tili...


                      Sähköpostiosoitteestasi tulee
                      käyttäjätunnuksesi
...Avaa AWS-tili...
...Avaa AWS-tili...



                      Täytä kaikki kentät ja
                      klikkaa ”Continue”
...Avaa AWS-tili...

• Kun olet kirjautunut sisään, etusivulla aws.amazon.com mene
  hallintapaneeliin (management console)




• Päästäksesi käyttämään palveluita (EC2, S3 jne.) täytyy sinun antaa
  myös maksutietosi
• Palvelut maksetaan luottokortilla, maksutiedot ovat luottokortin numero,
  voimassaoloaika ja turvaluku
AWS – hallintapaneeli




           Voit ohjata kaikkia ostamiasi palveluita
           (resursseja) web-käyttöliittymällä.
Elastic MapReduce

Alue, jolla haluat Amazonin      Valitse Elastic MapReduce-välilehti
palvelimien sijaitsevan




   Se, missä palvelimet
   sijaitsevat, vaikuttaa
   palvelun hintaan ja lisäksi
   lainsäädäntö voi vaatia
   sinua säilyttämään ja
   prosessoimaan datan
   esim. EU-alueella
Käytä Elastic MapReducea

                Klikkaa aloittaaksesi uuden työn
Vaihe 1. (Define Job Flow)
Vaihe 2. (Specify Parameters)
Vaihe 3. (Configure EC2 Instances)
Vaihe 4. (Bootstrap Actions)
Vaihe 5. (Review, tarkasta)




      Tarkista, että kaikki on kuten haluat ja paina ”Create Job Flow”
ELASTIC MAPREDUCE
VAIHEET TARKEMMIN
Edellä esiteltyjen vaiheiden tarkempi tarkastelu
Vaihe 1. (Define Job Flow)
Vaihe 1. (Define Job Flow)

                               Sovelluksen nimi

Oma sovellus:                             Valmiita esimerkkisovelluksia:




Oman sovelluksen vaihtoehdot              Tarjolla olevat valmiit esimerkit
Vaihe 2. (Specify Parameters)
Vaihe 2. (Specify Parameters)

                                                                                            Mistä tieto haetaan (S3 bucket)
                                                                                            Mihin tulokset ladataan (S3 bucket)

                                                                                             Mistä Mapper ladataan (S3 bucket)

                                                                                            Mistä Reducer ladataan (S3 bucket)

                                                                                            Lisäargumentit työlle (job)
                                                                                                Voit lisätä tiedostoja tai kirjastoja Mapper:n
                                                                                                 tai Reducer:n käyttöön



Esimerkki Extra Args:
-cacheFile s3n://bucket/polku_tiedostoon#paikallinen_polku
• Tiedosto ladataan ja löytyy työkansiosta nimella ”paikallinen_polku”

-cacheArchive s3n://bucket/polku_kirjastoon#paikallinen_polku
• Kirjasto ladataan ja löytyy työkansiosta kansiosta ”paikallinen_polku”

Kts. http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?UsingBootstrapActions.html
Vaihe 3. (Configure EC2 Instances)
Instanssien määrä ja laatu
   Oletuksena instanssien maksimimäärä on 20
       Jos tarvitset enemmän, voi lisäinstansseja pyytää Amazonilta web-lomakkeella



   Instansseista yksi on master- ja muut slave-instansseja
       Jos käytössä vain yksi instanssi, se on molempia



   Master-instanssi jakaa ja valvoo työtä, slave-instanssit
    suorittavat sen


   Käyttäjä voi ottaa suoran yhteyden ainoastaan master-
    instanssiin
       Tarkastellakseen esim. Hadoopin loki-tiedostoja (log files) tai Hadoopin tarjoamaa
        käyttöliittymää
Vaihe 3. (Configure EC2 Instances)



Jos haluat ottaa SSH-salatun yhteyden slave-instanssiin, valitse
avainpari (Key Pair). Jos et ole luonut sellaista, kts. seuraava dia.
Pilvipalvelut : AWS Elastic MapReduce
AWS – hallintapaneeli




           Voit ohjata kaikkia ostamiasi palveluita
           (resursseja) web-käyttöliittymällä.
Valitse Amazon EC2-välilehti




  Valitse alueeksi EU
                        Käynnistä uusi instanssi
                        (virtuaalipalvelin)
Valitse AMI (mikä vaan)
Käynnistä AMI
...jatka eteenpäin...
...jatka eteenpäin...
Luo salausavain (Key Pair)



                       Anna avainparille nimi



                       Luo ja lataa avainpari
Pilvipalvelut : AWS Elastic MapReduce
Vaihe 3. (Configure EC2 Instances)


Valitse intanssi-tyyppi ja instanssien lukumäärä




                                                   Instanssityyppejä – tehokkaammat
                                                   ovat kalliimpia
Vaihe 3. (Configure EC2 Instances)

                    S3-kori (bucket), johon yleiset virhetiedot
                    (debugging) tallennetaan




              Jos valitset tämän, tarvitsen
              SimpleDB-tilit tietojen
              tallentamiseen
              (SimpleDB:tä ei käsitellä tässä)
Vaihe 4. (Bootstrap Actions)
Vaihe 4. (Bootstrap Actions)




           Bootstrapit ovat toimintoja, jotka tehdään
           ennen kuin työ (job flow) käynnistetään.
Vaihe 5. (Review, tarkasta)




      Tarkista, että kaikki on kuten haluat ja paina ”Create Job Flow”
ESIMERKKISOVELLUKSIA
Pilvipalvelut : AWS Elastic MapReduce
Kirjaudu hallintapaneeliin ja luo
S3-bucketit

   Luo uusi S3 ”Bucket” datalle ja tuloksille
Luo bucket



             Jos haluat datan sijaitsevan
             EU-alueella, valitse Irlanti
Uusi S3-bucket luotu
Kirjaudu hallintapaneeliin ja aloita työ

                        Klikkaa aloittaaksesi uuden työn
Vaihe 1.
Vaihe 2.
Vaihe 3.


           Yksi instanssi, joka on samalla slave ja master




                  En halua ottaa SSH-yhteyttä
Vaihe 4.
Vaihe 5.
Valmis
Työ (job flow) käynnistyy
Työ (job flow) käynnissä
Työ (job flow) käynnissä
EC2-instanssi käynnissä
Pilvipalvelut : AWS Elastic MapReduce
Työn (job flow) tulokset
Pilvipalvelut : AWS Elastic MapReduce
Kirjaudu hallintapaneeliin ja luo
S3-bucketit

  Luo uusi S3 ”Bucket” datalle ja tuloksille
Luo S3-bucket


                Jos haluat datan sijaitsevan
                EU-alueella, valitse Irlanti
Uusi S3-bucket luotu
Vaihe 1.
Vaihe 2.
Vaihe 3.
Vaihe 4.
Vaihe 5.
Valmis
Työ (job flow) suoritettu
Tulokset S3:ssa (tulokset ”bucket”)
Ote tuloksista

           Lähdetiedosto Amazonin tarjoama dokumentti,
           josta työ (job flow) oli laskea sanojen
           esiintymistiheys.
Lisää aiheesta jatkokursseilla.

More Related Content

Viewers also liked

Pilvipalvelut: Amazon web services lyhyt esittely
Pilvipalvelut: Amazon web services lyhyt esittelyPilvipalvelut: Amazon web services lyhyt esittely
Pilvipalvelut: Amazon web services lyhyt esittelyImmo Salo
 
SMi NCW 04 Conference, Chairman's Kickoff Presentation © 26 Oct 2004, Mark Te...
SMi NCW 04 Conference, Chairman's Kickoff Presentation © 26 Oct 2004, Mark Te...SMi NCW 04 Conference, Chairman's Kickoff Presentation © 26 Oct 2004, Mark Te...
SMi NCW 04 Conference, Chairman's Kickoff Presentation © 26 Oct 2004, Mark Te...Mark Tempestilli
 
Mc self eval memo
Mc self eval memoMc self eval memo
Mc self eval memodajames
 
Smart Machines Sep 2014
Smart Machines Sep 2014Smart Machines Sep 2014
Smart Machines Sep 2014Immo Salo
 
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo SaloPilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo SaloImmo Salo
 
Diabetic Ketoacidosis Physiology
Diabetic Ketoacidosis PhysiologyDiabetic Ketoacidosis Physiology
Diabetic Ketoacidosis PhysiologyElizabeth Ho
 
Best Practices for a Successful AWS Cloud Journey, Leveraging APN
Best Practices for a Successful AWS Cloud Journey, Leveraging APNBest Practices for a Successful AWS Cloud Journey, Leveraging APN
Best Practices for a Successful AWS Cloud Journey, Leveraging APNAmazon Web Services
 
Teollinen Internet ja liiketoiminta (TIEKE 9.5.2014)
Teollinen Internet ja liiketoiminta (TIEKE 9.5.2014)Teollinen Internet ja liiketoiminta (TIEKE 9.5.2014)
Teollinen Internet ja liiketoiminta (TIEKE 9.5.2014)Petteri Alahuhta
 
Smart machines -presentation, November 2014
Smart machines -presentation, November 2014Smart machines -presentation, November 2014
Smart machines -presentation, November 2014Immo Salo
 
Mitä on big data, Aamiaistilaisuus 13.03.2012
Mitä on big data, Aamiaistilaisuus 13.03.2012Mitä on big data, Aamiaistilaisuus 13.03.2012
Mitä on big data, Aamiaistilaisuus 13.03.2012Immo Salo
 
Pilvipalvelut tietoisku, Helsinki 21.11.2013, Eufris Oy, Immo Salo
Pilvipalvelut tietoisku, Helsinki 21.11.2013, Eufris Oy, Immo SaloPilvipalvelut tietoisku, Helsinki 21.11.2013, Eufris Oy, Immo Salo
Pilvipalvelut tietoisku, Helsinki 21.11.2013, Eufris Oy, Immo SaloImmo Salo
 
Try out Hadoop
Try out HadoopTry out Hadoop
Try out HadoopImmo Salo
 
Smart machines, Strategic Technology Trend of 2015
Smart machines, Strategic Technology Trend of 2015Smart machines, Strategic Technology Trend of 2015
Smart machines, Strategic Technology Trend of 2015Immo Salo
 
Big Data -esitys, Arcada ammattikorkeakoulu
Big Data -esitys, Arcada ammattikorkeakouluBig Data -esitys, Arcada ammattikorkeakoulu
Big Data -esitys, Arcada ammattikorkeakouluImmo Salo
 
Smart machines - THe Future Is Here
Smart machines - THe Future Is HereSmart machines - THe Future Is Here
Smart machines - THe Future Is HereImmo Salo
 

Viewers also liked (18)

Pilvipalvelut: Amazon web services lyhyt esittely
Pilvipalvelut: Amazon web services lyhyt esittelyPilvipalvelut: Amazon web services lyhyt esittely
Pilvipalvelut: Amazon web services lyhyt esittely
 
SMi NCW 04 Conference, Chairman's Kickoff Presentation © 26 Oct 2004, Mark Te...
SMi NCW 04 Conference, Chairman's Kickoff Presentation © 26 Oct 2004, Mark Te...SMi NCW 04 Conference, Chairman's Kickoff Presentation © 26 Oct 2004, Mark Te...
SMi NCW 04 Conference, Chairman's Kickoff Presentation © 26 Oct 2004, Mark Te...
 
Mc self eval memo
Mc self eval memoMc self eval memo
Mc self eval memo
 
Haiku Deck
Haiku DeckHaiku Deck
Haiku Deck
 
Smart Machines Sep 2014
Smart Machines Sep 2014Smart Machines Sep 2014
Smart Machines Sep 2014
 
Big Data
Big DataBig Data
Big Data
 
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo SaloPilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
Pilvipalvelut, Tampere 25.10.2013, Eufris Oy, Immo Salo
 
Diabetic Ketoacidosis Physiology
Diabetic Ketoacidosis PhysiologyDiabetic Ketoacidosis Physiology
Diabetic Ketoacidosis Physiology
 
Best Practices for a Successful AWS Cloud Journey, Leveraging APN
Best Practices for a Successful AWS Cloud Journey, Leveraging APNBest Practices for a Successful AWS Cloud Journey, Leveraging APN
Best Practices for a Successful AWS Cloud Journey, Leveraging APN
 
Teollinen Internet ja liiketoiminta (TIEKE 9.5.2014)
Teollinen Internet ja liiketoiminta (TIEKE 9.5.2014)Teollinen Internet ja liiketoiminta (TIEKE 9.5.2014)
Teollinen Internet ja liiketoiminta (TIEKE 9.5.2014)
 
Smart machines -presentation, November 2014
Smart machines -presentation, November 2014Smart machines -presentation, November 2014
Smart machines -presentation, November 2014
 
Mitä on big data, Aamiaistilaisuus 13.03.2012
Mitä on big data, Aamiaistilaisuus 13.03.2012Mitä on big data, Aamiaistilaisuus 13.03.2012
Mitä on big data, Aamiaistilaisuus 13.03.2012
 
Hadoop
HadoopHadoop
Hadoop
 
Pilvipalvelut tietoisku, Helsinki 21.11.2013, Eufris Oy, Immo Salo
Pilvipalvelut tietoisku, Helsinki 21.11.2013, Eufris Oy, Immo SaloPilvipalvelut tietoisku, Helsinki 21.11.2013, Eufris Oy, Immo Salo
Pilvipalvelut tietoisku, Helsinki 21.11.2013, Eufris Oy, Immo Salo
 
Try out Hadoop
Try out HadoopTry out Hadoop
Try out Hadoop
 
Smart machines, Strategic Technology Trend of 2015
Smart machines, Strategic Technology Trend of 2015Smart machines, Strategic Technology Trend of 2015
Smart machines, Strategic Technology Trend of 2015
 
Big Data -esitys, Arcada ammattikorkeakoulu
Big Data -esitys, Arcada ammattikorkeakouluBig Data -esitys, Arcada ammattikorkeakoulu
Big Data -esitys, Arcada ammattikorkeakoulu
 
Smart machines - THe Future Is Here
Smart machines - THe Future Is HereSmart machines - THe Future Is Here
Smart machines - THe Future Is Here
 

Similar to Pilvipalvelut : AWS Elastic MapReduce

Sovellusmodernisoinnin webinaarisarja, osa 2: liiketoimintasovelluksen modern...
Sovellusmodernisoinnin webinaarisarja, osa 2: liiketoimintasovelluksen modern...Sovellusmodernisoinnin webinaarisarja, osa 2: liiketoimintasovelluksen modern...
Sovellusmodernisoinnin webinaarisarja, osa 2: liiketoimintasovelluksen modern...Karl Ots
 
KLehtomaa_HAMK_loppuseminaari_31.10.2013
KLehtomaa_HAMK_loppuseminaari_31.10.2013KLehtomaa_HAMK_loppuseminaari_31.10.2013
KLehtomaa_HAMK_loppuseminaari_31.10.2013Kari Lehtomaa
 
WOA: Web APIt
WOA: Web APItWOA: Web APIt
WOA: Web APItExove
 
Private Cloud ja Dynamic Datacenter Toolkit
Private Cloud ja Dynamic Datacenter ToolkitPrivate Cloud ja Dynamic Datacenter Toolkit
Private Cloud ja Dynamic Datacenter ToolkitTeddie Wardi
 
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Digitalmikkeli
 
Vincit Teatime 2015 - Niko Kurtti: Case Shopify: SaaS:n testaaminen, mihin un...
Vincit Teatime 2015 - Niko Kurtti: Case Shopify: SaaS:n testaaminen, mihin un...Vincit Teatime 2015 - Niko Kurtti: Case Shopify: SaaS:n testaaminen, mihin un...
Vincit Teatime 2015 - Niko Kurtti: Case Shopify: SaaS:n testaaminen, mihin un...VincitOy
 
Azure JKL Keynote 9.11.2017
Azure JKL Keynote 9.11.2017Azure JKL Keynote 9.11.2017
Azure JKL Keynote 9.11.2017Jouni Heikniemi
 
Avoindata workshop tekninen_yleiskuvaus
Avoindata workshop tekninen_yleiskuvausAvoindata workshop tekninen_yleiskuvaus
Avoindata workshop tekninen_yleiskuvausRoope Tervo
 
Hadoop ja MapReduce
Hadoop ja MapReduceHadoop ja MapReduce
Hadoop ja MapReduceP Heinonen
 
Web Client programming
Web Client programmingWeb Client programming
Web Client programmingguest8899ec02
 
Bof eerosiljander 200920
Bof eerosiljander 200920Bof eerosiljander 200920
Bof eerosiljander 200920Eero Siljander
 

Similar to Pilvipalvelut : AWS Elastic MapReduce (12)

Sovellusmodernisoinnin webinaarisarja, osa 2: liiketoimintasovelluksen modern...
Sovellusmodernisoinnin webinaarisarja, osa 2: liiketoimintasovelluksen modern...Sovellusmodernisoinnin webinaarisarja, osa 2: liiketoimintasovelluksen modern...
Sovellusmodernisoinnin webinaarisarja, osa 2: liiketoimintasovelluksen modern...
 
KLehtomaa_HAMK_loppuseminaari_31.10.2013
KLehtomaa_HAMK_loppuseminaari_31.10.2013KLehtomaa_HAMK_loppuseminaari_31.10.2013
KLehtomaa_HAMK_loppuseminaari_31.10.2013
 
WOA: Web APIt
WOA: Web APItWOA: Web APIt
WOA: Web APIt
 
Private Cloud ja Dynamic Datacenter Toolkit
Private Cloud ja Dynamic Datacenter ToolkitPrivate Cloud ja Dynamic Datacenter Toolkit
Private Cloud ja Dynamic Datacenter Toolkit
 
Opinnäytetyö_Pihlajamäki
Opinnäytetyö_PihlajamäkiOpinnäytetyö_Pihlajamäki
Opinnäytetyö_Pihlajamäki
 
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
Datajalostamo-seminaari 5.6.2014: Sovelluskehittäjät ja data – kehittäjäyhtei...
 
Vincit Teatime 2015 - Niko Kurtti: Case Shopify: SaaS:n testaaminen, mihin un...
Vincit Teatime 2015 - Niko Kurtti: Case Shopify: SaaS:n testaaminen, mihin un...Vincit Teatime 2015 - Niko Kurtti: Case Shopify: SaaS:n testaaminen, mihin un...
Vincit Teatime 2015 - Niko Kurtti: Case Shopify: SaaS:n testaaminen, mihin un...
 
Azure JKL Keynote 9.11.2017
Azure JKL Keynote 9.11.2017Azure JKL Keynote 9.11.2017
Azure JKL Keynote 9.11.2017
 
Avoindata workshop tekninen_yleiskuvaus
Avoindata workshop tekninen_yleiskuvausAvoindata workshop tekninen_yleiskuvaus
Avoindata workshop tekninen_yleiskuvaus
 
Hadoop ja MapReduce
Hadoop ja MapReduceHadoop ja MapReduce
Hadoop ja MapReduce
 
Web Client programming
Web Client programmingWeb Client programming
Web Client programming
 
Bof eerosiljander 200920
Bof eerosiljander 200920Bof eerosiljander 200920
Bof eerosiljander 200920
 

More from Immo Salo

Webinar: Quantum Revolution Is Here (2022)
Webinar: Quantum Revolution Is Here (2022)Webinar: Quantum Revolution Is Here (2022)
Webinar: Quantum Revolution Is Here (2022)Immo Salo
 
Webinaari: Kvanttivallankumous 03.02.2021
Webinaari: Kvanttivallankumous 03.02.2021Webinaari: Kvanttivallankumous 03.02.2021
Webinaari: Kvanttivallankumous 03.02.2021Immo Salo
 
Smart machines -esitys Tampereella 02/2016
Smart machines -esitys Tampereella 02/2016Smart machines -esitys Tampereella 02/2016
Smart machines -esitys Tampereella 02/2016Immo Salo
 
Smart Machines -presentation May 2015
Smart Machines -presentation May 2015Smart Machines -presentation May 2015
Smart Machines -presentation May 2015Immo Salo
 
Smart machines -presentation, April 2015
Smart machines  -presentation, April 2015Smart machines  -presentation, April 2015
Smart machines -presentation, April 2015Immo Salo
 
Smart machines -presentation, Feb 2015
Smart machines -presentation, Feb 2015Smart machines -presentation, Feb 2015
Smart machines -presentation, Feb 2015Immo Salo
 
Smart machines -presentation, January 2015
Smart machines -presentation, January 2015Smart machines -presentation, January 2015
Smart machines -presentation, January 2015Immo Salo
 
Smart Machines -presentation, Dec 2014
Smart Machines -presentation, Dec 2014Smart Machines -presentation, Dec 2014
Smart Machines -presentation, Dec 2014Immo Salo
 
Smart machines presentation, Oct 2014
Smart machines presentation, Oct 2014Smart machines presentation, Oct 2014
Smart machines presentation, Oct 2014Immo Salo
 
Smart Machines Oct 2014
Smart Machines Oct 2014Smart Machines Oct 2014
Smart Machines Oct 2014Immo Salo
 
Smart machines - The most disruptive change in the history of IT?
Smart machines - The most disruptive change in the history of IT?Smart machines - The most disruptive change in the history of IT?
Smart machines - The most disruptive change in the history of IT?Immo Salo
 
Smart machines - The Next Hype
Smart machines - The Next HypeSmart machines - The Next Hype
Smart machines - The Next HypeImmo Salo
 
Smart machines - The Hype of 2015
Smart machines - The Hype of 2015Smart machines - The Hype of 2015
Smart machines - The Hype of 2015Immo Salo
 
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo SaloCloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo SaloImmo Salo
 
Pilvipalvelut, Tampere 13.11.2013, Eufris oy, Immo Salo
Pilvipalvelut, Tampere 13.11.2013, Eufris oy, Immo SaloPilvipalvelut, Tampere 13.11.2013, Eufris oy, Immo Salo
Pilvipalvelut, Tampere 13.11.2013, Eufris oy, Immo SaloImmo Salo
 

More from Immo Salo (15)

Webinar: Quantum Revolution Is Here (2022)
Webinar: Quantum Revolution Is Here (2022)Webinar: Quantum Revolution Is Here (2022)
Webinar: Quantum Revolution Is Here (2022)
 
Webinaari: Kvanttivallankumous 03.02.2021
Webinaari: Kvanttivallankumous 03.02.2021Webinaari: Kvanttivallankumous 03.02.2021
Webinaari: Kvanttivallankumous 03.02.2021
 
Smart machines -esitys Tampereella 02/2016
Smart machines -esitys Tampereella 02/2016Smart machines -esitys Tampereella 02/2016
Smart machines -esitys Tampereella 02/2016
 
Smart Machines -presentation May 2015
Smart Machines -presentation May 2015Smart Machines -presentation May 2015
Smart Machines -presentation May 2015
 
Smart machines -presentation, April 2015
Smart machines  -presentation, April 2015Smart machines  -presentation, April 2015
Smart machines -presentation, April 2015
 
Smart machines -presentation, Feb 2015
Smart machines -presentation, Feb 2015Smart machines -presentation, Feb 2015
Smart machines -presentation, Feb 2015
 
Smart machines -presentation, January 2015
Smart machines -presentation, January 2015Smart machines -presentation, January 2015
Smart machines -presentation, January 2015
 
Smart Machines -presentation, Dec 2014
Smart Machines -presentation, Dec 2014Smart Machines -presentation, Dec 2014
Smart Machines -presentation, Dec 2014
 
Smart machines presentation, Oct 2014
Smart machines presentation, Oct 2014Smart machines presentation, Oct 2014
Smart machines presentation, Oct 2014
 
Smart Machines Oct 2014
Smart Machines Oct 2014Smart Machines Oct 2014
Smart Machines Oct 2014
 
Smart machines - The most disruptive change in the history of IT?
Smart machines - The most disruptive change in the history of IT?Smart machines - The most disruptive change in the history of IT?
Smart machines - The most disruptive change in the history of IT?
 
Smart machines - The Next Hype
Smart machines - The Next HypeSmart machines - The Next Hype
Smart machines - The Next Hype
 
Smart machines - The Hype of 2015
Smart machines - The Hype of 2015Smart machines - The Hype of 2015
Smart machines - The Hype of 2015
 
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo SaloCloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
Cloud computing - palvelut verkossa, Espoo 27.11.2013, Eufris Oy, Immo Salo
 
Pilvipalvelut, Tampere 13.11.2013, Eufris oy, Immo Salo
Pilvipalvelut, Tampere 13.11.2013, Eufris oy, Immo SaloPilvipalvelut, Tampere 13.11.2013, Eufris oy, Immo Salo
Pilvipalvelut, Tampere 13.11.2013, Eufris oy, Immo Salo
 

Pilvipalvelut : AWS Elastic MapReduce

  • 1. AWS – Elastic MapReduce Hadoop ja Amazon Web Sercvices
  • 2. Mikä on Elastic MapReduce  Web-palvelu, joka mahdollistaa suurten datamäärien tehokkaan käsittelyn  Käyttää Hadoop-ohjelmistoympäristöä (software framework)  Tarkoitettu yrityksille, tutkijoille ja sovelluskehittäjille analyysien suorittamiseen  Soveltuu mm.:  Analyyseihin  Tutkimukseen  Simulointiin  Tiedonlouhintaan
  • 3. Mikä on Hadoop?  Hadoop on avoimen lähdekoodin ohjelmistoympäristö, joka on valmiiksi asennettuna Elastic MapReducen käyttäjille  Hadoop on käytössä lukuisissa suuryrityksissä kuten eBay, IBM ja Yahoo!
  • 4. Mitä Hadoop tekee?  Hadoop jakaa käsiteltävän datan osiin, joka puolestaan jaetaan EC2-instanssien (virtuaalipalvelimia) käsiteltäväksi  Hadoop kokoaa käsitellyn datan taas yhteen ja yhdistää ne lopputulokseksi  Hadoop huolehtii instanssien välisestä kommunikaatiosta ja valvoo niiden toimintaa  Hadoopin käyttämää hajautetun laskennan toimintamallia kutsutaan nimellä MapReduce
  • 5. Mitä on MapReduce?  Käsiteltävä data jaetaan siis osiin ja osat jaetaan AWS:n tapauksessa EC2-instansseille (slave-instansseille, joita master-instanssi valvoo)  Jaetun datan mukana instanssit saavat käsittelyohjeet  Käsiteltyään datan Hadoop yhdistää slave- instanssien laskennan tulokset
  • 6. Mitä Elastic MapReduce maksaa?  Hinnat riippuvat käytettyjen instanssien (virtuaalipalvelin) koosta ja käyttöalueesta (Aasia, Yhdysvallat vai EU)
  • 7. Mitä Elastic MapReduce maksaa?  Palvelun käyttämisen hinta koostuu siis neljästä osasta: EC2, S3, tiedonsiirto ja Elastic MapReduce Elastic EC2 S3 Tiedonsiirto MapReduce
  • 8. Osaamisvaatimukset sovelluskehittäjälle  XML (extender markup language)  Ymmärrys web-palveluiden perusteista  Ohjelmointiosaaminen tarvittavien komentojen (mapper, reducer) antamiseksi Elastic MapReduce-palvelulle ja tulosten hyödyntämiseksi  Käytössä myös Hive (versio 0.5) ja Pig (versio 0.6), jotka mahdollistavat Hadoopin käytön SQL-tyyppisin komennoin ilman tarvetta MapReduce-algoritmejä esim. Javalla
  • 9. Käsiteltävän datan enimmäismäärä  Ilman yhteydenottoa Amazonin (myynti)edustajaan voi ottaa käyttöön 20 instanssia  Käsiteltävän datan enimmäismäärä on 34 teratavua (34 TB)  20 ”extra large”-instanssia, joissa 1.69 teratavua kovalevytilaa kussakin. Elastic MapReduce käyttää instanssien kovalevytilaa datan säilyttämiseen prosessoinnin aikana
  • 10. Elastic MapReducen käyttäminen  Kolme vaihtoehtoista tapaa: konsoli (hallintapaneeli), komentorivi (command line interface, CLI) ja API (ohjelmointirajapinta)  Konsoli helpoin ja suppein  API vaikein ja monipuolisin  Komentorivi (CLI, command line interface) vaatii Rubyn asennettuna toimiakseen
  • 11. Tietoturva (data security)  Ainoastaan AWS-tilin omistaja pääsee käsiksi Elastic MapReducen S3-palveluun tallentamiin tietoihin, ellei toisin määritetä  S3-palveluun tiedot ladataan HTTPS-protokollalla  Elastic MapReduce käyttää HTTPS-protokollaa siirtäessään tietoja S3:n ja EC2:n välillä  Tiedot voi myös siirtää S3-palveluun salattuina (crypted), kunhan Elastic MapReduce-ajossa huolehditaan salauksen purusta ennen datan käsittelyä (ylimääräinen työvaihe ennen data käsittelyä)
  • 12. Toimintamalli vaiheittain 1. Lataa data ja ohjaustiedostot (mapper, reducer executable:t) S3-palveluun ja pyydä Elastic MapReducea (EMR) aloittamaan työ 2. EMR käynnistää EC2-klusterin, joka lataa ja ajaa Hadoopin 3. Hadoop tekee työn lataamalla datan S3:sta EC2- klusterilla. Dataa voidaan myös ladata dynaamisesti. 4. Hadoop käsittelee datan ja tallentaa tulokset klusterista S3:en 5. Työ on valmis ja tulokset ladattavissa S3-sta
  • 14. Avaa AWS-tili Mene osoitteeseen http://aws.amazon.com Klikkaa jompaa kumpaa
  • 15. ...Avaa AWS-tili... Sähköpostiosoitteestasi tulee käyttäjätunnuksesi
  • 17. ...Avaa AWS-tili... Täytä kaikki kentät ja klikkaa ”Continue”
  • 18. ...Avaa AWS-tili... • Kun olet kirjautunut sisään, etusivulla aws.amazon.com mene hallintapaneeliin (management console) • Päästäksesi käyttämään palveluita (EC2, S3 jne.) täytyy sinun antaa myös maksutietosi • Palvelut maksetaan luottokortilla, maksutiedot ovat luottokortin numero, voimassaoloaika ja turvaluku
  • 19. AWS – hallintapaneeli Voit ohjata kaikkia ostamiasi palveluita (resursseja) web-käyttöliittymällä.
  • 20. Elastic MapReduce Alue, jolla haluat Amazonin Valitse Elastic MapReduce-välilehti palvelimien sijaitsevan Se, missä palvelimet sijaitsevat, vaikuttaa palvelun hintaan ja lisäksi lainsäädäntö voi vaatia sinua säilyttämään ja prosessoimaan datan esim. EU-alueella
  • 21. Käytä Elastic MapReducea Klikkaa aloittaaksesi uuden työn
  • 22. Vaihe 1. (Define Job Flow)
  • 23. Vaihe 2. (Specify Parameters)
  • 24. Vaihe 3. (Configure EC2 Instances)
  • 26. Vaihe 5. (Review, tarkasta) Tarkista, että kaikki on kuten haluat ja paina ”Create Job Flow”
  • 27. ELASTIC MAPREDUCE VAIHEET TARKEMMIN Edellä esiteltyjen vaiheiden tarkempi tarkastelu
  • 28. Vaihe 1. (Define Job Flow)
  • 29. Vaihe 1. (Define Job Flow) Sovelluksen nimi Oma sovellus: Valmiita esimerkkisovelluksia: Oman sovelluksen vaihtoehdot Tarjolla olevat valmiit esimerkit
  • 30. Vaihe 2. (Specify Parameters)
  • 31. Vaihe 2. (Specify Parameters) Mistä tieto haetaan (S3 bucket) Mihin tulokset ladataan (S3 bucket) Mistä Mapper ladataan (S3 bucket) Mistä Reducer ladataan (S3 bucket) Lisäargumentit työlle (job)  Voit lisätä tiedostoja tai kirjastoja Mapper:n tai Reducer:n käyttöön Esimerkki Extra Args: -cacheFile s3n://bucket/polku_tiedostoon#paikallinen_polku • Tiedosto ladataan ja löytyy työkansiosta nimella ”paikallinen_polku” -cacheArchive s3n://bucket/polku_kirjastoon#paikallinen_polku • Kirjasto ladataan ja löytyy työkansiosta kansiosta ”paikallinen_polku” Kts. http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?UsingBootstrapActions.html
  • 32. Vaihe 3. (Configure EC2 Instances)
  • 33. Instanssien määrä ja laatu  Oletuksena instanssien maksimimäärä on 20  Jos tarvitset enemmän, voi lisäinstansseja pyytää Amazonilta web-lomakkeella  Instansseista yksi on master- ja muut slave-instansseja  Jos käytössä vain yksi instanssi, se on molempia  Master-instanssi jakaa ja valvoo työtä, slave-instanssit suorittavat sen  Käyttäjä voi ottaa suoran yhteyden ainoastaan master- instanssiin  Tarkastellakseen esim. Hadoopin loki-tiedostoja (log files) tai Hadoopin tarjoamaa käyttöliittymää
  • 34. Vaihe 3. (Configure EC2 Instances) Jos haluat ottaa SSH-salatun yhteyden slave-instanssiin, valitse avainpari (Key Pair). Jos et ole luonut sellaista, kts. seuraava dia.
  • 36. AWS – hallintapaneeli Voit ohjata kaikkia ostamiasi palveluita (resursseja) web-käyttöliittymällä.
  • 37. Valitse Amazon EC2-välilehti Valitse alueeksi EU Käynnistä uusi instanssi (virtuaalipalvelin)
  • 42. Luo salausavain (Key Pair) Anna avainparille nimi Luo ja lataa avainpari
  • 44. Vaihe 3. (Configure EC2 Instances) Valitse intanssi-tyyppi ja instanssien lukumäärä Instanssityyppejä – tehokkaammat ovat kalliimpia
  • 45. Vaihe 3. (Configure EC2 Instances) S3-kori (bucket), johon yleiset virhetiedot (debugging) tallennetaan Jos valitset tämän, tarvitsen SimpleDB-tilit tietojen tallentamiseen (SimpleDB:tä ei käsitellä tässä)
  • 47. Vaihe 4. (Bootstrap Actions) Bootstrapit ovat toimintoja, jotka tehdään ennen kuin työ (job flow) käynnistetään.
  • 48. Vaihe 5. (Review, tarkasta) Tarkista, että kaikki on kuten haluat ja paina ”Create Job Flow”
  • 51. Kirjaudu hallintapaneeliin ja luo S3-bucketit Luo uusi S3 ”Bucket” datalle ja tuloksille
  • 52. Luo bucket Jos haluat datan sijaitsevan EU-alueella, valitse Irlanti
  • 54. Kirjaudu hallintapaneeliin ja aloita työ Klikkaa aloittaaksesi uuden työn
  • 57. Vaihe 3. Yksi instanssi, joka on samalla slave ja master En halua ottaa SSH-yhteyttä
  • 61. Työ (job flow) käynnistyy
  • 62. Työ (job flow) käynnissä
  • 63. Työ (job flow) käynnissä
  • 66. Työn (job flow) tulokset
  • 68. Kirjaudu hallintapaneeliin ja luo S3-bucketit Luo uusi S3 ”Bucket” datalle ja tuloksille
  • 69. Luo S3-bucket Jos haluat datan sijaitsevan EU-alueella, valitse Irlanti
  • 77. Työ (job flow) suoritettu
  • 78. Tulokset S3:ssa (tulokset ”bucket”)
  • 79. Ote tuloksista Lähdetiedosto Amazonin tarjoama dokumentti, josta työ (job flow) oli laskea sanojen esiintymistiheys.