SlideShare una empresa de Scribd logo
1 de 46
Descargar para leer sin conexión
Hadoop
               p
~Yahoo! JAPANの活用について~

        2011/01/15
    ヤフー株式会社 R&D統括本部
    ヤ  株式会社    統括本部

      角田直行、吉田一星
自 紹介
           自己紹介

    角田 直行(かくだ なおゆき)
    R&D統括本部 プラットフォーム開発本部検索開発部 開発3
            プラットフォ ム開発本部検索開発部


    – 2005年 ヤフー株式会社入社

     – ヤフー地図
       ヤフ 地図

     – ヤフー路線

     – ヤフー検索
      …

    – 2010年現在、検索プラットフォームを開発中


1              Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
自 紹介
        自己紹介

吉田一星 (よしだ いっせい)

R&D統括本部プラットフォーム開発本部検索開発部開発3
R&D統括本部プラ トフォ ム開発本部検索開発部開発3


– 2008年にYahoo! JAPANに入社
– 検索プラットフォームで、Hadoopに関する開発
  検索プラットフォ ムで、Hadoopに関する開発
– 画像処理、iPhone向け技術開発にもかかわる
Agenda
             g

     Introduction
    –Introduction

     Hadoopとは
    –Hadoopとは

    –事例紹介

    –Hadoopのメリット・デメリット

    –まとめ




3                   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Introduction




4   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
有名なネットサ
    有名なネットサービス


                                           月間         496億7100万PV

                                           1日       5000万 のつぶやき
                                           商品数             6800万

                                           月間ユーザ数                         5億人

    各サービスとも日々成長を続けています
5     Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
莫大なデ タ量との闘
          莫大なデータ量との闘い

     成長を続けていくにはアクセスログ解析やデ タマイニングなど
    –成長を続けていくにはアクセスログ解析やデータマイニングなど
    が必須

    –億単位の行 or テラバイト級のデータを短時間で処理したい




          毎日処理しなければならない

6           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo! JAPANが扱うデータ
                     が扱うデ タ

     ログは1日分だけでもかなりのサイズになる
    –ログは1日分だけでもかなりのサイズになる

     行数を数えるだけでも数日かかる
    –行数を数えるだけでも数日かかる




7           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
解決策としての     p
         解決策としてのHadoop

     大規模な処理 大容量のデ タを扱うには
    –大規模な処理、大容量のデータを扱うには
    1台のサーバでは不可能

    –マルチコアによる並行処理アプローチは複雑すぎる

    –数十~数千台規模で簡単にスケールする環境が不可欠




                  この発表では、
                  この発表では
      Yahoo! JAPANがHadoopをどう活用しているか
           について事例を交えて解説します
8            Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopとは




9   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopとは
              pとは

  大規模分散処理システム
 –大規模分散処理システム

 –Google MapReduce/GFSを論文を元に実装
  Google

 –処理時間が数時間以上かかるようなバッチ処理に向いている
     → Webのように、即座に結果が返るような
      リアルタイム処理には不向き

  Javaで書かれ、オ プンソ スとして公開
 –Javaで書かれ オープンソースとして公開




10           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopとは
              pとは

 –Doug C tti 氏が生みの親
  D    Cutting氏が生みの親

      全文検索ライブラリ uce eなどの
     –全文検索ライブラリLuceneなどの
     他有名OSSも開発

 –Yahoo! Inc. 在籍時はフルタイムで開発

 –現在はClouderaに在籍




                                                                                        (出典元:Wikipedia)

11           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopとは
          pとは

     大きくMapReduceとHDFS
     (分散ファイルシステム)に分かれる




12     Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoop MapReduce
             p   p

     長時間かかる巨大な処理を複数台のマシンに分散


                                                                                      ・・・




                                                                                      ・・・




13         Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoop HDFS
          p

 ・巨大なファイルを複数台に分割
 ・複数サ バの各HDDを1つのHDDのように扱える
 ・複数サーバの各HDDを1つのHDDのように扱える




14      Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoop関連プロダクト
                 p関連  ダクト


             大規模データ処理用スクリプト言語
              A = load 'passwd' using PigStorage(':');
     Pig
       g      B = foreach A generate $0 as id;
              dump B;




             Facebookが開発
             扱いが 般デ タ
             扱いが一般データベースに似ている
                         スに似ている
     Hive     CREATE TABLE pokes (foo INT, bar STRING);
              SELECT a.foo FROM pokes a;
                     a foo

15            Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoop関連プロダクト
                   p関連  ダクト

               複数のMapReduceジョブなどを
     Oozie
     O i       実行制御するワ クフロ
               実行制御するワークフロー


               Hadoop上に構築された列指向データベース
               Google Bi T bl のクロ ン
               G l BigTableのクローン
     HBase

               機械学習ライブラリ
               Hadoopでスケール可
     Mahout

16              Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopの事例紹介
            事




17   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopを活用している会社
          pを活用して る会社




                                                                             など・・・
                                                                             増え続けています!
                                                                             増 続   ます
18     Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo! Inc.での事例紹介
                  事




19    Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoop at Yahoo! Inc
             p

  Hadoopユ ザ テスタ  コミッタ の数が最も多い
 –Hadoopユーザ、テスター、コミッターの数が最も多い

  Haoopのクラスタ、台数が最も多い
 –Haoopのクラスタ、台数が最も多い

     – 多数のクラスタがあり、合計25000台以上

     – 1クラスタにつき最大4000台




20          Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo! Inc トップページ
                トッ   ジ




21      Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo! Inc トップページ
                トッ   ジ

                                                                        検索インデッ
                                                                          クス




                                                                         広告最適化




22      Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo! Inc トップページ
                トッ   ジ

                   コンテンツ最                                               検索インデッ
                     適化                                                   クス




                   スパムフィルター                                              広告最適化




                   コンテンツ管
                        管                                               コンテンツ最
                                                                             最
                      理                                                   適化



23      Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
サ チアシ ト
          サーチアシスト



 – 入力した検索ワードに関連のありそうな単語を自動で補完

 – データベースの構築にHadoopを使用

 – 3年分のデータと 20ステップのMapReduce
   3年分のデ タと、20ステップのMapReduce

                           Hadoop使用前                                      Hadoop

     時間                    26日                                            20分

     言語                    C++                                            Python

     開発期間                  2~3週間
                           2 3週間                                          2~3日
                                                                          2 3日
24           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo! JAPANでの事例
                   事




25    Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
検索 グ ラット ォ
         検索ログプラットフォーム

  社内の検索サ ビスのログ解析全般
 –社内の検索サービスのログ解析全般

      Hiveを独自に拡張して使用している
     –Hiveを独自に拡張して使用している

 –様々なYahoo! JAPANのサービスにデータを提供




26          Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo!検索
            検索

  関連検索ワ ド
 –関連検索ワード

  キ ワ ド入力補助
 –キーワード入力補助

 –ショートカットの表示制御

 –検索ログプラットフォームのデータが元になっている




27          Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo!検索ランキング
            検索ランキング

  検索ランキング 急上昇ワ ドランキングなど
 –検索ランキング、急上昇ワードランキングなど

  都道府県別、性年代別のランキング(Yahoo!ラボ)
 –都道府県別、性年代別のランキング(Yahoo!ラボ)

 –検索ログプラットフォームが提供したデータをさらに加工している




28        Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
レコメンデーションプラットフォーム
           ンデ ション ラット ォ
 – レコメンデーションサービスの計算処理に利用
   レコメンデ ションサ ビスの計算処理に利用

 – Yahoo!オークションなどに導入




29           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
検索 ラット ォ
      検索プラットフォーム(ABYSS)
                (     )
 – 社内の検索サービスをホスティングするプラットフォーム
 – 様々なサービスに導入されている
 – 検索データのストレージとして使用
 – 検索インデックス生成、検索データの解析処理




30       Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
地図検索

  地図検索インデックス生成
 –地図検索インデックス生成

  クリック グ集計 検索ランキング反映
 –クリックログ集計・検索ランキング反映

 –店舗やビルの一意性処理

 –開いているお店検索

     – クロール

     – 定休日 営業時間抽出
       定休日・営業時間抽出

     – 検索インデックス生成



31            Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
その他の事例

  モバイル検索
 –モバイル検索

  広告プラットフォ ム
 –広告プラットフォーム

 –地域APIプラットフォーム(YOLP)

 –Yahoo! JAPAN研究所

 –Etc…




32           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
事例まとめ

  デ タ解析 デ タマイニング
 –データ解析、データマイニング

      – ログ解析、レコメンデーション、テキストマイニングなど
         グ解析、レ メンデ ション、テキストマイ ングなど

 –検索関係

      – 検索インデックス生成、ランキング計算など



 →大量のデータを読み込んで解析をする処理、大量の計算が必
  大量のデ タを読み込んで解析をする処理 大量の計算が必
     要な
     要な「バッチ処理」がほとんど
         ッチ処理」がほとんど



33           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopのメリット・デメリット
                 デ




34     Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopのメリット・デメリット
           pの リット デ リット

 –○ MapReduceを使って バッチ処理を簡単に分散できる
  ○ MapReduceを使って、バッチ処理を簡単に分散できる

 –× リアルタイム処理には向かない

 –HDFSもMapReduceを使ったバッチ処理に最適化されている




35        Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
HDFSの特性
             の特性

  ストレ ジとして使うには特性を理解する必要がある
 –ストレージとして使うには特性を理解する必要がある

     – × RDBMSの代用

     – × ユーザから多くのアクセスがあるストレージ

     – △ 小さいデータを多く格納するストレージ

     – ○ アクセスログデータのストレージ

     – ○ 過去の取引履歴デ タのストレ ジ
         過去の取引履歴データのストレージ




36           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
HDFSの特性
                の特性
 – 何GBというような大きなデータを一気に書き込んだり 読み出したりする用途
   何GBというような大きなデ タを 気に書き込んだり、読み出したりする用途
     に最適化

      – シーケーシャルアクセス。SSDはあまり意味ない

 – データの書き換えは想定されていない
   デ タの書き換えは想定されていない

      – ランダム書き込みができない

      – ファイルロック(排他制御)がない

 – 秒間何十回といった大量の読み書き処理には向かない

      – ファイルキャッシュがない

      – もちろんRDBMSのようにインデックスがない


37            Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
リアルタイ 処理 は
      リアルタイム処理には?

  リアルタイム処理の選択肢はたくさんある
 –リアルタイム処理の選択肢はたくさんある




                                                                          使い分けが重要!



38       Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
使 分けの例
         使い分けの例
 – 検索プラットフォーム、ABYSSの例
   検索プラットフォ  、     の例




     検索インデックスのバッチ更新
                                                                                        数分~数時間かかる




                                                                                          検索インデックス

検索インデックスの元データ                             Hadoop




39           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
使 分けの例
           使い分けの例
     ザからのアク  、リアルタイ 更新は     p以外で
 – ユーザからのアクセス、リアルタイム更新はHadoop以外で



                  バッチ更新                                                             リアルタイム更新




                         Hadoop                                                         クローラなど

     ユ ザ
     ユーザ


                                                                                        トランザクション



                         検索インデックス

40           Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
まとめ




41   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
まとめ
  Hadoopは大規模なデータを複数のマシンに分散して
 –Hadoopは大規模なデータを複数のマシンに分散して
     処理できるプラットフォーム
 –Hadoopを使う企業は増え続けていて、不可欠な技術に
     なりつつある
     なり  ある
  Hadoopは、大規模デ タを扱う処理や、大量の計算が必要な
 –Hadoopは、大規模データを扱う処理や、大量の計算が必要な
     バッチ処理に向いている
 –Yahoo!JAPANはこれからもHadoopを活用していきます




42            Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
TechBlog
           og




      http://techblog.yahoo.co.jp/
      htt //t hbl       h      j /
43       Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoop Hack Night
      adoop a      g




        2010年3月、8月に開催
        2010年3月 8月に開催
44      Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ご静聴ありがとうございました!
     ご静聴  が ござ




45     Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

Más contenido relacionado

La actualidad más candente

オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京Koichi Hamada
 
世界一簡単なHadoopの話
世界一簡単なHadoopの話世界一簡単なHadoopの話
世界一簡単なHadoopの話Koichi Shimazaki
 
Gunosy go2015 06-02
Gunosy go2015 06-02Gunosy go2015 06-02
Gunosy go2015 06-02Yuta Kashino
 
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)NTT DATA OSS Professional Services
 
Hortonworksが提供する データ活用方法の紹介
Hortonworksが提供する データ活用方法の紹介Hortonworksが提供する データ活用方法の紹介
Hortonworksが提供する データ活用方法の紹介Kimihiko Kitase
 
FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介Recruit Technologies
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...NTT DATA OSS Professional Services
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-Keigo Suda
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
WHOIS教室 〜 JPOPM36 20190621
WHOIS教室 〜 JPOPM36 20190621WHOIS教室 〜 JPOPM36 20190621
WHOIS教室 〜 JPOPM36 20190621Akira Nakagawa
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51Shu (shoe116)
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみようYasushi Hara
 

La actualidad más candente (20)

Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
 
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
 
WSDM2016報告会−論文紹介(Multi-Score Position Auctions)#yjwsdm
WSDM2016報告会−論文紹介(Multi-Score Position Auctions)#yjwsdmWSDM2016報告会−論文紹介(Multi-Score Position Auctions)#yjwsdm
WSDM2016報告会−論文紹介(Multi-Score Position Auctions)#yjwsdm
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
 
世界一簡単なHadoopの話
世界一簡単なHadoopの話世界一簡単なHadoopの話
世界一簡単なHadoopの話
 
Comsys2013 10
Comsys2013 10Comsys2013 10
Comsys2013 10
 
Gunosy go2015 06-02
Gunosy go2015 06-02Gunosy go2015 06-02
Gunosy go2015 06-02
 
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
 
Hortonworksが提供する データ活用方法の紹介
Hortonworksが提供する データ活用方法の紹介Hortonworksが提供する データ活用方法の紹介
Hortonworksが提供する データ活用方法の紹介
 
FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
Hadoop 基礎
Hadoop 基礎Hadoop 基礎
Hadoop 基礎
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
ビッグデータ・データマートとは
ビッグデータ・データマートとはビッグデータ・データマートとは
ビッグデータ・データマートとは
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
WHOIS教室 〜 JPOPM36 20190621
WHOIS教室 〜 JPOPM36 20190621WHOIS教室 〜 JPOPM36 20190621
WHOIS教室 〜 JPOPM36 20190621
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
 

Similar a Hadoop~Yahoo! JAPANの活用について~

Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!デベロッパーネットワーク
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方Recruit Technologies
 
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformHadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformYuta Imai
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会伊藤 孝
 
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化Nobuyori Takahashi
 
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃうフレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう株式会社オプト 仙台ラボラトリ
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCデータの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCYahoo!デベロッパーネットワーク
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Hortonworks Japan
 
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポートYou&I
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 

Similar a Hadoop~Yahoo! JAPANの活用について~ (20)

Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
 
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
 
MapReduceによる大規模データ処理 at Yahoo! JAPAN
MapReduceによる大規模データ処理 at Yahoo! JAPANMapReduceによる大規模データ処理 at Yahoo! JAPAN
MapReduceによる大規模データ処理 at Yahoo! JAPAN
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
 
Storm の新機能について @HSCR #hadoopreading
Storm の新機能について @HSCR #hadoopreadingStorm の新機能について @HSCR #hadoopreading
Storm の新機能について @HSCR #hadoopreading
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data PlatformHadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data Platform
 
Hwx勉強会0730
Hwx勉強会0730Hwx勉強会0730
Hwx勉強会0730
 
マルチビッグデータの活用を支える DWHの作り方
マルチビッグデータの活用を支える DWHの作り方マルチビッグデータの活用を支える DWHの作り方
マルチビッグデータの活用を支える DWHの作り方
 
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreadingApache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
 
kukai: 省エネ世界2位のディープラーニング・スパコン
kukai: 省エネ世界2位のディープラーニング・スパコンkukai: 省エネ世界2位のディープラーニング・スパコン
kukai: 省エネ世界2位のディープラーニング・スパコン
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
 
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化
 
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃうフレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCデータの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiC
 
Presto in Yahoo! JAPAN #yjdsnight
Presto in Yahoo! JAPAN #yjdsnightPresto in Yahoo! JAPAN #yjdsnight
Presto in Yahoo! JAPAN #yjdsnight
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
 
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 

Más de Yahoo!デベロッパーネットワーク

ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかYahoo!デベロッパーネットワーク
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2Yahoo!デベロッパーネットワーク
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcYahoo!デベロッパーネットワーク
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo!デベロッパーネットワーク
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcYahoo!デベロッパーネットワーク
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtcYahoo!デベロッパーネットワーク
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcYahoo!デベロッパーネットワーク
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcYahoo!デベロッパーネットワーク
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcYahoo!デベロッパーネットワーク
 

Más de Yahoo!デベロッパーネットワーク (20)

ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
 
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
LakeTahoe
LakeTahoeLakeTahoe
LakeTahoe
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
 
Persistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability FeaturePersistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability Feature
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
 
eコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtceコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtc
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
 
ビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtcビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtc
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
 
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtcYahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
 
「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
 

Último

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Último (9)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

Hadoop~Yahoo! JAPANの活用について~

  • 1. Hadoop p ~Yahoo! JAPANの活用について~ 2011/01/15 ヤフー株式会社 R&D統括本部 ヤ 株式会社 統括本部 角田直行、吉田一星
  • 2. 自 紹介 自己紹介 角田 直行(かくだ なおゆき) R&D統括本部 プラットフォーム開発本部検索開発部 開発3 プラットフォ ム開発本部検索開発部 – 2005年 ヤフー株式会社入社 – ヤフー地図 ヤフ 地図 – ヤフー路線 – ヤフー検索 … – 2010年現在、検索プラットフォームを開発中 1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 3. 自 紹介 自己紹介 吉田一星 (よしだ いっせい) R&D統括本部プラットフォーム開発本部検索開発部開発3 R&D統括本部プラ トフォ ム開発本部検索開発部開発3 – 2008年にYahoo! JAPANに入社 – 検索プラットフォームで、Hadoopに関する開発 検索プラットフォ ムで、Hadoopに関する開発 – 画像処理、iPhone向け技術開発にもかかわる
  • 4. Agenda g Introduction –Introduction Hadoopとは –Hadoopとは –事例紹介 –Hadoopのメリット・デメリット –まとめ 3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 5. Introduction 4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 6. 有名なネットサ 有名なネットサービス 月間 496億7100万PV 1日 5000万 のつぶやき 商品数 6800万 月間ユーザ数 5億人 各サービスとも日々成長を続けています 5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 7. 莫大なデ タ量との闘 莫大なデータ量との闘い 成長を続けていくにはアクセスログ解析やデ タマイニングなど –成長を続けていくにはアクセスログ解析やデータマイニングなど が必須 –億単位の行 or テラバイト級のデータを短時間で処理したい 毎日処理しなければならない 6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 8. Yahoo! JAPANが扱うデータ が扱うデ タ ログは1日分だけでもかなりのサイズになる –ログは1日分だけでもかなりのサイズになる 行数を数えるだけでも数日かかる –行数を数えるだけでも数日かかる 7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 9. 解決策としての p 解決策としてのHadoop 大規模な処理 大容量のデ タを扱うには –大規模な処理、大容量のデータを扱うには 1台のサーバでは不可能 –マルチコアによる並行処理アプローチは複雑すぎる –数十~数千台規模で簡単にスケールする環境が不可欠 この発表では、 この発表では Yahoo! JAPANがHadoopをどう活用しているか について事例を交えて解説します 8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 10. Hadoopとは 9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 11. Hadoopとは pとは 大規模分散処理システム –大規模分散処理システム –Google MapReduce/GFSを論文を元に実装 Google –処理時間が数時間以上かかるようなバッチ処理に向いている → Webのように、即座に結果が返るような リアルタイム処理には不向き Javaで書かれ、オ プンソ スとして公開 –Javaで書かれ オープンソースとして公開 10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 12. Hadoopとは pとは –Doug C tti 氏が生みの親 D Cutting氏が生みの親 全文検索ライブラリ uce eなどの –全文検索ライブラリLuceneなどの 他有名OSSも開発 –Yahoo! Inc. 在籍時はフルタイムで開発 –現在はClouderaに在籍 (出典元:Wikipedia) 11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 13. Hadoopとは pとは 大きくMapReduceとHDFS (分散ファイルシステム)に分かれる 12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 14. Hadoop MapReduce p p 長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・ 13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 15. Hadoop HDFS p ・巨大なファイルを複数台に分割 ・複数サ バの各HDDを1つのHDDのように扱える ・複数サーバの各HDDを1つのHDDのように扱える 14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 16. Hadoop関連プロダクト p関連 ダクト 大規模データ処理用スクリプト言語 A = load 'passwd' using PigStorage(':'); Pig g B = foreach A generate $0 as id; dump B; Facebookが開発 扱いが 般デ タ 扱いが一般データベースに似ている スに似ている Hive CREATE TABLE pokes (foo INT, bar STRING); SELECT a.foo FROM pokes a; a foo 15 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 17. Hadoop関連プロダクト p関連 ダクト 複数のMapReduceジョブなどを Oozie O i 実行制御するワ クフロ 実行制御するワークフロー Hadoop上に構築された列指向データベース Google Bi T bl のクロ ン G l BigTableのクローン HBase 機械学習ライブラリ Hadoopでスケール可 Mahout 16 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 18. Hadoopの事例紹介 事 17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 19. Hadoopを活用している会社 pを活用して る会社 など・・・ 増え続けています! 増 続 ます 18 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 20. Yahoo! Inc.での事例紹介 事 19 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 21. Hadoop at Yahoo! Inc p Hadoopユ ザ テスタ コミッタ の数が最も多い –Hadoopユーザ、テスター、コミッターの数が最も多い Haoopのクラスタ、台数が最も多い –Haoopのクラスタ、台数が最も多い – 多数のクラスタがあり、合計25000台以上 – 1クラスタにつき最大4000台 20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 22. Yahoo! Inc トップページ トッ ジ 21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 23. Yahoo! Inc トップページ トッ ジ 検索インデッ クス 広告最適化 22 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 24. Yahoo! Inc トップページ トッ ジ コンテンツ最 検索インデッ 適化 クス スパムフィルター 広告最適化 コンテンツ管 管 コンテンツ最 最 理 適化 23 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 25. サ チアシ ト サーチアシスト – 入力した検索ワードに関連のありそうな単語を自動で補完 – データベースの構築にHadoopを使用 – 3年分のデータと 20ステップのMapReduce 3年分のデ タと、20ステップのMapReduce Hadoop使用前 Hadoop 時間 26日 20分 言語 C++ Python 開発期間 2~3週間 2 3週間 2~3日 2 3日 24 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 26. Yahoo! JAPANでの事例 事 25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 27. 検索 グ ラット ォ 検索ログプラットフォーム 社内の検索サ ビスのログ解析全般 –社内の検索サービスのログ解析全般 Hiveを独自に拡張して使用している –Hiveを独自に拡張して使用している –様々なYahoo! JAPANのサービスにデータを提供 26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 28. Yahoo!検索 検索 関連検索ワ ド –関連検索ワード キ ワ ド入力補助 –キーワード入力補助 –ショートカットの表示制御 –検索ログプラットフォームのデータが元になっている 27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 29. Yahoo!検索ランキング 検索ランキング 検索ランキング 急上昇ワ ドランキングなど –検索ランキング、急上昇ワードランキングなど 都道府県別、性年代別のランキング(Yahoo!ラボ) –都道府県別、性年代別のランキング(Yahoo!ラボ) –検索ログプラットフォームが提供したデータをさらに加工している 28 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 30. レコメンデーションプラットフォーム ンデ ション ラット ォ – レコメンデーションサービスの計算処理に利用 レコメンデ ションサ ビスの計算処理に利用 – Yahoo!オークションなどに導入 29 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 31. 検索 ラット ォ 検索プラットフォーム(ABYSS) ( ) – 社内の検索サービスをホスティングするプラットフォーム – 様々なサービスに導入されている – 検索データのストレージとして使用 – 検索インデックス生成、検索データの解析処理 30 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 32. 地図検索 地図検索インデックス生成 –地図検索インデックス生成 クリック グ集計 検索ランキング反映 –クリックログ集計・検索ランキング反映 –店舗やビルの一意性処理 –開いているお店検索 – クロール – 定休日 営業時間抽出 定休日・営業時間抽出 – 検索インデックス生成 31 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 33. その他の事例 モバイル検索 –モバイル検索 広告プラットフォ ム –広告プラットフォーム –地域APIプラットフォーム(YOLP) –Yahoo! JAPAN研究所 –Etc… 32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 34. 事例まとめ デ タ解析 デ タマイニング –データ解析、データマイニング – ログ解析、レコメンデーション、テキストマイニングなど グ解析、レ メンデ ション、テキストマイ ングなど –検索関係 – 検索インデックス生成、ランキング計算など →大量のデータを読み込んで解析をする処理、大量の計算が必 大量のデ タを読み込んで解析をする処理 大量の計算が必 要な 要な「バッチ処理」がほとんど ッチ処理」がほとんど 33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 35. Hadoopのメリット・デメリット デ 34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 36. Hadoopのメリット・デメリット pの リット デ リット –○ MapReduceを使って バッチ処理を簡単に分散できる ○ MapReduceを使って、バッチ処理を簡単に分散できる –× リアルタイム処理には向かない –HDFSもMapReduceを使ったバッチ処理に最適化されている 35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 37. HDFSの特性 の特性 ストレ ジとして使うには特性を理解する必要がある –ストレージとして使うには特性を理解する必要がある – × RDBMSの代用 – × ユーザから多くのアクセスがあるストレージ – △ 小さいデータを多く格納するストレージ – ○ アクセスログデータのストレージ – ○ 過去の取引履歴デ タのストレ ジ 過去の取引履歴データのストレージ 36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 38. HDFSの特性 の特性 – 何GBというような大きなデータを一気に書き込んだり 読み出したりする用途 何GBというような大きなデ タを 気に書き込んだり、読み出したりする用途 に最適化 – シーケーシャルアクセス。SSDはあまり意味ない – データの書き換えは想定されていない デ タの書き換えは想定されていない – ランダム書き込みができない – ファイルロック(排他制御)がない – 秒間何十回といった大量の読み書き処理には向かない – ファイルキャッシュがない – もちろんRDBMSのようにインデックスがない 37 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 39. リアルタイ 処理 は リアルタイム処理には? リアルタイム処理の選択肢はたくさんある –リアルタイム処理の選択肢はたくさんある 使い分けが重要! 38 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 40. 使 分けの例 使い分けの例 – 検索プラットフォーム、ABYSSの例 検索プラットフォ 、 の例 検索インデックスのバッチ更新 数分~数時間かかる 検索インデックス 検索インデックスの元データ Hadoop 39 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 41. 使 分けの例 使い分けの例 ザからのアク 、リアルタイ 更新は p以外で – ユーザからのアクセス、リアルタイム更新はHadoop以外で バッチ更新 リアルタイム更新 Hadoop クローラなど ユ ザ ユーザ トランザクション 検索インデックス 40 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 42. まとめ 41 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 43. まとめ Hadoopは大規模なデータを複数のマシンに分散して –Hadoopは大規模なデータを複数のマシンに分散して 処理できるプラットフォーム –Hadoopを使う企業は増え続けていて、不可欠な技術に なりつつある なり ある Hadoopは、大規模デ タを扱う処理や、大量の計算が必要な –Hadoopは、大規模データを扱う処理や、大量の計算が必要な バッチ処理に向いている –Yahoo!JAPANはこれからもHadoopを活用していきます 42 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 44. TechBlog og http://techblog.yahoo.co.jp/ htt //t hbl h j / 43 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 45. Hadoop Hack Night adoop a g 2010年3月、8月に開催 2010年3月 8月に開催 44 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 46. ご静聴ありがとうございました! ご静聴 が ござ 45 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止