Más contenido relacionado
La actualidad más candente (20)
Similar a Hadoop~Yahoo! JAPANの活用について~ (20)
Más de Yahoo!デベロッパーネットワーク (20)
Hadoop~Yahoo! JAPANの活用について~
- 1. Hadoop
p
~Yahoo! JAPANの活用について~
2011/01/15
ヤフー株式会社 R&D統括本部
ヤ 株式会社 統括本部
角田直行、吉田一星
- 2. 自 紹介
自己紹介
角田 直行(かくだ なおゆき)
R&D統括本部 プラットフォーム開発本部検索開発部 開発3
プラットフォ ム開発本部検索開発部
– 2005年 ヤフー株式会社入社
– ヤフー地図
ヤフ 地図
– ヤフー路線
– ヤフー検索
…
– 2010年現在、検索プラットフォームを開発中
1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 3. 自 紹介
自己紹介
吉田一星 (よしだ いっせい)
R&D統括本部プラットフォーム開発本部検索開発部開発3
R&D統括本部プラ トフォ ム開発本部検索開発部開発3
– 2008年にYahoo! JAPANに入社
– 検索プラットフォームで、Hadoopに関する開発
検索プラットフォ ムで、Hadoopに関する開発
– 画像処理、iPhone向け技術開発にもかかわる
- 4. Agenda
g
Introduction
–Introduction
Hadoopとは
–Hadoopとは
–事例紹介
–Hadoopのメリット・デメリット
–まとめ
3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 5. Introduction
4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 6. 有名なネットサ
有名なネットサービス
月間 496億7100万PV
1日 5000万 のつぶやき
商品数 6800万
月間ユーザ数 5億人
各サービスとも日々成長を続けています
5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 7. 莫大なデ タ量との闘
莫大なデータ量との闘い
成長を続けていくにはアクセスログ解析やデ タマイニングなど
–成長を続けていくにはアクセスログ解析やデータマイニングなど
が必須
–億単位の行 or テラバイト級のデータを短時間で処理したい
毎日処理しなければならない
6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 8. Yahoo! JAPANが扱うデータ
が扱うデ タ
ログは1日分だけでもかなりのサイズになる
–ログは1日分だけでもかなりのサイズになる
行数を数えるだけでも数日かかる
–行数を数えるだけでも数日かかる
7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 9. 解決策としての p
解決策としてのHadoop
大規模な処理 大容量のデ タを扱うには
–大規模な処理、大容量のデータを扱うには
1台のサーバでは不可能
–マルチコアによる並行処理アプローチは複雑すぎる
–数十~数千台規模で簡単にスケールする環境が不可欠
この発表では、
この発表では
Yahoo! JAPANがHadoopをどう活用しているか
について事例を交えて解説します
8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 10. Hadoopとは
9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 11. Hadoopとは
pとは
大規模分散処理システム
–大規模分散処理システム
–Google MapReduce/GFSを論文を元に実装
Google
–処理時間が数時間以上かかるようなバッチ処理に向いている
→ Webのように、即座に結果が返るような
リアルタイム処理には不向き
Javaで書かれ、オ プンソ スとして公開
–Javaで書かれ オープンソースとして公開
10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 12. Hadoopとは
pとは
–Doug C tti 氏が生みの親
D Cutting氏が生みの親
全文検索ライブラリ uce eなどの
–全文検索ライブラリLuceneなどの
他有名OSSも開発
–Yahoo! Inc. 在籍時はフルタイムで開発
–現在はClouderaに在籍
(出典元:Wikipedia)
11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 13. Hadoopとは
pとは
大きくMapReduceとHDFS
(分散ファイルシステム)に分かれる
12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 14. Hadoop MapReduce
p p
長時間かかる巨大な処理を複数台のマシンに分散
・・・
・・・
13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 15. Hadoop HDFS
p
・巨大なファイルを複数台に分割
・複数サ バの各HDDを1つのHDDのように扱える
・複数サーバの各HDDを1つのHDDのように扱える
14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 16. Hadoop関連プロダクト
p関連 ダクト
大規模データ処理用スクリプト言語
A = load 'passwd' using PigStorage(':');
Pig
g B = foreach A generate $0 as id;
dump B;
Facebookが開発
扱いが 般デ タ
扱いが一般データベースに似ている
スに似ている
Hive CREATE TABLE pokes (foo INT, bar STRING);
SELECT a.foo FROM pokes a;
a foo
15 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 17. Hadoop関連プロダクト
p関連 ダクト
複数のMapReduceジョブなどを
Oozie
O i 実行制御するワ クフロ
実行制御するワークフロー
Hadoop上に構築された列指向データベース
Google Bi T bl のクロ ン
G l BigTableのクローン
HBase
機械学習ライブラリ
Hadoopでスケール可
Mahout
16 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 18. Hadoopの事例紹介
事
17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 19. Hadoopを活用している会社
pを活用して る会社
など・・・
増え続けています!
増 続 ます
18 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 20. Yahoo! Inc.での事例紹介
事
19 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 21. Hadoop at Yahoo! Inc
p
Hadoopユ ザ テスタ コミッタ の数が最も多い
–Hadoopユーザ、テスター、コミッターの数が最も多い
Haoopのクラスタ、台数が最も多い
–Haoopのクラスタ、台数が最も多い
– 多数のクラスタがあり、合計25000台以上
– 1クラスタにつき最大4000台
20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 22. Yahoo! Inc トップページ
トッ ジ
21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 23. Yahoo! Inc トップページ
トッ ジ
検索インデッ
クス
広告最適化
22 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 24. Yahoo! Inc トップページ
トッ ジ
コンテンツ最 検索インデッ
適化 クス
スパムフィルター 広告最適化
コンテンツ管
管 コンテンツ最
最
理 適化
23 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 25. サ チアシ ト
サーチアシスト
– 入力した検索ワードに関連のありそうな単語を自動で補完
– データベースの構築にHadoopを使用
– 3年分のデータと 20ステップのMapReduce
3年分のデ タと、20ステップのMapReduce
Hadoop使用前 Hadoop
時間 26日 20分
言語 C++ Python
開発期間 2~3週間
2 3週間 2~3日
2 3日
24 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 26. Yahoo! JAPANでの事例
事
25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 27. 検索 グ ラット ォ
検索ログプラットフォーム
社内の検索サ ビスのログ解析全般
–社内の検索サービスのログ解析全般
Hiveを独自に拡張して使用している
–Hiveを独自に拡張して使用している
–様々なYahoo! JAPANのサービスにデータを提供
26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 28. Yahoo!検索
検索
関連検索ワ ド
–関連検索ワード
キ ワ ド入力補助
–キーワード入力補助
–ショートカットの表示制御
–検索ログプラットフォームのデータが元になっている
27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 29. Yahoo!検索ランキング
検索ランキング
検索ランキング 急上昇ワ ドランキングなど
–検索ランキング、急上昇ワードランキングなど
都道府県別、性年代別のランキング(Yahoo!ラボ)
–都道府県別、性年代別のランキング(Yahoo!ラボ)
–検索ログプラットフォームが提供したデータをさらに加工している
28 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 30. レコメンデーションプラットフォーム
ンデ ション ラット ォ
– レコメンデーションサービスの計算処理に利用
レコメンデ ションサ ビスの計算処理に利用
– Yahoo!オークションなどに導入
29 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 31. 検索 ラット ォ
検索プラットフォーム(ABYSS)
( )
– 社内の検索サービスをホスティングするプラットフォーム
– 様々なサービスに導入されている
– 検索データのストレージとして使用
– 検索インデックス生成、検索データの解析処理
30 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 32. 地図検索
地図検索インデックス生成
–地図検索インデックス生成
クリック グ集計 検索ランキング反映
–クリックログ集計・検索ランキング反映
–店舗やビルの一意性処理
–開いているお店検索
– クロール
– 定休日 営業時間抽出
定休日・営業時間抽出
– 検索インデックス生成
31 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 33. その他の事例
モバイル検索
–モバイル検索
広告プラットフォ ム
–広告プラットフォーム
–地域APIプラットフォーム(YOLP)
–Yahoo! JAPAN研究所
–Etc…
32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 34. 事例まとめ
デ タ解析 デ タマイニング
–データ解析、データマイニング
– ログ解析、レコメンデーション、テキストマイニングなど
グ解析、レ メンデ ション、テキストマイ ングなど
–検索関係
– 検索インデックス生成、ランキング計算など
→大量のデータを読み込んで解析をする処理、大量の計算が必
大量のデ タを読み込んで解析をする処理 大量の計算が必
要な
要な「バッチ処理」がほとんど
ッチ処理」がほとんど
33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 35. Hadoopのメリット・デメリット
デ
34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 36. Hadoopのメリット・デメリット
pの リット デ リット
–○ MapReduceを使って バッチ処理を簡単に分散できる
○ MapReduceを使って、バッチ処理を簡単に分散できる
–× リアルタイム処理には向かない
–HDFSもMapReduceを使ったバッチ処理に最適化されている
35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 37. HDFSの特性
の特性
ストレ ジとして使うには特性を理解する必要がある
–ストレージとして使うには特性を理解する必要がある
– × RDBMSの代用
– × ユーザから多くのアクセスがあるストレージ
– △ 小さいデータを多く格納するストレージ
– ○ アクセスログデータのストレージ
– ○ 過去の取引履歴デ タのストレ ジ
過去の取引履歴データのストレージ
36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 38. HDFSの特性
の特性
– 何GBというような大きなデータを一気に書き込んだり 読み出したりする用途
何GBというような大きなデ タを 気に書き込んだり、読み出したりする用途
に最適化
– シーケーシャルアクセス。SSDはあまり意味ない
– データの書き換えは想定されていない
デ タの書き換えは想定されていない
– ランダム書き込みができない
– ファイルロック(排他制御)がない
– 秒間何十回といった大量の読み書き処理には向かない
– ファイルキャッシュがない
– もちろんRDBMSのようにインデックスがない
37 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 39. リアルタイ 処理 は
リアルタイム処理には?
リアルタイム処理の選択肢はたくさんある
–リアルタイム処理の選択肢はたくさんある
使い分けが重要!
38 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 40. 使 分けの例
使い分けの例
– 検索プラットフォーム、ABYSSの例
検索プラットフォ 、 の例
検索インデックスのバッチ更新
数分~数時間かかる
検索インデックス
検索インデックスの元データ Hadoop
39 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 41. 使 分けの例
使い分けの例
ザからのアク 、リアルタイ 更新は p以外で
– ユーザからのアクセス、リアルタイム更新はHadoop以外で
バッチ更新 リアルタイム更新
Hadoop クローラなど
ユ ザ
ユーザ
トランザクション
検索インデックス
40 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 42. まとめ
41 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 43. まとめ
Hadoopは大規模なデータを複数のマシンに分散して
–Hadoopは大規模なデータを複数のマシンに分散して
処理できるプラットフォーム
–Hadoopを使う企業は増え続けていて、不可欠な技術に
なりつつある
なり ある
Hadoopは、大規模デ タを扱う処理や、大量の計算が必要な
–Hadoopは、大規模データを扱う処理や、大量の計算が必要な
バッチ処理に向いている
–Yahoo!JAPANはこれからもHadoopを活用していきます
42 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 44. TechBlog
og
http://techblog.yahoo.co.jp/
htt //t hbl h j /
43 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 45. Hadoop Hack Night
adoop a g
2010年3月、8月に開催
2010年3月 8月に開催
44 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
- 46. ご静聴ありがとうございました!
ご静聴 が ござ
45 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止