Más contenido relacionado
La actualidad más candente (20)
Similar a スモールデータから始めるHadoop (20)
スモールデータから始めるHadoop
- 3. お 約 束
免責
この発表資料は個人の感想です
企業やソフトウェアの効果・効能を
表すものではありません
- 5. ビッグデータ
って最近よく言われてるけど、また BUZZWORD ?
と思いきや 2007 年頃から言われ始めてもう 6 年目、結構息長い
とりあえず、テラバイト~ペタバイト級のデータをあれこれする
ものらしい
広がりだした理由は、 GFS(Goodle File System) が論文で発表され
て、 OSS で hadoop が開発されてから
- 6. hadoop って何?
手っ取り早いまとめ
たくさんの PC を用意すればおっきいデータをごにょごにょできるソフト
ウェア
テラバイト / ペタバイト級のデータを分析・処理したりする場合
1台で ( 現実的な時間で ) やるならスパコン必要だけど、
hadoop 使って数百~数千台で分散出来るなら汎用 PC でも何とか出来る
とりあえず、黄色いゾウきめぇ何かすごそう
- 7. hadoop あるある事例
YAHOO
検索インデックスやレコメンデーションに hadoop を利用
過去3年分のログデータ分析が従来26日かかっていたのが約 20 分で完了
2010 年時点で 82PB のデータ管理・処理していた
facebook
2010 年時点で新規データ 4TB/day 、 135TB のデータを処理
VISA カード
2 年で 730 億のトランザクション =36TB のデータ分析が 1 ヶ月から 13 分に
- 15. CentOS で hadoop 環境構築
CentOS(6 の 64bit) で hadoop1 台環境を構築します
とりあえず minimum でもいいからインストール
Oracle の JDK をインストール ※プリインストールの open-jdk 入ってたら #yum remove java する
# cd /etc/yum.repos.d
# wget http://archive.cloudera.com/redhat/6/x86_64/cdh/cloudera-cdh3.repo
# rpm --import http://archive.cloudera.com/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
# yum -y install hadoop-0.20
# yum -y install hadoop-0.20-conf-pseudo
/etc/hosts に IP を追加 (eth0 の IP アドレスでおk )※ ”ホスト名に _” は入れちゃダ
メ!
10.0.0.1 localhost とか
関連サービスをスタート
# service hadoop-0.20-namenode start
# service hadoop-0.20-jobtracker start
# service hadoop-0.20-datanode start
# service hadoop-0.20-tasktracker start
- 18. まとめ
ビッグデータも小さな一歩から
動かせば ( 井の中の ) データサイエンティストになれ ( る気がし )
ます
hadoop を一緒にいじれる仲間募集
ちなみに、自前で環境用意しなくても、「 Amazon Elastic MapReduce 」というサー
ビスで hadoop 環境使えます (100 台構成で 1 時間で 1000 円前後とか orz)
ご清聴ありがとうございました