スモールデータから始めるHadoop

スモールデータか
ら
始める Hadoop
nseg #39
@jem_3

自己紹介
 @jem_3
 松本の SI 屋のインフラエンジニア
 サーバ運用とネットワーク少々
 一応 #nseg #39 の幹事

お約束
免責
 この発表資料は個人の感想です
 企業やソフトウェアの効果・効能を
　　表すものではありません

ビッグデータ
 って最近よく言われてるけど、また BUZZWORD ？
 と思いきや 2007 年頃から言われ始めてもう 6 年目、結構息長い
 とりあえず、テラバイト～ペタバイト級のデータをあれこれする
ものらしい
 広がりだした理由は、 GFS(Goodle File System) が論文で発表され
て、 OSS で hadoop が開発されてから

hadoop って何？
 手っ取り早いまとめ
 たくさんの PC を用意すればおっきいデータをごにょごにょできるソフト
ウェア
 テラバイト / ペタバイト級のデータを分析・処理したりする場合
 １台で ( 現実的な時間で ) やるならスパコン必要だけど、
 hadoop 使って数百～数千台で分散出来るなら汎用 PC でも何とか出来る
 とりあえず、黄色いゾウきめぇ何かすごそう

hadoop あるある事例
 YAHOO
 検索インデックスやレコメンデーションに hadoop を利用
 過去３年分のログデータ分析が従来２６日かかっていたのが約 20 分で完了
 2010 年時点で 82PB のデータ管理・処理していた
 facebook
 2010 年時点で新規データ 4TB/day 、 135TB のデータを処理
 VISA カード
 2 年で 730 億のトランザクション =36TB のデータ分析が 1 ヶ月から 13 分に

hadoop あるある事例まとめ
 とりあえず、どんな大きいデータでも、台数揃えりゃぱっぱと片
付ける事が出来る！
 数千台までは普通に処理効率がリニアに上がるらしい

hadoop ってどんな事に使われているの？
 ビッグデータをどうやってビジネスに使うかという問いに近い
 ログ解析
 レコメンデーション
 検索
 データマイニング
 機会学習・シミュレーション・・・・ etc
 これからだったら選挙とか

とある企業の BIGDATA
セミナー

セッションの衝撃的な内容
 マーケティングでは、傾向を知るだけならサンプル調査で十分
 全数検査する手間を考えたら赤字
 判りやすい成功事例が無い
 費用対効果が見えない ( 上を説得できない )
＿人人人人人人人人人人＿
＞費用対効果が見えない＜
￣ ^Y^Y^Y^Y^Y^Y^Y^Y^Y ￣

セッションで救われた一言
 大体のスピーカーが
スモールスタートで成功事例を積み重ねていくしか無い
 と仰られてました

スモールスタート上等
 1 台でも hadoop 動くんだぜ
 1GB 未満のデータでもジョブ走らせられるんだぜ
 手元の PC でやってみようじゃないか

CentOS で hadoop 環境構築
 CentOS(6 の 64bit) で hadoop1 台環境を構築します
 とりあえず minimum でもいいからインストール
 Oracle の JDK をインストール　※プリインストールの open-jdk 入ってたら #yum remove java する
 # cd /etc/yum.repos.d
 # wget http://archive.cloudera.com/redhat/6/x86_64/cdh/cloudera-cdh3.repo
 # rpm --import http://archive.cloudera.com/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
 # yum -y install hadoop-0.20
 # yum -y install hadoop-0.20-conf-pseudo
 /etc/hosts に IP を追加 (eth0 の IP アドレスでおｋ )※ ”ホスト名に _” は入れちゃダ
メ！
 10.0.0.1 localhost とか
 関連サービスをスタート
 # service hadoop-0.20-namenode start
 # service hadoop-0.20-jobtracker start
 # service hadoop-0.20-datanode start
 # service hadoop-0.20-tasktracker start

もう hadoop 環境できたよ！
 簡単でしょ？

で、ここからどうすれば？
 適当にジョブを走らせてみよう
 デモします

まとめ
 ビッグデータも小さな一歩から
 動かせば ( 井の中の ) データサイエンティストになれ ( る気がし )
ます
 hadoop を一緒にいじれる仲間募集
 ちなみに、自前で環境用意しなくても、「 Amazon Elastic MapReduce 」というサー
ビスで hadoop 環境使えます (100 台構成で 1 時間で 1000 円前後とか orz)
 ご清聴ありがとうございました

スモールデータから始めるHadoop

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a スモールデータから始めるHadoop

Similar a スモールデータから始めるHadoop (20)

Último

Último (6)

スモールデータから始めるHadoop