Enviar búsqueda
Cargar
OSC2014 Tokyo/Spring Hadoop
•
2 recomendaciones
•
1,700 vistas
S
Shinichi YAMASHITA
Seguir
2014年3月1日に開催された「OSC 2014 Tokyo/Spring」で発表したHadoopに関する資料です。
Leer menos
Leer más
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 25
Descargar ahora
Descargar para leer sin conexión
Recomendados
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ThinkIT_impress
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
cyberagent
Hadoopの標準GUI HUEの最新情報
Hadoopの標準GUI HUEの最新情報
Cloudera Japan
Recomendados
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ThinkIT_impress
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
cyberagent
Hadoopの標準GUI HUEの最新情報
Hadoopの標準GUI HUEの最新情報
Cloudera Japan
MapReduceプログラミング入門
MapReduceプログラミング入門
Satoshi Noto
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向
[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向
de:code 2017
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
Apache Hive 紹介
Apache Hive 紹介
あしたのオープンソース研究所
ゾウ使いへの第一歩
ゾウ使いへの第一歩
Fumito Ito
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
Tez on EMRを試してみた
Tez on EMRを試してみた
Satoshi Noto
Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2
Cloudera Japan
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
Cloudera Japan
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介
Kuninobu SaSaki
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Shingo Furuyama
Lambda in java_20160121
Lambda in java_20160121
Teruo Kawasaki
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
Hadoopことはじめ
Hadoopことはじめ
Katsunori Kanda
Hadoop - OSC2013 .Enterprise
Hadoop - OSC2013 .Enterprise
Shinichi YAMASHITA
Más contenido relacionado
La actualidad más candente
MapReduceプログラミング入門
MapReduceプログラミング入門
Satoshi Noto
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向
[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向
de:code 2017
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
Apache Hive 紹介
Apache Hive 紹介
あしたのオープンソース研究所
ゾウ使いへの第一歩
ゾウ使いへの第一歩
Fumito Ito
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
Tez on EMRを試してみた
Tez on EMRを試してみた
Satoshi Noto
Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2
Cloudera Japan
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
Cloudera Japan
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介
Kuninobu SaSaki
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Shingo Furuyama
Lambda in java_20160121
Lambda in java_20160121
Teruo Kawasaki
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
La actualidad más candente
(20)
MapReduceプログラミング入門
MapReduceプログラミング入門
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向
[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Apache Hive 紹介
Apache Hive 紹介
ゾウ使いへの第一歩
ゾウ使いへの第一歩
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Tez on EMRを試してみた
Tez on EMRを試してみた
Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Lambda in java_20160121
Lambda in java_20160121
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
Similar a OSC2014 Tokyo/Spring Hadoop
Hadoopことはじめ
Hadoopことはじめ
Katsunori Kanda
Hadoop - OSC2013 .Enterprise
Hadoop - OSC2013 .Enterprise
Shinichi YAMASHITA
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
You&I
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Insight Technology, Inc.
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
Hadoop 基礎
Hadoop 基礎
hideaki honda
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
Yoshiyuki Nakamura
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
CDH4.1オーバービュー
CDH4.1オーバービュー
Cloudera Japan
Hadoop事始め
Hadoop事始め
You&I
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化
Nobuyori Takahashi
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
Yahoo!デベロッパーネットワーク
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
Similar a OSC2014 Tokyo/Spring Hadoop
(20)
Hadoopことはじめ
Hadoopことはじめ
Hadoop - OSC2013 .Enterprise
Hadoop - OSC2013 .Enterprise
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Hadoop 基礎
Hadoop 基礎
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
CDH4.1オーバービュー
CDH4.1オーバービュー
Hadoop事始め
Hadoop事始め
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
Último
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
Último
(9)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
OSC2014 Tokyo/Spring Hadoop
1.
多種多様なデータの分散処理基盤 Apache Hadoopの 現状、これから Hadoopユーザー会 山下 真一 2014/03/01
OSC 2014 Tokyo/Spring
2.
自己紹介 • 山下 真一 (@_sinchii_) • 日々進化するHadoopと格闘中 • • たくさん処理を実行して秘孔を付いたり Hadoopの仕掛けた罠(バグ)に嵌ったり OSC 2014
Tokyo/Spring 2
3.
本日の発表内容 • Hadoopのおさらい • Hadoop最新動向 • デモ OSC 2014 Tokyo/Spring 3
4.
おさらい: Hadoopとは • 課題 • • • 日々増え続けるデータを蓄え続けたい 蓄えたデータを速やかに処理したい バッチ処理をより早く処理したい • • 処理データ規模は問わない Hadoopの特長 • • • 複数のサーバで構成する分散ファイルシステムを提供 分散ファイルシステム上のリソースを活用して分散処理を実 現、数十分~数時間の処理を数分~数十分に短縮 Hadoopを動作させるサーバは容易に入手できるサーバを 利用、リソース不足の場合は容易に追加可能 OSC 2014
Tokyo/Spring 4
5.
おさらい : Hadoopとは 処理異常時は 異常箇所のみ再試行 Google
MapReduce MapReduceフレームワーク Google File System HDFS分散ファイルシステム サーバが故障してもコピーを 持っているため欠損しない 主な利用用途 集計 OS / Java 抽出 OSC 2014 Tokyo/Spring 加工 分析 5
6.
これまでのHadoopの仕組み タスク ジョブ情報 TaskTracker(s) M M M タスク分割 R
R R JobTracker JobClient クライ アント データローカリティを 意識した割り当て ファイルをブロックに分割 配置を指示 DFSClient 入出力データは HDFSと連携 マスター サーバ M ・ ・ ・ R ・ ・ ・ ・ ・ ・ M ・ ・ ・ NameNode ・ ・ ・ ・ ・ ・ ファイル DataNode(s) OSC 2014 Tokyo/Spring 6
7.
Hadoopエコシステム Hive (SQL style) Pig (DSL) Mahout (機械学習) HBase (カラム指向型ストア) Flume (データ投入) MapReduceフレームワーク Sqoop (DB連携) HDFS分散ファイルシステム Oozie (低レイテインシ) Spark (インメモリ) Ambari (ジョブフロー) Impala (クラスタ管理) ZooKeeper (分散ロック) OSC 2014
Tokyo/Spring 7
8.
本日の発表内容 • Hadoopのおさらい • Hadoop最新動向 • デモ OSC 2014 Tokyo/Spring 8
9.
Hadoop 1系と2系の違い MapReduce等 アプリケーション MapReduce アプリケーション Application Master MapReduce フレームワーク YARN HDFS 1 HDFS
2 Hadoop 1系 Hadoop 2系 OSC 2014 Tokyo/Spring 9
10.
Hadoop 1.0系のMapReduceの問題 • JobTrackerへの負荷集中 • 多数のリクエストを処理するためネックとなりやすい MapReduceジョブ制御 (タスクアサイン) • TaskTrackerでリソースを予約して動作 • スロット数は固定であるためリソースを十分活用できない Mapスロット • TaskTracker管理 (ハートビート処理) Reduceスロット map関数、reduce関数内で強引に処理を定義 • Giraph ,
Oozie など OSC 2014 Tokyo/Spring 10
11.
YARN : Yet
Another Resource Negotiator • JobTrackerのリソース管理とジョブ管理を分離 • ResourceManager : リソース管理 • • ApplicationMaster : アプリケーション • • • スレーブノード(NodeManager)管理 MapReduceジョブは、ApplicationMasterが制御 処理はコンテナ(Container)が実行 NodeManager : スレーブノード • リソース使用状況(CPU・メモリ)を確認 OSC 2014 Tokyo/Spring 11
12.
YARNを構成するノード MapReduceジョブ管理 タスク割り当て Map(Reduce)タスク Application Master Container Node Manager AM割り当て&管理 Node Manager Container Resource Manager Node Manager ハートビート CPU・メモリ利用状況 Node Manager JobHistory Server ApplicationHistory Server (MRジョブ履歴) (YARNジョブ履歴) OSC 2014 Tokyo/Spring 12
13.
YARNの特徴 • スレーブノードのリソースを十分に利用する仕組み • • LxC、cgroupsを活用して、厳密なリソース管理も実現 MapReduce 1.0 APIとの互換性 • Hadoop
1.0系のMapReduceアプリケーションも実行可能 • • • 再ビルドしなおすだけで、実行可能 現在は、再ビルド不要の仕組みも開発中 様々なApplicationMasterが動作可能 • MapReduceジョブ以外のアプリケーションも実行可能 • Apache Spark, Storm, Tez, Hbase(HOYA) などなど OSC 2014 Tokyo/Spring 13
14.
YARNの今後の開発内容 • いくつかの機能は現在も開発中 • さまざまなアプリケーションをYARNで動作させるための 仕組み • • • • スケジューラ改良 (CapacityScheduler /
FairScheduler) 長時間動作するApplicationMaster対応 アプリケーションの実行履歴管理(ApplicationHistory) アプリケーション実行の記録(ApplicationTimeline) OSC 2014 Tokyo/Spring 14
15.
HDFS 2 • NameNode HA
: 長年の問題が解決 • HDFS Snapshot : オペミスからの復旧が容易に • HDFS インメモリ Cache • HDFS Federation : NameNode分割 • ロック機構の改善 • ヘテロなストレージを利用可能 • • メモリ、SSD、などを組み合わせて利用可能に いよいよ問題なく利用出来る状態に! OSC 2014 Tokyo/Spring 15
16.
その他Hadoop2系のポイント • Java 7 対応 • Windows
上での Hadoop環境 • ログ周りの改善 • • • auditログ メッセージレベルの見直し 無駄なstacktrace出力の抑制 OSC 2014 Tokyo/Spring 16
17.
HDFSに蓄えたデータの活用 • HDFS上のデータをMapReduce以外で活用するため の仕組みも広がりつつあります • • • Apache Spark /
UC Berkeley • • インメモリベースでのMapReduce処理エンジン Cloudera Impara / Cloudera • • 低レイテンシ、インメモリ、イテレーション … HiveのXXX倍速い などなど 低レイテンシ処理エンジン Presto / Facebook • 分散SQLエンジン OSC 2014 Tokyo/Spring 17
18.
Apache Spark • インメモリによりMapReduceを処理 • • Map処理, Reduce処理を定義 Hadoop
MapReduceの弱点を補う • 繰り返し処理(イテレーション) • ジョブ起動、Shuffleなどのオーバーヘッドを軽減 • HDFSとの親和性 • 高級言語(Scala, Java, Python)で処理を定義 • UC Berkeley AMPLab により開発 OSC 2014 Tokyo/Spring 18
19.
Apache Spark 構成要素 HiveQL ストリーミング 処理 Shark MapReduce等 アプリケーション Application Master YARN 機械学習 Spark Streaming MLlib Spark アプリケーション Application Master Spark ノード YARN HDFS
2 HDFS 2 Hadoop 2系 Apache Spark OSC 2014 Tokyo/Spring 19
20.
本日の発表内容 • Hadoopのおさらい • Hadoop最新動向 • デモ OSC 2014 Tokyo/Spring 20
21.
デモ • HDFS2 + YARN環境を動かしてみます • Webインタフェース • • • HDFS YARN
& JobHistoryServer サンプルアプリケーションの実行 • Hadoopサンプルであるπ計算(PiEstimator) OSC 2014 Tokyo/Spring 21
22.
デモ • Apache SparkとHadoop環境を連携してみます • Spark :
スタンドアロンモード • • マスタとワーカ(1ノード)を起動 サンプルアプリケーションの実行 • • Spark での word count HDFS上のファイルに対して word countを実行 Sparkでのword count構文 (Scalaで実装) val file = sc.textFile("hdfs://osc:8020/user/hadoop/spark-readme") val words = file.flatMap(line => line.replaceAll("W", " ").toLowerCase().split("s+")) val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) wordCounts.saveAsTextFile("hdfs://osc:8020/user/hadoop/spark-wordcount") OSC 2014 Tokyo/Spring 22
23.
Hadoop のリリース予定 • Hadoop 2系(2.3がcurrent
version) • 2.4 • • • • • • RM-HA automatic Failover Application History Server Long-running applications HDFS Trace ? HDFS Symlink ? Hadoop 1系 … 1.3とかは幻となるのか? OSC 2014 Tokyo/Spring 23
24.
まとめ • Hadoop 2系 • • • HDFS :
必要な仕組みは一通りそろった YARN : MapReduceのみであれば、それなりに動作する エコシステムの膨張 • • • HDFSに蓄えたデータを扱う仕組み MapReduceの弱点を補う仕組み 何を使うにしてもデータを蓄えることが大切です! • 最初は数台、そして簡単な集計処理から... OSC 2014 Tokyo/Spring 24
25.
ご清聴ありがとうございました! OSC 2014 Tokyo/Spring 25
Descargar ahora