データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

•Descargar como PPTX, PDF•

1 recomendación•1,590 vistas

Yoshikazu Suganuma

Hadoop Spark Conference 2019 データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

Datos y análisis

データサイズ２ペタ
ソネット・メディア・ネットワークス
でのImpala活用とHadoop運用
Hadoop / Spark Conference Japan 2019
So-net Media Networks 菅沼嘉一

菅沼嘉一
Yoshikazu Suganuma
So-net Media Networks
分析基盤T
Cloudera Hadoopの障害対応したり、python/Goでツール作成したり
Go言語好き！

目次
● Hadoopの用途
● Hadoopの環境
● ビッグデータ管理大変だよね！

Logicadとは...
So-net Media Networksが提供する
広告配信プラットフォーム

● 広告配信ログを保管
● データサイズ：約2PB
● 総レコード数：約1.1兆
● 1日あたり約8TB増加
● 主にデータ分析用途

サーバースペック(データノード)
スペック：
Dell PowerEdge R720xd/R730xd/R740xd/R740xd2(予定)
メモリ：約370GB/サーバー
HDD：約90～160TB/サーバー
(10TB x 18, 10TB x 12, 8TB x 12)
PowerEdge R740xd

Hadoop構成
CDH 5.15
データノード：20 台＝約2PB
その他ノード：8台 (合計28台/1クラスター)
(Zookeeper, Journal NodeにはIntel Optane SSDストレージ搭載)
メタデータはAWS RDSに保管
Active-Standby の2クラスター構成

Data Node Data Node
Data Node Data Node
Data Node
Data Node
………………
…….
………………
…….
x 20
Name
Node
Zookeeper JournalNode
Hive
Metastore
Impala
Catalog ………………
…….
x 8
Hadoop クラスター

Active
Hadoop
クラスター
Standby
Hadoop
クラスター
S3
ログの
インポート処理
ログ収集
サーバー
PQ生成

主なImpalaの使い方
Hiveから1時間毎にParquet生成
Impala + Parquet はレスポンス最速
クエリ数：約13万クエリ/月
PQサイズ：約750TB

すぐに容量枯渇する...！？
8TB/day 増加するので容量を注視
保存期間をまめに調整
データ容量が90%近くになると
Hive, Impalaのレスポンスが悪くなる傾向
早めにデータノードを追加

DBのパーティション数は約18万
データをパーティショニングすることで性能は上がるが
パーティション数がボトルネックになることがある
過去にImpalaが動かなくなったこともある
(CDH5.7で約20万あった時)
推奨値は3~4万だとか....無理ゲーじゃない？

月に一回Hadoopの容量チェック
月に一回、詳細にデータサイズ、パーティション数....などの
全体チェックを行いレポートにまとめる

Elasticsearch+kibanaで監視
データ容量の推移をグラフ化
HDFSの各種データサイズをhdfsコマンドで取得し
Elasticsearchに貯める
Impalaクエリの傾向調査
Cloudera Manager APIからImpalaクエリを取得して
Elasticsearchに貯める

バージョンアップは覚悟しておけ....！？
(マジで)
CDHのバージョンアップはどこかでミスがあると
インストールできなくなる(「戻る」は押さない)
そのためActive-Standbyの2クラスターを構築
(片方づつバージョンアップ)

Active-Standbyの2クラスター構成
同じHW構成を2つ構築して片方づつ運用
メリット：
バージョンアップ作業、機能検証がはかどる
デメリット：
コストがかかる
移行コストが高い

Active-Standbyの2クラスター構成
バージョンアップ後のデータ移行について
クラスター間コピー：hadoop distcpコマンド
同時データインポート
distcp
同時インポート

CDHバージョン遍歴
今年はCDH6.1にバージョンアップ予定
年代クラスターA クラスターB
2015～ CDH5.1
(hadoop-2.3.0)
2016～ CDH5.7
(hadoop-2.6.0)
2018～ CDH5.15(現在)
(hadoop-2.6.0)
2019～ CDH6.1(構築中)
(hadoop-3.0.0)

Más contenido relacionado

La actualidad más candente

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

hamaken

Distributed data stores in Hadoop ecosystem

NTT DATA OSS Professional Services

MapRとVertica、なぜその組み合わせが最高なのか、実際にPOC、ベンチマークを担当する両社のエンジニアがその熱い思いをデモを交えながら解説します。MapRとVerticaを組み合わせて構築された事例を含め、HadoopとRDBMSが今どのように共存しているのか、また今後どのような形が最適なのかをエンジニアの視点から語ります。2014年6月18〜20日に開催されたdb tech showcase 大阪 2014での講演資料です。

MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか？ - db tech showcase 大阪 2014 2014/06/19

MapR Technologies Japan

Hadoop loves H2

Tadashi Satoh

データインターフェースとしてのHadoop ～HDFSとクラウドストレージと私～（NTTデータテクノロジーカンファレンス 2019 講演資料、2019...

NTT DATA Technology & Innovation

Amazon Redshift ベンチマーク Hadoop + Hiveと比較

FlyData Inc.

Hadoop概要説明

Satoshi Noto

Hadoop入門

Preferred Networks

最新版Hadoopクラスタを運用して得られたもの

cyberagent

Hadoopデータプラットフォーム #cwt2013

Cloudera Japan

Impala + Kudu を用いたデータウェアハウス構築の勘所（仮）

Cloudera Japan

スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...

MapR Technologies Japan

Hadoopことはじめ

均津田

HDFS Router-based federation

NTT DATA OSS Professional Services

Hadoop -NameNode HAの仕組み-

Yuki Gonda

Apache Sparkのご紹介（後半：技術トピック）

NTT DATA OSS Professional Services

Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15

MapR Technologies Japan

機械学習の定番プラットフォームSparkの紹介

Cloudera Japan

(LT)Spark and Cassandra

datastaxjp

PostgreSQL10を導入！大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント

NTT DATA OSS Professional Services

La actualidad más candente (20)

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

Distributed data stores in Hadoop ecosystem

MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか？ - db tech showcase 大阪 2014 2014/06/19

Hadoop loves H2

データインターフェースとしてのHadoop ～HDFSとクラウドストレージと私～（NTTデータテクノロジーカンファレンス 2019 講演資料、2019...

Amazon Redshift ベンチマーク Hadoop + Hiveと比較

Hadoop概要説明

Hadoop入門

最新版Hadoopクラスタを運用して得られたもの

Hadoopデータプラットフォーム #cwt2013

Impala + Kudu を用いたデータウェアハウス構築の勘所（仮）

スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...

Hadoopことはじめ

HDFS Router-based federation

Hadoop -NameNode HAの仕組み-

Apache Sparkのご紹介（後半：技術トピック）

Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15

機械学習の定番プラットフォームSparkの紹介

(LT)Spark and Cassandra

PostgreSQL10を導入！大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント

Similar a データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

Hadoop, NoSQL, GlusterFSの概要

日本ヒューレット・パッカード株式会社

Apache Hadoopに見るJavaミドルウェアのcompatibility（Open Developers Conference 2020 Onli...

NTT DATA Technology & Innovation

Hadoop基盤を知る

日本ヒューレット・パッカード株式会社

【17-E-3】Hadoop：黄色い象使いへの道～「Hadoop徹底入門」より～

Developers Summit

Apache Spark 1000 nodes NTT DATA

NTT DATA OSS Professional Services

What is "Hadoop" now? It is difficult to hear ... But those who are interested, those who are thinking about the future as active as a data engineer, those who are new to the first time, through introductions of Hadoop and the surrounding ecosystem, introducing merits and examples, "What now Should I learn? "And I will introduce the future spreading through learning Hadoop and the surrounding ecosystem.

Beginner must-see! A future that can be opened by learning Hadoop

DataWorks Summit

Introduction to Hadoop and Spark (before joining the other talk) and An Overv...

DataWorks Summit/Hadoop Summit

並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...

NTT DATA OSS Professional Services

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向（OSC2015 Kansai発表資料）

NTT DATA OSS Professional Services

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講...

NTT DATA OSS Professional Services

Hadoop ecosystem NTTDATA osc15tk

NTT DATA OSS Professional Services

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る

日本ヒューレット・パッカード株式会社

[db tech showcase Tokyo 2018]　#dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...

Insight Technology, Inc.

MapReduce/YARNの仕組みを知る

日本ヒューレット・パッカード株式会社

[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop

Insight Technology, Inc.

Hadoop Conference Japan 2009 #1

Rakuten Group, Inc.

Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading

Yahoo!デベロッパーネットワーク

Yahoo! JAPAN MeetUp #8 （インフラ技術カンファレンス）セッション②

Yahoo!デベロッパーネットワーク

Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）

NTT DATA OSS Professional Services

Hadoopことはじめ

Katsunori Kanda

Similar a データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 (20)

Hadoop, NoSQL, GlusterFSの概要

Apache Hadoopに見るJavaミドルウェアのcompatibility（Open Developers Conference 2020 Onli...

Hadoop基盤を知る

【17-E-3】Hadoop：黄色い象使いへの道～「Hadoop徹底入門」より～

Apache Spark 1000 nodes NTT DATA

Beginner must-see! A future that can be opened by learning Hadoop

Introduction to Hadoop and Spark (before joining the other talk) and An Overv...

並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向（OSC2015 Kansai発表資料）

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講...

Hadoop ecosystem NTTDATA osc15tk

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る

[db tech showcase Tokyo 2018]　#dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...

MapReduce/YARNの仕組みを知る

[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop

Hadoop Conference Japan 2009 #1

Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading

Yahoo! JAPAN MeetUp #8 （インフラ技術カンファレンス）セッション②

Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）

Hadoopことはじめ