SlideShare una empresa de Scribd logo
1 de 11
Descargar para leer sin conexión
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved.
Kafka Streams VS Spark
~Kafka StreamsはどこまでSparkに迫れるか~
KDDI総合研究所
コネクティッドネットワーク部門
森澤 雄太
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 2
◼ KDDI総合研究所
⚫ KDDIの子会社
• 本社事業方針に沿った研究開発
• 「5G時代に向けた イノベーションの創出」「通信とライフデザインの融合」「ビッグデータの活
用」「グローバル事業の さらなる拡大」「金融事業の拡大」「グループとしての成長」「サステナ
ビリティ」
⚫ コネクティッドネットワーク部門
• ネットワーク、コネクティッドカー、自動運転、遠隔運転、IoT、運用自動化など……
◼ 自己紹介
⚫ ビッグデータ基盤・ストリームデータ、遠隔運転、 エッジコンピューティング、GPU
⚫ Apache Flinkのドキュメントの英文校正をちょっとやった
会社・自己紹介
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 3
やりたいこと:IoTデータ連携基盤のアーキテクチャ策定
車
防犯カメラ
センサー
データ基盤
データ
素敵なサービス
IoTデータを利用したサービス基盤
セーフティ インフォテイメント エージェント カーライフ
サポート
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 4
やりたいこと:IoTデータ連携基盤のアーキテクチャ策定
車
防犯カメラ
センサー
データ基盤
データ
ETL
素敵なサービス
サービスロジック
素敵なサービスの前には必ずETLがある
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 5
アイデア
開発したETL
新しいETL
Kafka Streamsで
ETLを代替できな
いか?
でも,パフォー
マンスは大丈夫
だろうか?
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved.
パフォーマンスベンチマーク
6
HadoopProxy
Device1
Device2
Device3
REST Kafka
情報抽出
型変換
データの粒度
調整
次段に転送
・3台のサーバ(Device)からバイナリデータをHttpで送出(120Mbps~)
・Kafka-REST(Proxy)でKafkaに変換
・Hadoop Clusterで情報抽出・型変換・粒度調整を実施
Kafka
比較範囲
Sink
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 7
◼ バージョン
⚫ Hadoop 2.9.2
⚫ Spark 2.4.3
⚫ Kafka 2.2.0
◼ 割り当てリソース
⚫ Master Memory : 2GB
⚫ Worker Memory : 3GB
⚫ CPU : 1Core / node
⚫ 5 node
環境
◼ 評価方法
⚫ InputとOutputのKafka Timestampから処
理遅延を算出
◼ 実装
⚫ Spark
• Structured Streaming
⚫ Kafka
• Scala
• Stream DSL(Timestampの取得のみ
Processor API)
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 8
レイテンシ比較
0
500
1000
1500
2000
2500
3000
3500
1 3 5
Latency[ms]
Nodes
kafka spark
Kafka Streamsの方が低遅延
ノード数を小さくすると差が顕著に=ノード辺りの処理性能もSparkより高い
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved.
Kafka Streams VS Spark
~Kafka StreamsはどこまでSparkに迫れるか~
KDDI総合研究所
コネクティッドネットワーク部門
森澤 雄太
迫りすぎて越えてしまった!
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 10
◼ 考察
⚫ Sparkは分散基盤 = 大規模環境でメモリインテンシブな処理があって初めて力を発揮する
⚫ 今回のETLはEmbarrassingly Parallel,かつ,小規模基盤なのでSparkのよいところが活かせな
かった
◼ 結論
⚫ Kafka StreamsはETLでとても有用(かもしれない)
• オーバーヘッドが小さいため
• 耐障害性などは未評価
⚫ シンプルで便利
• 耐障害性,スケール性など自作が面倒なことをカバーしてくれる
考察と結論
実装の議論や「それはおかしい!」という意見歓迎です!
個別に話しましょう!
Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 11

Más contenido relacionado

Similar a Kafka Streams VS Spark ~Kafka StreamsはどこまでSparkに迫れるか~

Avner algom feb 7 2012
Avner algom feb 7 2012Avner algom feb 7 2012
Avner algom feb 7 2012
Avner Algom
 
IDC Executive Overview
IDC Executive OverviewIDC Executive Overview
IDC Executive Overview
jkabrud
 
Soonr Overview
Soonr OverviewSoonr Overview
Soonr Overview
gingerh
 
Wed Sponsor Press Conf - 10.15
Wed Sponsor Press Conf - 10.15Wed Sponsor Press Conf - 10.15
Wed Sponsor Press Conf - 10.15
Bessie Wang
 

Similar a Kafka Streams VS Spark ~Kafka StreamsはどこまでSparkに迫れるか~ (20)

Cloud Computing and Edge Computing(CTO Kieun Park) - Edge Computing Seminar
Cloud Computing and Edge Computing(CTO Kieun Park) - Edge Computing SeminarCloud Computing and Edge Computing(CTO Kieun Park) - Edge Computing Seminar
Cloud Computing and Edge Computing(CTO Kieun Park) - Edge Computing Seminar
 
How to Succeed in the Cloud (Financially)
How to Succeed in the Cloud (Financially)How to Succeed in the Cloud (Financially)
How to Succeed in the Cloud (Financially)
 
E-Magazine September Issue 2021
E-Magazine September Issue 2021E-Magazine September Issue 2021
E-Magazine September Issue 2021
 
Avner algom feb 7 2012
Avner algom feb 7 2012Avner algom feb 7 2012
Avner algom feb 7 2012
 
Virtual Instruments Presentation
Virtual Instruments PresentationVirtual Instruments Presentation
Virtual Instruments Presentation
 
Deploy and Manage Your Industrial IoT Edge Solutions In Weeks With EdgeOps
Deploy and Manage Your Industrial IoT Edge Solutions In Weeks With EdgeOpsDeploy and Manage Your Industrial IoT Edge Solutions In Weeks With EdgeOps
Deploy and Manage Your Industrial IoT Edge Solutions In Weeks With EdgeOps
 
Unleash the cloud + 5 g + ai era
Unleash the cloud + 5 g + ai eraUnleash the cloud + 5 g + ai era
Unleash the cloud + 5 g + ai era
 
The Future of 6G Wireless Networks Opportunities, Requirements, and Challenge...
The Future of 6G Wireless Networks Opportunities, Requirements, and Challenge...The Future of 6G Wireless Networks Opportunities, Requirements, and Challenge...
The Future of 6G Wireless Networks Opportunities, Requirements, and Challenge...
 
DCD Big Discussion Guide
DCD Big Discussion GuideDCD Big Discussion Guide
DCD Big Discussion Guide
 
Network Evolution and Market Outlook
Network Evolution and Market OutlookNetwork Evolution and Market Outlook
Network Evolution and Market Outlook
 
How to Select a Next-Generation Packet Broker to Manage Digital Transformation
How to Select a Next-Generation Packet Broker to Manage Digital TransformationHow to Select a Next-Generation Packet Broker to Manage Digital Transformation
How to Select a Next-Generation Packet Broker to Manage Digital Transformation
 
IDC Executive Overview
IDC Executive OverviewIDC Executive Overview
IDC Executive Overview
 
Crisis-Ready Crisis-Proof IT Infrastructure for the New Normal
Crisis-Ready Crisis-Proof IT Infrastructure for the New NormalCrisis-Ready Crisis-Proof IT Infrastructure for the New Normal
Crisis-Ready Crisis-Proof IT Infrastructure for the New Normal
 
Présentation Matinée SD-WAN Waycom & Citrix
Présentation Matinée SD-WAN Waycom & CitrixPrésentation Matinée SD-WAN Waycom & Citrix
Présentation Matinée SD-WAN Waycom & Citrix
 
Soonr Overview
Soonr OverviewSoonr Overview
Soonr Overview
 
Microsoft Telecommunications Industry Newsletter | December 2019
Microsoft Telecommunications Industry Newsletter | December 2019Microsoft Telecommunications Industry Newsletter | December 2019
Microsoft Telecommunications Industry Newsletter | December 2019
 
Cisco Mobilize Magazine: Winter/Spring 2013
Cisco Mobilize Magazine: Winter/Spring 2013Cisco Mobilize Magazine: Winter/Spring 2013
Cisco Mobilize Magazine: Winter/Spring 2013
 
2019 technology innovations and investments
2019 technology innovations and investments2019 technology innovations and investments
2019 technology innovations and investments
 
Wed Sponsor Press Conf - 10.15
Wed Sponsor Press Conf - 10.15Wed Sponsor Press Conf - 10.15
Wed Sponsor Press Conf - 10.15
 
ZStack for Datacenter as a Service - Product Deck
ZStack for Datacenter as a Service - Product DeckZStack for Datacenter as a Service - Product Deck
ZStack for Datacenter as a Service - Product Deck
 

Último

Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoorTop Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
dharasingh5698
 
Standard vs Custom Battery Packs - Decoding the Power Play
Standard vs Custom Battery Packs - Decoding the Power PlayStandard vs Custom Battery Packs - Decoding the Power Play
Standard vs Custom Battery Packs - Decoding the Power Play
Epec Engineered Technologies
 
VIP Call Girls Palanpur 7001035870 Whatsapp Number, 24/07 Booking
VIP Call Girls Palanpur 7001035870 Whatsapp Number, 24/07 BookingVIP Call Girls Palanpur 7001035870 Whatsapp Number, 24/07 Booking
VIP Call Girls Palanpur 7001035870 Whatsapp Number, 24/07 Booking
dharasingh5698
 
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
dollysharma2066
 
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
ssuser89054b
 

Último (20)

Thermal Engineering-R & A / C - unit - V
Thermal Engineering-R & A / C - unit - VThermal Engineering-R & A / C - unit - V
Thermal Engineering-R & A / C - unit - V
 
Hostel management system project report..pdf
Hostel management system project report..pdfHostel management system project report..pdf
Hostel management system project report..pdf
 
UNIT - IV - Air Compressors and its Performance
UNIT - IV - Air Compressors and its PerformanceUNIT - IV - Air Compressors and its Performance
UNIT - IV - Air Compressors and its Performance
 
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoorTop Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
Top Rated Call Girls In chittoor 📱 {7001035870} VIP Escorts chittoor
 
(INDIRA) Call Girl Bhosari Call Now 8617697112 Bhosari Escorts 24x7
(INDIRA) Call Girl Bhosari Call Now 8617697112 Bhosari Escorts 24x7(INDIRA) Call Girl Bhosari Call Now 8617697112 Bhosari Escorts 24x7
(INDIRA) Call Girl Bhosari Call Now 8617697112 Bhosari Escorts 24x7
 
Navigating Complexity: The Role of Trusted Partners and VIAS3D in Dassault Sy...
Navigating Complexity: The Role of Trusted Partners and VIAS3D in Dassault Sy...Navigating Complexity: The Role of Trusted Partners and VIAS3D in Dassault Sy...
Navigating Complexity: The Role of Trusted Partners and VIAS3D in Dassault Sy...
 
Double Revolving field theory-how the rotor develops torque
Double Revolving field theory-how the rotor develops torqueDouble Revolving field theory-how the rotor develops torque
Double Revolving field theory-how the rotor develops torque
 
(INDIRA) Call Girl Meerut Call Now 8617697112 Meerut Escorts 24x7
(INDIRA) Call Girl Meerut Call Now 8617697112 Meerut Escorts 24x7(INDIRA) Call Girl Meerut Call Now 8617697112 Meerut Escorts 24x7
(INDIRA) Call Girl Meerut Call Now 8617697112 Meerut Escorts 24x7
 
Standard vs Custom Battery Packs - Decoding the Power Play
Standard vs Custom Battery Packs - Decoding the Power PlayStandard vs Custom Battery Packs - Decoding the Power Play
Standard vs Custom Battery Packs - Decoding the Power Play
 
Introduction to Serverless with AWS Lambda
Introduction to Serverless with AWS LambdaIntroduction to Serverless with AWS Lambda
Introduction to Serverless with AWS Lambda
 
Unleashing the Power of the SORA AI lastest leap
Unleashing the Power of the SORA AI lastest leapUnleashing the Power of the SORA AI lastest leap
Unleashing the Power of the SORA AI lastest leap
 
VIP Call Girls Palanpur 7001035870 Whatsapp Number, 24/07 Booking
VIP Call Girls Palanpur 7001035870 Whatsapp Number, 24/07 BookingVIP Call Girls Palanpur 7001035870 Whatsapp Number, 24/07 Booking
VIP Call Girls Palanpur 7001035870 Whatsapp Number, 24/07 Booking
 
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
FULL ENJOY Call Girls In Mahipalpur Delhi Contact Us 8377877756
 
Block diagram reduction techniques in control systems.ppt
Block diagram reduction techniques in control systems.pptBlock diagram reduction techniques in control systems.ppt
Block diagram reduction techniques in control systems.ppt
 
Water Industry Process Automation & Control Monthly - April 2024
Water Industry Process Automation & Control Monthly - April 2024Water Industry Process Automation & Control Monthly - April 2024
Water Industry Process Automation & Control Monthly - April 2024
 
FEA Based Level 3 Assessment of Deformed Tanks with Fluid Induced Loads
FEA Based Level 3 Assessment of Deformed Tanks with Fluid Induced LoadsFEA Based Level 3 Assessment of Deformed Tanks with Fluid Induced Loads
FEA Based Level 3 Assessment of Deformed Tanks with Fluid Induced Loads
 
Generative AI or GenAI technology based PPT
Generative AI or GenAI technology based PPTGenerative AI or GenAI technology based PPT
Generative AI or GenAI technology based PPT
 
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
 
22-prompt engineering noted slide shown.pdf
22-prompt engineering noted slide shown.pdf22-prompt engineering noted slide shown.pdf
22-prompt engineering noted slide shown.pdf
 
KubeKraft presentation @CloudNativeHooghly
KubeKraft presentation @CloudNativeHooghlyKubeKraft presentation @CloudNativeHooghly
KubeKraft presentation @CloudNativeHooghly
 

Kafka Streams VS Spark ~Kafka StreamsはどこまでSparkに迫れるか~

  • 1. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. Kafka Streams VS Spark ~Kafka StreamsはどこまでSparkに迫れるか~ KDDI総合研究所 コネクティッドネットワーク部門 森澤 雄太
  • 2. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 2 ◼ KDDI総合研究所 ⚫ KDDIの子会社 • 本社事業方針に沿った研究開発 • 「5G時代に向けた イノベーションの創出」「通信とライフデザインの融合」「ビッグデータの活 用」「グローバル事業の さらなる拡大」「金融事業の拡大」「グループとしての成長」「サステナ ビリティ」 ⚫ コネクティッドネットワーク部門 • ネットワーク、コネクティッドカー、自動運転、遠隔運転、IoT、運用自動化など…… ◼ 自己紹介 ⚫ ビッグデータ基盤・ストリームデータ、遠隔運転、 エッジコンピューティング、GPU ⚫ Apache Flinkのドキュメントの英文校正をちょっとやった 会社・自己紹介
  • 3. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 3 やりたいこと:IoTデータ連携基盤のアーキテクチャ策定 車 防犯カメラ センサー データ基盤 データ 素敵なサービス IoTデータを利用したサービス基盤 セーフティ インフォテイメント エージェント カーライフ サポート
  • 4. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 4 やりたいこと:IoTデータ連携基盤のアーキテクチャ策定 車 防犯カメラ センサー データ基盤 データ ETL 素敵なサービス サービスロジック 素敵なサービスの前には必ずETLがある
  • 5. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 5 アイデア 開発したETL 新しいETL Kafka Streamsで ETLを代替できな いか? でも,パフォー マンスは大丈夫 だろうか?
  • 6. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. パフォーマンスベンチマーク 6 HadoopProxy Device1 Device2 Device3 REST Kafka 情報抽出 型変換 データの粒度 調整 次段に転送 ・3台のサーバ(Device)からバイナリデータをHttpで送出(120Mbps~) ・Kafka-REST(Proxy)でKafkaに変換 ・Hadoop Clusterで情報抽出・型変換・粒度調整を実施 Kafka 比較範囲 Sink
  • 7. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 7 ◼ バージョン ⚫ Hadoop 2.9.2 ⚫ Spark 2.4.3 ⚫ Kafka 2.2.0 ◼ 割り当てリソース ⚫ Master Memory : 2GB ⚫ Worker Memory : 3GB ⚫ CPU : 1Core / node ⚫ 5 node 環境 ◼ 評価方法 ⚫ InputとOutputのKafka Timestampから処 理遅延を算出 ◼ 実装 ⚫ Spark • Structured Streaming ⚫ Kafka • Scala • Stream DSL(Timestampの取得のみ Processor API)
  • 8. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 8 レイテンシ比較 0 500 1000 1500 2000 2500 3000 3500 1 3 5 Latency[ms] Nodes kafka spark Kafka Streamsの方が低遅延 ノード数を小さくすると差が顕著に=ノード辺りの処理性能もSparkより高い
  • 9. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. Kafka Streams VS Spark ~Kafka StreamsはどこまでSparkに迫れるか~ KDDI総合研究所 コネクティッドネットワーク部門 森澤 雄太 迫りすぎて越えてしまった!
  • 10. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 10 ◼ 考察 ⚫ Sparkは分散基盤 = 大規模環境でメモリインテンシブな処理があって初めて力を発揮する ⚫ 今回のETLはEmbarrassingly Parallel,かつ,小規模基盤なのでSparkのよいところが活かせな かった ◼ 結論 ⚫ Kafka StreamsはETLでとても有用(かもしれない) • オーバーヘッドが小さいため • 耐障害性などは未評価 ⚫ シンプルで便利 • 耐障害性,スケール性など自作が面倒なことをカバーしてくれる 考察と結論 実装の議論や「それはおかしい!」という意見歓迎です! 個別に話しましょう!
  • 11. Copyright(C) 2019 KDDI Research, Inc. All Rights Reserved. 11