Más contenido relacionado
La actualidad más candente (20)
Similar a ストリームデータ処理技術勉強会_イントロセッション (20)
ストリームデータ処理技術勉強会_イントロセッション
- 2. 自己紹介 – 五味明子/GOMI Akiko
• IT系出版社の編集者→2011年からフリーランスライ
ター
• クラウドwatch、IT Leaders、gihyo.jp、
EnterpriseZine、ASCII Techなどテック系Web媒体中
心に執筆
• 取材分野はクラウド、ネットワーク、セキュリティ、
データアナリティクス、AI、IoT、IT企業動向など
• 海外カンファレンス取材多め、1年の1/3はどこかに出
張中
• サンノゼのDataWorks Summit(旧Hadoop Summit)
は2015年、2016年につづき3回目の参加
- 3. DataWorks Summit 2017 Sun Jose
• HortonworksとYahoo!が主催するHadoopエンジニ
ア/ユーザを対象にした年次カンファレンス。世界各
地で開催されているが、毎年6月にサンノゼで行われ
るこのイベントがもっとも規模が大きい
• 今回(正確には3月のベルリン開催)から「Hadoop
Summit」→「DataWorks Summit」に名称変更。ゾ
ウさん色がうすめに→レポート※書きました!
• 人気の話題はTensorFlowやSparkRなどAI/データサイ
エンス関連。今年中にリリース予定のHadoop 3.0お
よびYARNにも注目があつまる
• データストリーミング関連も人気。Sparkがメジャー
になってきた2015年ごろからHadoop + リアルタイ
ム処理系のキーノートやセッションが増えはじめた。
さらにHortonworksがApache NiFiをベースにした
「Hortonworks DataFlow(HDF)」をHDPと並ぶコア
製品に位置づけたことで、NiFi関連のセッションが急
増中
※過渡期を迎えるHadoopとデータビジネス - ゾウが消えた「DataWorks Summit
2017 San Jose」/ gihyo.jp
- 4. そもそもストリーミングデータとは…
• 膨大な数のデータソースから継続的に生成される
• IoTセンサー、モバイルアプリ、ソーシャルネットワーク、ログファイル、…
• ひとつひとつのデータサイズは小さい
• たいていはキロバイト単位
• 絶えずどこかに向かって流れている
• Hortonworksはこれを”Data-in-Motion”と呼んでいる
• 時間の経過とともにデータの性質や価値が変化するので“いま”の状態の分析&可視化=リア
ルタイム処理が重要
• 直近のデータに対する低レイテンシ(ミリ秒単位)な処理
• 向いている分野は、リアルタイムレスポンス、モニタリング、クイック集計など
• 金融やeコマースにおける取引での不正/異常検知
• 移動中/輸送中の車両のリアルタイム追跡
• 産業機器の部品交換アラート
• ソーシャルゲームのイベントでの順位集計
• オンラインメディアにおける読者ごとのコンテンツ最適化
• ソーシャルメディアでの炎上チェック
- 5. DWS 2017 SJで見かけたデータストリーミング関連技術
メジャーどころ
• Apache Kafka / Kafka Streams
• Apache NiFi
• Apache Spark Streaming
• Apache Storm
その他
• Apache Metron
• Apache Beam
• Apache Apex
• Bullet by Yahoo! ←スケーラブル&リアル
タイムなデータクエリエンジン、他のデー
タストリーミング技術とプラがぶるな連携
が可能
The Best Session by ChatWork & NTT DATA
Worldwide Scalable and Resilient Messaging
Services by CQRS and Event Sourcing Using Akka,
Kafka Streams and HBase
レポート書きました→スケールするメッセージングシステムを構
築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土
管"づくり/gihyo.jp
- 6. Pick Up – Kafka / Kafka Streams
Kafkaは我々にとって頭で考えて使うものじゃない。Kafkaはもう空気みたいな存在で,なければ
息ができなくなってしまう – Josh Wills, CTO, Slack / Structure Data 2016
Kafkaは空気
• 2017年はKafkaのデフォ化がさらに加速。DWS17SJのデータストリーミング系のほとんどの
セッションでは、Kafkaを使うことがあたりまえすぎるので、タイトルにわざわざKafkaを入れ
ていない。逆にデータストリーミング処理にKafkaを使わないorまったく検討しない、という
ケースはほぼ皆無
• シンプルなアーキテクチャ、パブサブ型、低レイテンシ/高スループット、他のストリーミング
技術との連携のしやすさ、etc.などからメッセージングシステムのデファクトに
• Ex.) GoProの事例: コンシューマデバイスから吸い上げた多種多様なストリーミングデータを
Kafka + Spark StreamingベースのダイナミックDDLシステムに流し込み、データサイエンスの
ための分析基盤を提供→Kafkaをストリーミングデータの土管として機能させることで、どんな
システムでも雛形をつくりやすい
- 7. Pick Up – NiFi
• 2015年にHortonworksがApache NiFiを開発するOnyaraを買収、プロジェクトリーダーのJoe
Wittも移籍→NiFiをコアとするデータストリーミング製品「HDF」が登場、DWS17SJとほぼ同時
期にHDF 3.0にアップデート。データオーケストレーションの“コーディングレス化”が加速
• DWS17SJではNiFi関連のセッションが急増、技術セッションだけでなくIoTやマシンラーニング
などと組み合わせたエンタープライズアダプションの事例も豊富に
• Ex.) Rogers Communicationsの事例: カスタマーエクスペリエンス向上をはかるため、NiFiの
ほかHadoop、Sparkをベースに、自然言語処理を取り入れた”360度のカスタマービュー”シス
テムを構築。ソーシャルネットワークやオンラインチャットなど非構造化データの流れもNiFIで
コントロール
NSAで開発をはじめて、目の前のオフィスからNiagara Fallが見え
た。なんとなく語呂が良いように感じて”NiFi”という名前にしたん
だ – Joe Witt, Senior Director, Engineering, Hortonworks /
Hadoop Summit 2015
- 8. Pick Up – Uber
Uberが1日あたりに処理するメッセージの件数は1兆を超える。そんなUberにとってKafkaは欠かせ
ないデータハブ – Ankur Bansal, Senior Software Engineer, Streaming Team, Uber / DataWorks
Summit 2017 San Jose
• ホライゾンタリなスケーラビリティ
• 5ミリ秒以下のレイテンシ
• 99.99%の可用性
• 99.99%の耐障害性
• 複数のデータセンターをまたいだレプリ
ケーション
• 複数の言語のサポート(Java / Go /
Node.js / C++)
→ これらの要件を満たす世界最大級の
Kafkaクラスタを構築