SlideShare a Scribd company logo
1 of 28
Download to read offline
1© Cloudera, Inc. All rights reserved.
Cloudera Data Science
WorkbenchとPySparkで
好きなPythonライブラリを
分散で使う
Michiaki Ariga, Field Data Scientist
2017/06/27 @Data Engineering and Data
Analysis Workshop #1
2© Cloudera, Inc. All rights reserved.
⾃⼰紹介
• 有賀 康顕 (Twitter/GitHub @chezou)
• Field Data Scientist @Cloudera
• 過去の経歴
• 製造系メーカーでNLP/⾳声対話/機械学習の研究開発
• クックパッドでRailsアプリケーションの傍らレコメンドシステムの開発
• 技術書典2で機械学習の⼊⾨本を頒布
• Rubyコミュニティkawasaki.rbも主催
• rubyist.clubというPodcastもやってます
3© Cloudera, Inc. All rights reserved.
We are hiring!
• サポートメンバー、コンサルタント募集中
4© Cloudera, Inc. All rights reserved.
オープンデータサイエンス
5© Cloudera, Inc. All rights reserved.
https://medium.com/towards-data-science/data-engineer-vs-data-scientist-vs-business-analyst-b68d201364bc#.s6w0i8716
を元に作成
コンピュータ
サイエンス
ドメイン知識統計学
データエンジニア ビジネスアナリスト
データサイエンティスト
6© Cloudera, Inc. All rights reserved.
オープンデータサイエンスの台頭
統計計算とグラフィックのため
の、プログラミング⾔語とソフ
トウェア環境
最も普及している領域: アカデ
ミアと統計コミュニティ
汎⽤の⾼次プログラミング⾔語
最も普及している領域:機械学
習とデータエンジニアリングコ
ミュニティ
強い静的型付けシステムを持つ、
汎⽤の関数プログラミング⾔語
最も普及している領域: Spark
を中⼼としたデータエンジニア
リングコミュニティ
何千ものオープンソースの機械学習、統計、ビジュアライゼーションライブラリが存在
7© Cloudera, Inc. All rights reserved.
オープンデータサイエンスを⽀えるオープンな論⽂
https://medium.com/@karpathy/a-peek-at-trends-in-machine-
learning-ab8a1085a106 より引⽤
機械学習関連の論⽂は
4年で4倍以上に
8© Cloudera, Inc. All rights reserved.
エンタープライズにおける、
スケールするデータサイエンス
9© Cloudera, Inc. All rights reserved.
Apache Spark
⾼速で柔軟な汎⽤データ処理フレームワーク
データ
エンジニアリング
ストリーム処理
データサイエンス
& 機械学習
統⼀されたAPIと⼤規模データのための処理エンジン
10© Cloudera, Inc. All rights reserved.
Clouderaが提供するSpark
がClouderaのSparkを
̶以下を圧倒̶
半数以上
がHadoopの他のコンポーネントと
共にSparkを利⽤Clouderaを選択する最⼤の理由 = サポート、
トレーニング、そしてサービス
57%が⾃社の最も重要なユースケースに向けCloudera Sparkを使⽤。
これに対し他社は、Hortonworks(26%)、Apache ダウンロード(22%)、
Databricks (7%)という状況
回答者の48%が、最も⼀般的な利⽤形態としてSparkとHbaseとの併⽤を、
41%がSparkとKafkaの併⽤を表明
11© Cloudera, Inc. All rights reserved.
Sparkのユースケース
3	out	of	8	are	employing	Spark	in	data	science	research
Sparkの上位ユースケース
がデータサイエンス⽤途でSparkを活⽤
バッチ処理 (ETL)
ストリーム処理
データサイエンス
機械学習
Sparkの上位ユースケースには、バッチ処理(55%)、ストリーム処理
(44%)、データサイエンス(33%)、機械学習(33%)が存在
8⼈中3⼈がSparkをデータサイエンス
調査の⽤途で活⽤
12© Cloudera, Inc. All rights reserved.
チーム データサイエンティストとアナリスト
ゴール データの理解、モデルの開発と改善、知⾒の共有
データ 新規のデータ、かつ頻繁に変更される。⼤抵の場
合サンプリングしたデータが⽤いられる
環境 ローカルマシンかサンドボックスクラスタ
ツール R、Python、SAS/SPSS、SQL、ノートブック、
データラングリング・ディスカバリツール
最終アウトプット レポート、ダッシュボード、PDF、Excel、Word、
PowerPoint
エンタープライズデータサイエンスにおける2つのステージ
探索
(新しい機会の捜索と定量化)
運⽤
(本番システムへのデプロイ)
チーム データエンジニア、開発者、SRE
ゴール アプリケーションのビルドとメンテナンス、改善
データ 既知のデータ、全データ
環境 本番クラスタ
ツール Java/Scala、C++、IDE、CI、ソース管理など
最終アウトプット オンライン・本番アプリケーション
13© Cloudera, Inc. All rights reserved.
運⽤ツール: バージョン管理、スケジューラ、ワークフロー開発ツール: IDE/ノートブック、Python、R、
Scala
典型的なデータサイエンスワークフロー
取得
処理
ガバナンス
データを使った
実験
可視化と
分析
モデル訓練と
テスト
本番データ
パイプライン
バッチ
スコアリング
データ
サービング
オンライン
スコアリング
データエンジニアリング データサイエンス(探索) 本番環境 (運⽤)
14© Cloudera, Inc. All rights reserved.
エンタープライズでのオープンデータサイエンス
データサイエンティスト
探索、実験、イテレーション
インフラエンジニア
事業の加速とコンプライアンスの両⽴
15© Cloudera, Inc. All rights reserved.
それぞれの課題
データサイエンティスト
探索、実験、イテレーション
インフラエンジニア
事業の加速とコンプライアンスの両⽴
Hadoop上で好きなツールが使えない
基盤チームが標準提供するツールは使いたくない
結局⾃分のノートPC上に⼩さいデータをダウンロードし
ないといけない
データサイエンスチームの雑多な要望への
対応が⾟い
セキュリティを保つのが⼤変になる
コンプライアンスを維持しながら本番適⽤するのが⾟い
限定されたモデル
クラウド上の⾃由な環境のメンテナンス負荷
個別に⾼価でハイスペックな環境を購⼊しないといけない
出処不明のデータ
開発/本番環境での実⾏環境のバージョンの差異
⾼価でセキュアでない、サイロ化されたシステム
16© Cloudera, Inc. All rights reserved.
Clouderaのゴール
より多くの
データサイエンティストに
Hadoopの⼒を使ってほしい
Hadoopのデータと計算能⼒に直接
アクセスして、使い慣れたツール
をパワフルに活⽤する
データサイエンティスト
データエンジニア
簡単かつセキュアに
新しいユーザやユースケースを
追加してほしい
セキュアなセルフサービスの分析
ツールを提供し、普及していて⼿
頃な価格の基盤上でより素早く本
番投⼊する
エンタープライズアーキテクト
Hadoop管理者
17© Cloudera, Inc. All rights reserved.
Cloudera
Data Science Workbench
18© Cloudera, Inc. All rights reserved.
Cloudera Data Science Workbench 5つの価値
1つのプラットフォームで複数⾔語(Python, R, Scala)が使える
マルチテナント⽬的に利⽤可能な、リソース分離されたセッション
セキュアなクラスタとの連携が簡単にできる
コードや成果物を共有・再利⽤可能
データサイエンスのワークフローの⾃動化とジョブスケジューリング
19© Cloudera, Inc. All rights reserved.
Cloudera	Data	Science	Workbench(CDSW)によって
エンタープライズのためのセルフサービスデータサイエンス基盤
データサイエンティストは
⾃由を得ることが出来る
インフラエンジニアは
ガバナンスを確保できる
20© Cloudera, Inc. All rights reserved.
データサイエンティストは
• R/Python/Scalaをブラウザから環境構
築なしにすぐに使える
• 好みのライブラリやフレームワーク
をプロジェクトごとに独⽴した環境
にインストール可能
• SparkとImpalaを使いセキュアなク
ラスタのデータを直接触れる
• 知⾒をチームに再利⽤・共同開発可
能な形で共有できる
• データパイプラインの⾃動化と監視
を組み込みのジョブスケジューラで
可能
インフラエンジニアは
• データサイエンティスト⾃⾝が好き
な分析環境を作れる⾃由を与えられ
る
• 複雑な設定なしにKerberosと連携が
でき、セキュリティの確保も容易
• オンプレミスでもクラウドでもどこ
でもデータのある場所で使える
CDSWを使えば…
21© Cloudera, Inc. All rights reserved.
データサイエンスの問題はフルスタック
課題 ソリューション
無制限のデータのサポート Hadoop
アナリストのためのツールの提供 Impala / Hive / Hue
データサイエンティストとデータエンジニアのためのツールの提
供
Spark / Data Science Workbench
リアルタイム処理 Kafka / Spark Streaming
データガバナンスの提供 Cloudera Navigator + パートナー製品
フルスタックのセキュリティ Kerberos / Sentry / Record Service / Navigator Encrypt
クラウド上でのデプロイ Cloudera Director
インフラチームによるシステムの構築・管理 Cloudera Manager + Cloudera Director
22© Cloudera, Inc. All rights reserved.
アーキテクチャ概要
CDSWを稼働させる分散ゲートウェイノードが、Hadoop / Spark 2 に接続している
CDH
Gateway
CDH
Node
CDH
Node
CDH
Node
Cloudera Manager
CDSW
Worker Node
Spark, Impala,
Hive, HDFS, …
CDH
Gateway
CDSW
Master Node
Docker
アプリケーションと
エンジンのポッド
Kubernetes
Cloudera Managerエージェント
CDSWのアプリケーションコンポーネントとユーザワークロード
コンテナ・オーケストレーションサービス
コンテナ・ランタイム
CDHサービスのローカル管理
CDH
Gateway
CDSW
Worker Node
23© Cloudera, Inc. All rights reserved.
Dockerを使えば⾃由が得られるか?
• クラスタ上で好きなライブラリを使うには
• Java/Scala
• ライブラリを Fat JARで配布すれば、必要な依存関係を解決できる
• Python
• virtualenv/venvで仮想環境を作り、実⾏環境でライブラリを導⼊
• 全クラスタで? → デモで解決法をお⾒せします
24© Cloudera, Inc. All rights reserved.
Demo
InstallしていないMeCabをPySparkクラスタ上で実⾏する
25© Cloudera, Inc. All rights reserved.
PySparkで好きなPythonライブラリを使う
CDSW container
Python
w/ MeCab, TF, etc.
1. 必要なライブラリを
conda環境にまとめる
2. YARNがarchiveとして配布 3. 展開した環境を
PYSPARK_PYTHONで指定して実⾏
Master node
Worker node
https://blog.cloudera.co.jp/224ab84570da
https://blog.cloudera.co.jp/33097ac868fb
26© Cloudera, Inc. All rights reserved.
オープンなエコシステムの重要性
オープンエコシステム ブラックボックス
27© Cloudera, Inc. All rights reserved.
CDSWを試すには?
• Cloudera Directorを使ってクラウドで試すのがお⼿軽
• https://github.com/takabow/cdsw-demo-env
• AWS上でCDSWとCDHクラスタが起動するconfig file
• Cloudera Directorって?
• Cloud上へCDHクラスタを簡単にデプロイするためのツール
• CyberZさんのブログに詳しくまとまっています
• http://engineer-blog.cyber-z.co.jp/entry/2016/12/21/090000
28© Cloudera, Inc. All rights reserved.
Thank you!
ariga@cloudera.com

More Related Content

What's hot

【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情Hideo Takagi
 
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築NVIDIA Japan
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングRecruit Lifestyle Co., Ltd.
 
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan Koichi Fujikawa
 
Cassandraのバックアップと運用を考える
Cassandraのバックアップと運用を考えるCassandraのバックアップと運用を考える
Cassandraのバックアップと運用を考えるKazutaka Tomita
 
Data Virtualization: From Zero to Hero
Data Virtualization: From Zero to HeroData Virtualization: From Zero to Hero
Data Virtualization: From Zero to HeroDenodo
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
 
DevOps + DataOps = Digital Transformation
DevOps + DataOps = Digital Transformation DevOps + DataOps = Digital Transformation
DevOps + DataOps = Digital Transformation Delphix
 
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpnCassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpnhaketa
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
軽くRDB再入門とGraph DB 入門
軽くRDB再入門とGraph DB 入門軽くRDB再入門とGraph DB 入門
軽くRDB再入門とGraph DB 入門Kentaro Masumori
 
ROS2のリアルタイム化に挑む WG初参加
ROS2のリアルタイム化に挑む WG初参加ROS2のリアルタイム化に挑む WG初参加
ROS2のリアルタイム化に挑む WG初参加Atsushi Hasegawa
 
Raspberry PiのUSB OTGを試す
Raspberry PiのUSB OTGを試すRaspberry PiのUSB OTGを試す
Raspberry PiのUSB OTGを試すKenichiro MATOHARA
 
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)NTT DATA Technology & Innovation
 
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4SORACOM,INC
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門Satoru Ishikawa
 

What's hot (20)

【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
 
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
 
SASとHadoopとの連携
SASとHadoopとの連携SASとHadoopとの連携
SASとHadoopとの連携
 
Cassandraのバックアップと運用を考える
Cassandraのバックアップと運用を考えるCassandraのバックアップと運用を考える
Cassandraのバックアップと運用を考える
 
Data Virtualization: From Zero to Hero
Data Virtualization: From Zero to HeroData Virtualization: From Zero to Hero
Data Virtualization: From Zero to Hero
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
DevOps + DataOps = Digital Transformation
DevOps + DataOps = Digital Transformation DevOps + DataOps = Digital Transformation
DevOps + DataOps = Digital Transformation
 
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpnCassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
軽くRDB再入門とGraph DB 入門
軽くRDB再入門とGraph DB 入門軽くRDB再入門とGraph DB 入門
軽くRDB再入門とGraph DB 入門
 
ROS2のリアルタイム化に挑む WG初参加
ROS2のリアルタイム化に挑む WG初参加ROS2のリアルタイム化に挑む WG初参加
ROS2のリアルタイム化に挑む WG初参加
 
Raspberry PiのUSB OTGを試す
Raspberry PiのUSB OTGを試すRaspberry PiのUSB OTGを試す
Raspberry PiのUSB OTGを試す
 
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
 
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreadingApache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
 
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
 

Viewers also liked

Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
Spring Cloud in a Nutshell
Spring Cloud in a NutshellSpring Cloud in a Nutshell
Spring Cloud in a NutshellTsuyoshi Miyake
 
Spring Data in a Nutshell
Spring Data in a NutshellSpring Data in a Nutshell
Spring Data in a NutshellTsuyoshi Miyake
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera Japan
 
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)Tsuyoshi Miyake
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計Cloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloudera Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 

Viewers also liked (13)

Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
Spring Cloud in a Nutshell
Spring Cloud in a NutshellSpring Cloud in a Nutshell
Spring Cloud in a Nutshell
 
Spring Data in a Nutshell
Spring Data in a NutshellSpring Data in a Nutshell
Spring Data in a Nutshell
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
クラウド時代の Spring Framework (aka Spring Framework in Cloud Era)
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 

Similar to Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda

Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~The Japan DataScientist Society
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 
OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304Shinichiro Arai
 
ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料Masayuki Hyugaji
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltCloudera Japan
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Cloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Nakakoshi Yuji
 
Azure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfAzure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfYasuhiroHanda2
 
Big Data も Oracle SQL で参照できるって知ってました?
Big Data も Oracle SQL で参照できるって知ってました?Big Data も Oracle SQL で参照できるって知ってました?
Big Data も Oracle SQL で参照できるって知ってました?美佳子 清水
 
serverless openstack 101
serverless openstack 101serverless openstack 101
serverless openstack 101Naoto Gohko
 
祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されましたCore Concept Technologies
 
サーバーレス時代の システム設計ワークショップ
サーバーレス時代の システム設計ワークショップサーバーレス時代の システム設計ワークショップ
サーバーレス時代の システム設計ワークショップMasahiro NAKAYAMA
 
Azure DevOps で始めるスタートダッシュ
Azure DevOps で始めるスタートダッシュAzure DevOps で始めるスタートダッシュ
Azure DevOps で始めるスタートダッシュYasuaki Matsuda
 

Similar to Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda (20)

Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 
OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304
 
ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
 
Azure <3 Openness
Azure <3 OpennessAzure <3 Openness
Azure <3 Openness
 
OSS光と闇
OSS光と闇OSS光と闇
OSS光と闇
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介Oracle APEXユーザー会の紹介
Oracle APEXユーザー会の紹介
 
Azure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfAzure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdf
 
Big Data も Oracle SQL で参照できるって知ってました?
Big Data も Oracle SQL で参照できるって知ってました?Big Data も Oracle SQL で参照できるって知ってました?
Big Data も Oracle SQL で参照できるって知ってました?
 
serverless openstack 101
serverless openstack 101serverless openstack 101
serverless openstack 101
 
祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました
 
サーバーレス時代の システム設計ワークショップ
サーバーレス時代の システム設計ワークショップサーバーレス時代の システム設計ワークショップ
サーバーレス時代の システム設計ワークショップ
 
Azure DevOps で始めるスタートダッシュ
Azure DevOps で始めるスタートダッシュAzure DevOps で始めるスタートダッシュ
Azure DevOps で始めるスタートダッシュ
 

More from Cloudera Japan

HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015Cloudera Japan
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015Cloudera Japan
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015Cloudera Japan
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015Cloudera Japan
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015Cloudera Japan
 

More from Cloudera Japan (14)

HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015
 

Recently uploaded

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 

Recently uploaded (12)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda

  • 1. 1© Cloudera, Inc. All rights reserved. Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う Michiaki Ariga, Field Data Scientist 2017/06/27 @Data Engineering and Data Analysis Workshop #1
  • 2. 2© Cloudera, Inc. All rights reserved. ⾃⼰紹介 • 有賀 康顕 (Twitter/GitHub @chezou) • Field Data Scientist @Cloudera • 過去の経歴 • 製造系メーカーでNLP/⾳声対話/機械学習の研究開発 • クックパッドでRailsアプリケーションの傍らレコメンドシステムの開発 • 技術書典2で機械学習の⼊⾨本を頒布 • Rubyコミュニティkawasaki.rbも主催 • rubyist.clubというPodcastもやってます
  • 3. 3© Cloudera, Inc. All rights reserved. We are hiring! • サポートメンバー、コンサルタント募集中
  • 4. 4© Cloudera, Inc. All rights reserved. オープンデータサイエンス
  • 5. 5© Cloudera, Inc. All rights reserved. https://medium.com/towards-data-science/data-engineer-vs-data-scientist-vs-business-analyst-b68d201364bc#.s6w0i8716 を元に作成 コンピュータ サイエンス ドメイン知識統計学 データエンジニア ビジネスアナリスト データサイエンティスト
  • 6. 6© Cloudera, Inc. All rights reserved. オープンデータサイエンスの台頭 統計計算とグラフィックのため の、プログラミング⾔語とソフ トウェア環境 最も普及している領域: アカデ ミアと統計コミュニティ 汎⽤の⾼次プログラミング⾔語 最も普及している領域:機械学 習とデータエンジニアリングコ ミュニティ 強い静的型付けシステムを持つ、 汎⽤の関数プログラミング⾔語 最も普及している領域: Spark を中⼼としたデータエンジニア リングコミュニティ 何千ものオープンソースの機械学習、統計、ビジュアライゼーションライブラリが存在
  • 7. 7© Cloudera, Inc. All rights reserved. オープンデータサイエンスを⽀えるオープンな論⽂ https://medium.com/@karpathy/a-peek-at-trends-in-machine- learning-ab8a1085a106 より引⽤ 機械学習関連の論⽂は 4年で4倍以上に
  • 8. 8© Cloudera, Inc. All rights reserved. エンタープライズにおける、 スケールするデータサイエンス
  • 9. 9© Cloudera, Inc. All rights reserved. Apache Spark ⾼速で柔軟な汎⽤データ処理フレームワーク データ エンジニアリング ストリーム処理 データサイエンス & 機械学習 統⼀されたAPIと⼤規模データのための処理エンジン
  • 10. 10© Cloudera, Inc. All rights reserved. Clouderaが提供するSpark がClouderaのSparkを ̶以下を圧倒̶ 半数以上 がHadoopの他のコンポーネントと 共にSparkを利⽤Clouderaを選択する最⼤の理由 = サポート、 トレーニング、そしてサービス 57%が⾃社の最も重要なユースケースに向けCloudera Sparkを使⽤。 これに対し他社は、Hortonworks(26%)、Apache ダウンロード(22%)、 Databricks (7%)という状況 回答者の48%が、最も⼀般的な利⽤形態としてSparkとHbaseとの併⽤を、 41%がSparkとKafkaの併⽤を表明
  • 11. 11© Cloudera, Inc. All rights reserved. Sparkのユースケース 3 out of 8 are employing Spark in data science research Sparkの上位ユースケース がデータサイエンス⽤途でSparkを活⽤ バッチ処理 (ETL) ストリーム処理 データサイエンス 機械学習 Sparkの上位ユースケースには、バッチ処理(55%)、ストリーム処理 (44%)、データサイエンス(33%)、機械学習(33%)が存在 8⼈中3⼈がSparkをデータサイエンス 調査の⽤途で活⽤
  • 12. 12© Cloudera, Inc. All rights reserved. チーム データサイエンティストとアナリスト ゴール データの理解、モデルの開発と改善、知⾒の共有 データ 新規のデータ、かつ頻繁に変更される。⼤抵の場 合サンプリングしたデータが⽤いられる 環境 ローカルマシンかサンドボックスクラスタ ツール R、Python、SAS/SPSS、SQL、ノートブック、 データラングリング・ディスカバリツール 最終アウトプット レポート、ダッシュボード、PDF、Excel、Word、 PowerPoint エンタープライズデータサイエンスにおける2つのステージ 探索 (新しい機会の捜索と定量化) 運⽤ (本番システムへのデプロイ) チーム データエンジニア、開発者、SRE ゴール アプリケーションのビルドとメンテナンス、改善 データ 既知のデータ、全データ 環境 本番クラスタ ツール Java/Scala、C++、IDE、CI、ソース管理など 最終アウトプット オンライン・本番アプリケーション
  • 13. 13© Cloudera, Inc. All rights reserved. 運⽤ツール: バージョン管理、スケジューラ、ワークフロー開発ツール: IDE/ノートブック、Python、R、 Scala 典型的なデータサイエンスワークフロー 取得 処理 ガバナンス データを使った 実験 可視化と 分析 モデル訓練と テスト 本番データ パイプライン バッチ スコアリング データ サービング オンライン スコアリング データエンジニアリング データサイエンス(探索) 本番環境 (運⽤)
  • 14. 14© Cloudera, Inc. All rights reserved. エンタープライズでのオープンデータサイエンス データサイエンティスト 探索、実験、イテレーション インフラエンジニア 事業の加速とコンプライアンスの両⽴
  • 15. 15© Cloudera, Inc. All rights reserved. それぞれの課題 データサイエンティスト 探索、実験、イテレーション インフラエンジニア 事業の加速とコンプライアンスの両⽴ Hadoop上で好きなツールが使えない 基盤チームが標準提供するツールは使いたくない 結局⾃分のノートPC上に⼩さいデータをダウンロードし ないといけない データサイエンスチームの雑多な要望への 対応が⾟い セキュリティを保つのが⼤変になる コンプライアンスを維持しながら本番適⽤するのが⾟い 限定されたモデル クラウド上の⾃由な環境のメンテナンス負荷 個別に⾼価でハイスペックな環境を購⼊しないといけない 出処不明のデータ 開発/本番環境での実⾏環境のバージョンの差異 ⾼価でセキュアでない、サイロ化されたシステム
  • 16. 16© Cloudera, Inc. All rights reserved. Clouderaのゴール より多くの データサイエンティストに Hadoopの⼒を使ってほしい Hadoopのデータと計算能⼒に直接 アクセスして、使い慣れたツール をパワフルに活⽤する データサイエンティスト データエンジニア 簡単かつセキュアに 新しいユーザやユースケースを 追加してほしい セキュアなセルフサービスの分析 ツールを提供し、普及していて⼿ 頃な価格の基盤上でより素早く本 番投⼊する エンタープライズアーキテクト Hadoop管理者
  • 17. 17© Cloudera, Inc. All rights reserved. Cloudera Data Science Workbench
  • 18. 18© Cloudera, Inc. All rights reserved. Cloudera Data Science Workbench 5つの価値 1つのプラットフォームで複数⾔語(Python, R, Scala)が使える マルチテナント⽬的に利⽤可能な、リソース分離されたセッション セキュアなクラスタとの連携が簡単にできる コードや成果物を共有・再利⽤可能 データサイエンスのワークフローの⾃動化とジョブスケジューリング
  • 19. 19© Cloudera, Inc. All rights reserved. Cloudera Data Science Workbench(CDSW)によって エンタープライズのためのセルフサービスデータサイエンス基盤 データサイエンティストは ⾃由を得ることが出来る インフラエンジニアは ガバナンスを確保できる
  • 20. 20© Cloudera, Inc. All rights reserved. データサイエンティストは • R/Python/Scalaをブラウザから環境構 築なしにすぐに使える • 好みのライブラリやフレームワーク をプロジェクトごとに独⽴した環境 にインストール可能 • SparkとImpalaを使いセキュアなク ラスタのデータを直接触れる • 知⾒をチームに再利⽤・共同開発可 能な形で共有できる • データパイプラインの⾃動化と監視 を組み込みのジョブスケジューラで 可能 インフラエンジニアは • データサイエンティスト⾃⾝が好き な分析環境を作れる⾃由を与えられ る • 複雑な設定なしにKerberosと連携が でき、セキュリティの確保も容易 • オンプレミスでもクラウドでもどこ でもデータのある場所で使える CDSWを使えば…
  • 21. 21© Cloudera, Inc. All rights reserved. データサイエンスの問題はフルスタック 課題 ソリューション 無制限のデータのサポート Hadoop アナリストのためのツールの提供 Impala / Hive / Hue データサイエンティストとデータエンジニアのためのツールの提 供 Spark / Data Science Workbench リアルタイム処理 Kafka / Spark Streaming データガバナンスの提供 Cloudera Navigator + パートナー製品 フルスタックのセキュリティ Kerberos / Sentry / Record Service / Navigator Encrypt クラウド上でのデプロイ Cloudera Director インフラチームによるシステムの構築・管理 Cloudera Manager + Cloudera Director
  • 22. 22© Cloudera, Inc. All rights reserved. アーキテクチャ概要 CDSWを稼働させる分散ゲートウェイノードが、Hadoop / Spark 2 に接続している CDH Gateway CDH Node CDH Node CDH Node Cloudera Manager CDSW Worker Node Spark, Impala, Hive, HDFS, … CDH Gateway CDSW Master Node Docker アプリケーションと エンジンのポッド Kubernetes Cloudera Managerエージェント CDSWのアプリケーションコンポーネントとユーザワークロード コンテナ・オーケストレーションサービス コンテナ・ランタイム CDHサービスのローカル管理 CDH Gateway CDSW Worker Node
  • 23. 23© Cloudera, Inc. All rights reserved. Dockerを使えば⾃由が得られるか? • クラスタ上で好きなライブラリを使うには • Java/Scala • ライブラリを Fat JARで配布すれば、必要な依存関係を解決できる • Python • virtualenv/venvで仮想環境を作り、実⾏環境でライブラリを導⼊ • 全クラスタで? → デモで解決法をお⾒せします
  • 24. 24© Cloudera, Inc. All rights reserved. Demo InstallしていないMeCabをPySparkクラスタ上で実⾏する
  • 25. 25© Cloudera, Inc. All rights reserved. PySparkで好きなPythonライブラリを使う CDSW container Python w/ MeCab, TF, etc. 1. 必要なライブラリを conda環境にまとめる 2. YARNがarchiveとして配布 3. 展開した環境を PYSPARK_PYTHONで指定して実⾏ Master node Worker node https://blog.cloudera.co.jp/224ab84570da https://blog.cloudera.co.jp/33097ac868fb
  • 26. 26© Cloudera, Inc. All rights reserved. オープンなエコシステムの重要性 オープンエコシステム ブラックボックス
  • 27. 27© Cloudera, Inc. All rights reserved. CDSWを試すには? • Cloudera Directorを使ってクラウドで試すのがお⼿軽 • https://github.com/takabow/cdsw-demo-env • AWS上でCDSWとCDHクラスタが起動するconfig file • Cloudera Directorって? • Cloud上へCDHクラスタを簡単にデプロイするためのツール • CyberZさんのブログに詳しくまとまっています • http://engineer-blog.cyber-z.co.jp/entry/2016/12/21/090000
  • 28. 28© Cloudera, Inc. All rights reserved. Thank you! ariga@cloudera.com