SlideShare una empresa de Scribd logo
1 de 63
DataEngConf NYC’18
セッションサマリー #1
グリー開発本部 Meetup #1
2018/11/22
グリー株式会社
開発本部 DataEngineeringGroup
鈴木 隆史
自己紹介
■氏名:鈴木隆史 (@t24kc)
■所属:開発本部 データエンジニアチーム
応用人工知能チーム
■業務:GCP/AWS環境のデータ基盤開発
直近ではVTuberデータ基盤開発、社内BIツール開発、
機械学習ツール開発、チャットボット開発などを担当
2
1. DataEngConfについて
2. セッション紹介#1
3. セッション紹介#2
4. 感想
DataEngConfについて
3
DataEngConf NYC’18について
4
https://www.dataengconf.com/nyc-event-2018
■概要
・データ基盤構築のツールやノウハウを共有するコミュニティイベント
・Facebook、Netflix、Lyftなど40以上の企業がスピーカー
・Hakka Labsがコミュニティベース
■日程
・2018/11/08(木) - 09(金)
・コロンビア大学@NYC, USA
■参加者
・400人近くの人が参加
DataEngConf NYC’18について
5
イベント風景
6
■カテゴリ
・Data Engineering
・Data Science・Analytics
・AI Products
・Hero Engineering(少人数・低工数で大影響を与えたデータシステム)
Sessionについて
7
■ETTLプロセス @Datadog
・これまでのETLの課題について
・拡張したETTLプロセスについて
・Datadogで採用しているワークフローエンジンについて
■機械学習におけるデータリーク @Salesforce
・データリークとその問題点について
・データリークの検出判断基準と抑える方法について
本日のテーマ
8
ETTLプロセス @Datadog
1. DataEngConfについて
2. ETTLプロセス @Datadog
3. 機械学習におけるデータリーク @Salesforce
4. 感想
9
Datadogについて
10(ETTL, J.M.Saponaro, p5)
■一元的な監視
・マルチクラウドのスタック全体のサービス状態の一元的な監視
■豊富な描画機能
・多彩なビジュアライゼーションと、探索的なグラフ描画
■機械学習ロジック
・複数のトリガーから検出された異常値を通知可能
主な特徴
11
システム概要
12(ETTL, J.M.Saponaro, p13)
対応データソース
13(ETTL, J.M.Saponaro, p11)
これまでのETL
14
データソース データウェアハウス
Extract Transform Load
■データソース対応
・常に変化し続け、複数のデータソースに対応する必要がある
■backfill
・過去データを楽にbackfillできること
■信頼性、堅牢性
・長期間データ保持するにあたって必要
■機密性
・セキュリティ、コンプライアンスなどの要件
ETLで必要な基盤機能
15
■データソース対応コスト
・データソースが増えたり、スキーマが変更された際のコスト高
■タスク依存関係
・特定のタスクが、別のタスクに強く依存している
・1つの障害がパイプライン全体の障害に繋がる
■backfillコスト
・1から計算し直すため、backfillの実行が長時間かかる
■定義configの肥大化
・データ変換を定義する関数が、システムの拡大に伴って肥大化する
これまでのETLの問題点
16
■データソース対応コスト
・データソースが増えたり、スキーマが変更された際のコスト高
■タスク依存関係
・特定のタスクが、別のタスクに強く依存している
・1つの障害がパイプライン全体の障害に繋がる
■backfillコスト
・1から計算し直すため、backfillの実行が長時間かかる
■定義configの肥大化
・データ変換を定義する関数が、システムの拡大に伴って肥大化する
これまでのETLの問題点
17
これらの課題を解決する
ETTLプロセスとワークフローについて
ETTLプロセスとは
18(ETTL, J.M.Saponaro, p19)
■役割
・すべてのデータソースから1つの場所に生データを集めること
・ここではフィルター、変換、名前変更は実行しない
・単純に構造化データとして集計するだけ
■メリット
・各データソースでタスク実行できるように抽象化
・新しいデータセットを簡単に追加できる
・データを保持しているため、途中から再処理が可能
Bronze
19
Bronze
20(ETTL, J.M.Saponaro, p22)
■役割
・オブジェクトを1:1にマッピングできるように正規化
・フィルター、クリーニング、列の選択・操作、名前変更、型キャストを
サポートしている
■メリット
・新しいデータソースの追加のコストを緩和できる
・変換が階層化しているため、Pipeline全体を修正する必要はない
・影響があるタスクからbackfillするだけで良い
・他のタスクでSilverを再利用することも可能
Silver
21
Silver
22(ETTL, J.M.Saponaro, p25)
■役割
・Sparkを利用してDWHにロードする
・複数Silverデータの集計・変換にはSparkで分散処理
・ここでの出力が最終的なオブジェクトとなる
・用途に応じた使い分け
(truncate&insert, only insert, replace, upsert)
Gold
23
Gold
24(ETTL, J.M.Saponaro, p27)
■データソース対応コスト
・Bronzeでデータソースごとのタスクが抽象化し、追加が簡略化
・スキーマ変更に対して、階層化した対象レイヤーのみの修正で完結
■backfillコスト
・影響がある階層レイヤーからのbackfillで完結
■信頼性、堅牢性
・Bronzeで生データ保持しているため、長期間のデータ信頼性や、再処理も
可能
ETTLによるこれまでの課題解決
25
■タスク依存関係
・タスク分解しても依存関係問題は存在する
・Datadogでは30以上の依存関係上で、370程度のタスクが存在する
・依存関係が深くなるほど運用コストは肥大化する
ETTLで解決できない課題
26
■タスク依存関係
・タスク分解しても依存関係問題は存在する
・Datadogでは30以上の依存関係上で、370程度のタスクが存在する
・依存関係が深くなるほど運用コストは肥大化する
ETTLで解決できない課題
27
タスク依存関係解決に用いられた
ワークフローエンジンについて
■概要
・Python製のスクリプト型ワークフローエンジン
・タスク間のロジック定義で依存関係を解決
・エラー発生で処理停止、途中から再実行可能
・出力の有無で冪等性を担保
・Hadoop、BigQuery、各クエリエンジンと連携可能
Luigiについて
28
■Task
・処理の最小単位
■Target
・Taskの出力対象のこと
(S3、HDFSなど)
■Parameter
・Taskの引数として与えることができる情報
(日付や期間など)
Luigi内部用語
29
Luigiコード例
30(ETTL, J.M.Saponaro, p34)
Luigi利用例
31(ETTL, J.M.Saponaro, p35)
■タスク依存関係
・Luigiを利用することで、データの冪等性や依存関係をサポート
Luigiによるこれまでの課題解決
32
■ETTLについて
・弊社では、データソースが複数に跨ることが少なく
データソースに適した少数のDWHを構築
・一元的なDWHやBIツール開発には
ETTLのような階層タスク管理が必要
所感#1
33
■ワーフクローについて
・宣言型ワークフローについて
・DigdagやAzkabanを利用し、SQLでETLすることが多い
・SQLの場合は非ENも対応でき、日付変刻した定形クエリを再実行でき
るので対応工数低いのがメリット
・スクリプト型ワークフローについて
・タスク間の依存関係が複雑な場合にメリット
・変換も柔軟に対応できる
・場所によって宣言型とスクリプト型の使い分けが有効
所感#2
34
■スピーカー
Jean-Mathieu Saponaro
Data Engineer & Internal Analytics Team Lead
■セッション
https://www.dataengconf.com/speaker/extract-tiered-transform-load-a-pipeline-for-a-modular-scalable-
and-observable-internal-analytics-platform
出典
35
機械学習におけるデータリーク
@Salesforce
1. DataEngConfについて
2. ETTLプロセス @Datadog
3. 機械学習におけるデータリーク @Salesforce
4. 感想
36
Salesforceについて
37(Hindsight Bias,Till Bergmann, p2)
一般的な機械学習Pipeline
38(Hindsight Bias,Till Bergmann, p3)
Pipelineの肥大化
39(Hindsight Bias,Till Bergmann, p4)
Pipelineの肥大化
40(Hindsight Bias,Till Bergmann, p4)
全体での共通モデルの必要性
=
共通パラメータ・フォーマット
■データサイエンティスト不足
・各ビジネスモデルに対して深い知見不足
■異常値を含んだデータ
・手入力によるラベリングミス
・途中でカラム変更することも
■過去データ不足
・各カラムの潜在価値の変化に対応できない
・コールドスタート問題
共通モデル(BtoB)での機械学習課題
41
■データサイエンティスト不足
・各ビジネスモデルに対して深い知見不足
■異常値を含んだデータ
・手入力によるラベリングミス
・途中でカラム変更することも
■過去データ不足
・各カラムの潜在価値の変化に対応できない
・コールドスタート問題
共通モデル(BtoB)での機械学習課題
42
入力データを
そのまま利用すると
機械学習における
データリーク問題
につながる
■予測時に利用できるデータ、できないデータ
・予測時に知りえない情報を学習すると、モデル性能が悪化
機械学習におけるデータリーク
43
タイタニック事例#1
44(Hindsight Bias,Till Bergmann, p8)
タイタニック事例#1
45(Hindsight Bias,Till Bergmann, p8)
予測時に利用できる
タイタニック事例#2
46(Hindsight Bias,Till Bergmann, p9)
タイタニック事例#2
47(Hindsight Bias,Till Bergmann, p9)
予測時に利用できない
コンバージョン事例#1
48(Hindsight Bias,Till Bergmann, p17)
コンバージョン事例#1
49(Hindsight Bias,Till Bergmann, p17)
ReasonLost
=
no Conversion
コンバージョン事例#1
50(Hindsight Bias,Till Bergmann, p17)
Amount
=
Conversion
コンバージョン事例#1
51(Hindsight Bias,Till Bergmann, p17)
ClosedBy
≒
Conversion
■精度問題
・データリークの特徴量を訓練時に利用してしまうと、訓練時には高い精度
が出るが、予測時には精度が全く出ない
■問題となるケース
・企業データなどの過去データがなかったり、時系列情報がない場合
・マスターテーブルの値が特定トリガーで途中変更がある場合
・データセット全体で標準化、正規化を実施した場合
データリークの問題点
52
■分割クロスバリデーション、ホールドアウト
・原則的に訓練、テスト、検証データを分割して保持
・分割データごとにパラメータは再計算する必要あり
・外れ値除去、次元削減、特殊選択も再処理
データリークを抑える方法
53
■全体のNULL率判定
・訓練データで非NULLでも、検証時にNULLのデータが多いときは削除
■精度の差
・訓練精度と検証精度の差が大きいときは、意図しない特徴量が含まれてい
る可能性あり
■日付パラメータ
・学習データの日付に乖離がある場合は、モデル精度がずれる可能性がある
データリーク特徴量の削除基準
54
■全体のNULL率判定
・訓練データで非NULLでも、検証時にNULLのデータが多いときは削除
■精度の差
・訓練精度と検証精度の差が大きいときは、意図しない特徴量が含まれてい
る可能性あり
■日付パラメータ
・学習データの日付に乖離がある場合は、モデル精度がずれる可能性がある
データリーク特徴量の削除基準
55
削除閾値を設ける必要性
AutoML vs Hand Tuning
56(Hindsight Bias,Till Bergmann, p30)
■全体のモデル最適化を優先
・1つのモデルに特化して最適化をするのでく、
数千の全体の精度を悪化させない閾値を設ける
■閾値選択
・残すべき特徴量と、除去するべき特徴量の閾値判断が難しくなる
■多くの試行錯誤
・アルゴリズムに変換できるヒューリスティックな手法も時には必要
共通モデル利用時の方針
57
■時系列データの重要性
・自社に時系列のデータを保持している場合は、素直にデータリーク特徴量
を削除できる
・企業データのような過去・時系列データがない場合には、データリーク特
徴量の除去に試行錯誤しそう
■共通モデルの難しさ
・全体のモデル最適化の特徴選択には、経験則が必要になりそう
所感
58
■スピーカー
Till Bergmann
Data Scientist
■セッション
https://www.dataengconf.com/speaker/hindsight-bias-how-to-deal-with-label-leakage-at-scale
出典
59
感想
1. DataEngConfについて
2. ETTLプロセス @Datadog
3. 機械学習におけるデータリーク @Salesforce
4. 感想
60
■変化し続けるデータ
・データの急成長・多様化の共通メッセージが強調されていた
・データ基盤やデータサイエンスや機械学習の分野でも
データの変化に柔軟に対応していく必要性がある
感想
61
Thank you
62
DataEngConf NYC’18 セッションサマリー #1

Más contenido relacionado

La actualidad más candente

[デブサミ秋2015] 新卒入社エンジニアが 2年間fluentdを運用して学んだ事いろいろ
[デブサミ秋2015] 新卒入社エンジニアが2年間fluentdを運用して学んだ事いろいろ[デブサミ秋2015] 新卒入社エンジニアが2年間fluentdを運用して学んだ事いろいろ
[デブサミ秋2015] 新卒入社エンジニアが 2年間fluentdを運用して学んだ事いろいろgree_tech
 
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくりクラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくりgree_tech
 
消滅都市5周年の運営を支えた技術とその歴史
消滅都市5周年の運営を支えた技術とその歴史消滅都市5周年の運営を支えた技術とその歴史
消滅都市5周年の運営を支えた技術とその歴史gree_tech
 
Googleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsGoogleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsEtsuji Nakai
 
ハイブリッドクラウドで変わるインフラストラクチャ設計
ハイブリッドクラウドで変わるインフラストラクチャ設計ハイブリッドクラウドで変わるインフラストラクチャ設計
ハイブリッドクラウドで変わるインフラストラクチャ設計gree_tech
 
国産業務PaaSを担いで稼ぐ方法 ~SIerの生き残る道の1つとなるか? ~
国産業務PaaSを担いで稼ぐ方法 ~SIerの生き残る道の1つとなるか? ~国産業務PaaSを担いで稼ぐ方法 ~SIerの生き残る道の1つとなるか? ~
国産業務PaaSを担いで稼ぐ方法 ~SIerの生き残る道の1つとなるか? ~SPIRAL Inc.
 
DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2gree_tech
 
【16-E-4】残業ゼロで開発スピードが10倍に!もう元の開発体制には戻れないデンソー流のアジャイル開発
【16-E-4】残業ゼロで開発スピードが10倍に!もう元の開発体制には戻れないデンソー流のアジャイル開発【16-E-4】残業ゼロで開発スピードが10倍に!もう元の開発体制には戻れないデンソー流のアジャイル開発
【16-E-4】残業ゼロで開発スピードが10倍に!もう元の開発体制には戻れないデンソー流のアジャイル開発Developers Summit
 
Cedec2015_「消滅都市」運用の一年
Cedec2015_「消滅都市」運用の一年Cedec2015_「消滅都市」運用の一年
Cedec2015_「消滅都市」運用の一年gree_tech
 
インターネットの維持 近況
インターネットの維持 近況インターネットの維持 近況
インターネットの維持 近況gree_tech
 
Sumo Logic活用事例とその運用
Sumo Logic活用事例とその運用Sumo Logic活用事例とその運用
Sumo Logic活用事例とその運用gree_tech
 
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...オラクルエンジニア通信
 
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬るDevelopers Summit
 
インターネットの維持再考(導入編)
インターネットの維持再考(導入編)インターネットの維持再考(導入編)
インターネットの維持再考(導入編)gree_tech
 
Developers Summit 2018 | IoTサービスを始める際に必要なこととは
Developers Summit 2018 | IoTサービスを始める際に必要なこととはDevelopers Summit 2018 | IoTサービスを始める際に必要なこととは
Developers Summit 2018 | IoTサービスを始める際に必要なこととはSORACOM,INC
 
6製品1サービスの開発にPortfolio for JIRAを使ってみた
6製品1サービスの開発にPortfolio for JIRAを使ってみた6製品1サービスの開発にPortfolio for JIRAを使ってみた
6製品1サービスの開発にPortfolio for JIRAを使ってみたHiroshi Ohnuki
 
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていること
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていることYahoo!ブラウザーアプリのプロダクトマネージャーが考えていること
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていることYahoo!デベロッパーネットワーク
 
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...Insight Technology, Inc.
 
データファースト開発
データファースト開発データファースト開発
データファースト開発Katsunori Kanda
 

La actualidad más candente (20)

[デブサミ秋2015] 新卒入社エンジニアが 2年間fluentdを運用して学んだ事いろいろ
[デブサミ秋2015] 新卒入社エンジニアが2年間fluentdを運用して学んだ事いろいろ[デブサミ秋2015] 新卒入社エンジニアが2年間fluentdを運用して学んだ事いろいろ
[デブサミ秋2015] 新卒入社エンジニアが 2年間fluentdを運用して学んだ事いろいろ
 
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくりクラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
 
消滅都市5周年の運営を支えた技術とその歴史
消滅都市5周年の運営を支えた技術とその歴史消滅都市5周年の運営を支えた技術とその歴史
消滅都市5周年の運営を支えた技術とその歴史
 
Googleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsGoogleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOps
 
ハイブリッドクラウドで変わるインフラストラクチャ設計
ハイブリッドクラウドで変わるインフラストラクチャ設計ハイブリッドクラウドで変わるインフラストラクチャ設計
ハイブリッドクラウドで変わるインフラストラクチャ設計
 
国産業務PaaSを担いで稼ぐ方法 ~SIerの生き残る道の1つとなるか? ~
国産業務PaaSを担いで稼ぐ方法 ~SIerの生き残る道の1つとなるか? ~国産業務PaaSを担いで稼ぐ方法 ~SIerの生き残る道の1つとなるか? ~
国産業務PaaSを担いで稼ぐ方法 ~SIerの生き残る道の1つとなるか? ~
 
DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2
 
【16-E-4】残業ゼロで開発スピードが10倍に!もう元の開発体制には戻れないデンソー流のアジャイル開発
【16-E-4】残業ゼロで開発スピードが10倍に!もう元の開発体制には戻れないデンソー流のアジャイル開発【16-E-4】残業ゼロで開発スピードが10倍に!もう元の開発体制には戻れないデンソー流のアジャイル開発
【16-E-4】残業ゼロで開発スピードが10倍に!もう元の開発体制には戻れないデンソー流のアジャイル開発
 
Cedec2015_「消滅都市」運用の一年
Cedec2015_「消滅都市」運用の一年Cedec2015_「消滅都市」運用の一年
Cedec2015_「消滅都市」運用の一年
 
インターネットの維持 近況
インターネットの維持 近況インターネットの維持 近況
インターネットの維持 近況
 
Sumo Logic活用事例とその運用
Sumo Logic活用事例とその運用Sumo Logic活用事例とその運用
Sumo Logic活用事例とその運用
 
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
 
GitLabのAutoDevOpsを試してみた
GitLabのAutoDevOpsを試してみたGitLabのAutoDevOpsを試してみた
GitLabのAutoDevOpsを試してみた
 
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
 
インターネットの維持再考(導入編)
インターネットの維持再考(導入編)インターネットの維持再考(導入編)
インターネットの維持再考(導入編)
 
Developers Summit 2018 | IoTサービスを始める際に必要なこととは
Developers Summit 2018 | IoTサービスを始める際に必要なこととはDevelopers Summit 2018 | IoTサービスを始める際に必要なこととは
Developers Summit 2018 | IoTサービスを始める際に必要なこととは
 
6製品1サービスの開発にPortfolio for JIRAを使ってみた
6製品1サービスの開発にPortfolio for JIRAを使ってみた6製品1サービスの開発にPortfolio for JIRAを使ってみた
6製品1サービスの開発にPortfolio for JIRAを使ってみた
 
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていること
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていることYahoo!ブラウザーアプリのプロダクトマネージャーが考えていること
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていること
 
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
 
データファースト開発
データファースト開発データファースト開発
データファースト開発
 

Similar a DataEngConf NYC’18 セッションサマリー #1

データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤Google Cloud Platform - Japan
 
多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 CData Software Japan
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessShoji Shirotori
 
Visual Studio App Centerで始めるCI/CD(iOS)
Visual Studio App Centerで始めるCI/CD(iOS)Visual Studio App Centerで始めるCI/CD(iOS)
Visual Studio App Centerで始めるCI/CD(iOS)Shinya Nakajima
 
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)Ryusuke Ashiya
 
2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~Daisuke Masubuchi
 
【de:code 2020】 2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
【de:code 2020】 2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~【de:code 2020】 2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
【de:code 2020】 2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~日本マイクロソフト株式会社
 
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi IshikawaInsight Technology, Inc.
 
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -Tier_IV
 
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxチームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxRakuten Commerce Tech (Rakuten Group, Inc.)
 
Visual Studio App Centerで始めるCI/CD(Android)
Visual Studio App Centerで始めるCI/CD(Android)Visual Studio App Centerで始めるCI/CD(Android)
Visual Studio App Centerで始めるCI/CD(Android)Shinya Nakajima
 
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料知礼 八子
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習Preferred Networks
 
20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOpsYukako Shimizu
 
Wg for ai_dev_ops_20180713
Wg for ai_dev_ops_20180713Wg for ai_dev_ops_20180713
Wg for ai_dev_ops_20180713Yutaka Terasawa
 
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点- 『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点- Koichi Hamada
 
ストリームデータ処理技術勉強会_イントロセッション
ストリームデータ処理技術勉強会_イントロセッションストリームデータ処理技術勉強会_イントロセッション
ストリームデータ処理技術勉強会_イントロセッションg3akk
 
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
アイデアを形にする  ③3時間でアプリ公開!ゼロからのプログラミング講座アイデアを形にする  ③3時間でアプリ公開!ゼロからのプログラミング講座
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座DIVE INTO CODE Corp.
 
Visual Studio App CenterでAndroid開発にCI/CDを導入しよう
Visual Studio App CenterでAndroid開発にCI/CDを導入しようVisual Studio App CenterでAndroid開発にCI/CDを導入しよう
Visual Studio App CenterでAndroid開発にCI/CDを導入しようShinya Nakajima
 
OSSコンソーシアム 開発基盤部会 2018年度 活動方針・部会紹介
OSSコンソーシアム 開発基盤部会 2018年度 活動方針・部会紹介OSSコンソーシアム 開発基盤部会 2018年度 活動方針・部会紹介
OSSコンソーシアム 開発基盤部会 2018年度 活動方針・部会紹介Daisuke Nishino
 

Similar a DataEngConf NYC’18 セッションサマリー #1 (20)

データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
Visual Studio App Centerで始めるCI/CD(iOS)
Visual Studio App Centerで始めるCI/CD(iOS)Visual Studio App Centerで始めるCI/CD(iOS)
Visual Studio App Centerで始めるCI/CD(iOS)
 
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
 
2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
 
【de:code 2020】 2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
【de:code 2020】 2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~【de:code 2020】 2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
【de:code 2020】 2020 年も最高のゲームをつくろう! Game Stack でゲーム開発をしよう! ~ LiveOps とデータ分析編 ~
 
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
 
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
Tier Ⅳ Tech Meetup #2 - 自動運転を作るのはCloudシステムの集合体?? 活用技術を大解剖 -
 
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxチームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
 
Visual Studio App Centerで始めるCI/CD(Android)
Visual Studio App Centerで始めるCI/CD(Android)Visual Studio App Centerで始めるCI/CD(Android)
Visual Studio App Centerで始めるCI/CD(Android)
 
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
 
20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps
 
Wg for ai_dev_ops_20180713
Wg for ai_dev_ops_20180713Wg for ai_dev_ops_20180713
Wg for ai_dev_ops_20180713
 
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点- 『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
 
ストリームデータ処理技術勉強会_イントロセッション
ストリームデータ処理技術勉強会_イントロセッションストリームデータ処理技術勉強会_イントロセッション
ストリームデータ処理技術勉強会_イントロセッション
 
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
アイデアを形にする  ③3時間でアプリ公開!ゼロからのプログラミング講座アイデアを形にする  ③3時間でアプリ公開!ゼロからのプログラミング講座
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
 
Visual Studio App CenterでAndroid開発にCI/CDを導入しよう
Visual Studio App CenterでAndroid開発にCI/CDを導入しようVisual Studio App CenterでAndroid開発にCI/CDを導入しよう
Visual Studio App CenterでAndroid開発にCI/CDを導入しよう
 
OSSコンソーシアム 開発基盤部会 2018年度 活動方針・部会紹介
OSSコンソーシアム 開発基盤部会 2018年度 活動方針・部会紹介OSSコンソーシアム 開発基盤部会 2018年度 活動方針・部会紹介
OSSコンソーシアム 開発基盤部会 2018年度 活動方針・部会紹介
 

Más de gree_tech

アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜
アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜
アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜gree_tech
 
GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介
GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介
GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介gree_tech
 
REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表
REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表
REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表gree_tech
 
アプリ起動時間高速化 ~推測するな、計測せよ~
アプリ起動時間高速化 ~推測するな、計測せよ~アプリ起動時間高速化 ~推測するな、計測せよ~
アプリ起動時間高速化 ~推測するな、計測せよ~gree_tech
 
長寿なゲーム事業におけるアプリビルドの効率化
長寿なゲーム事業におけるアプリビルドの効率化長寿なゲーム事業におけるアプリビルドの効率化
長寿なゲーム事業におけるアプリビルドの効率化gree_tech
 
Cloud Spanner をより便利にする運用支援ツールの紹介
Cloud Spanner をより便利にする運用支援ツールの紹介Cloud Spanner をより便利にする運用支援ツールの紹介
Cloud Spanner をより便利にする運用支援ツールの紹介gree_tech
 
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介gree_tech
 
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現についてSINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現についてgree_tech
 
海外展開と負荷試験
海外展開と負荷試験海外展開と負荷試験
海外展開と負荷試験gree_tech
 
翻訳QAでのテスト自動化の取り組み
翻訳QAでのテスト自動化の取り組み翻訳QAでのテスト自動化の取り組み
翻訳QAでのテスト自動化の取り組みgree_tech
 
組み込み開発のテストとゲーム開発のテストの違い
組み込み開発のテストとゲーム開発のテストの違い組み込み開発のテストとゲーム開発のテストの違い
組み込み開発のテストとゲーム開発のテストの違いgree_tech
 
サーバーフレームワークに潜んでる脆弱性検知ツール紹介
サーバーフレームワークに潜んでる脆弱性検知ツール紹介サーバーフレームワークに潜んでる脆弱性検知ツール紹介
サーバーフレームワークに潜んでる脆弱性検知ツール紹介gree_tech
 
データエンジニアとアナリストチーム兼務になった件について
データエンジニアとアナリストチーム兼務になった件についてデータエンジニアとアナリストチーム兼務になった件について
データエンジニアとアナリストチーム兼務になった件についてgree_tech
 
シェアドサービスとしてのデータテクノロジー
シェアドサービスとしてのデータテクノロジーシェアドサービスとしてのデータテクノロジー
シェアドサービスとしてのデータテクノロジーgree_tech
 
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-gree_tech
 
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話gree_tech
 
比較サイトの検索改善(SPA から SSR に変換)
比較サイトの検索改善(SPA から SSR に変換)比較サイトの検索改善(SPA から SSR に変換)
比較サイトの検索改善(SPA から SSR に変換)gree_tech
 
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行gree_tech
 
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜gree_tech
 
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)gree_tech
 

Más de gree_tech (20)

アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜
アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜
アナザーエデンPC版リリースへの道のり 〜WFSにおけるマルチプラットフォーム対応の取り組み〜
 
GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介
GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介
GREE VR Studio Laboratory「XR-UX Devプロジェクト」の成果紹介
 
REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表
REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表
REALITYアバターを様々なメタバースで活躍させてみた - GREE VR Studio Laboratory インターン研究成果発表
 
アプリ起動時間高速化 ~推測するな、計測せよ~
アプリ起動時間高速化 ~推測するな、計測せよ~アプリ起動時間高速化 ~推測するな、計測せよ~
アプリ起動時間高速化 ~推測するな、計測せよ~
 
長寿なゲーム事業におけるアプリビルドの効率化
長寿なゲーム事業におけるアプリビルドの効率化長寿なゲーム事業におけるアプリビルドの効率化
長寿なゲーム事業におけるアプリビルドの効率化
 
Cloud Spanner をより便利にする運用支援ツールの紹介
Cloud Spanner をより便利にする運用支援ツールの紹介Cloud Spanner をより便利にする運用支援ツールの紹介
Cloud Spanner をより便利にする運用支援ツールの紹介
 
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介
 
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現についてSINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
SINoALICE -シノアリス- Google Cloud Firestoreを用いた観戦機能の実現について
 
海外展開と負荷試験
海外展開と負荷試験海外展開と負荷試験
海外展開と負荷試験
 
翻訳QAでのテスト自動化の取り組み
翻訳QAでのテスト自動化の取り組み翻訳QAでのテスト自動化の取り組み
翻訳QAでのテスト自動化の取り組み
 
組み込み開発のテストとゲーム開発のテストの違い
組み込み開発のテストとゲーム開発のテストの違い組み込み開発のテストとゲーム開発のテストの違い
組み込み開発のテストとゲーム開発のテストの違い
 
サーバーフレームワークに潜んでる脆弱性検知ツール紹介
サーバーフレームワークに潜んでる脆弱性検知ツール紹介サーバーフレームワークに潜んでる脆弱性検知ツール紹介
サーバーフレームワークに潜んでる脆弱性検知ツール紹介
 
データエンジニアとアナリストチーム兼務になった件について
データエンジニアとアナリストチーム兼務になった件についてデータエンジニアとアナリストチーム兼務になった件について
データエンジニアとアナリストチーム兼務になった件について
 
シェアドサービスとしてのデータテクノロジー
シェアドサービスとしてのデータテクノロジーシェアドサービスとしてのデータテクノロジー
シェアドサービスとしてのデータテクノロジー
 
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
「ドキュメント見つからない問題」をなんとかしたい - 横断検索エンジン導入の取り組みについて-
 
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
「Atomic Design × Nuxt.js」コンポーネント毎に責務の範囲を明確にしたら幸せになった話
 
比較サイトの検索改善(SPA から SSR に変換)
比較サイトの検索改善(SPA から SSR に変換)比較サイトの検索改善(SPA から SSR に変換)
比較サイトの検索改善(SPA から SSR に変換)
 
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
コードの自動修正によって実現する、機能開発を止めないフレームワーク移行
 
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
「やんちゃ、足りてる?」〜ヤンマガWebで挑戦を続ける新入りエンジニア〜
 
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
法人向けメタバースプラットフォームの開発の裏側をのぞいてみた(仮)
 

DataEngConf NYC’18 セッションサマリー #1

Notas del editor

  1. ・日本人は殆どいなく、日本コミュニティは見た限りなかった
  2. ・コロンビア大学やイベントの写真 ・イベント中は宇宙食という名のケータリングを食べられた
  3. ・1日あたり8回のKeynote/Sessionの公演があった ・大枠でDataEngineering、DataScience・Analytics、AI Products、Hero Trackという4つのSessionに分かれている ・Hero Engineeringとは、少人数・低工数で多くの影響を与えたデータシステムの紹介 ・大規模なカンファレンスとは異なり、1企業のメインスピーカーがあるのではなく、各企業からスピーカーが選出されている ・そのため、Keynoteはサマリな内容ではなくでは、他Sessionと同様に1つの企業からの取り組みの紹介がされていた
  4. ・データエンジニアリング系から1つ、機械学習系から1つピックアップして紹介する ・その中で企業の知名度があり、セッション難易度がほど良い感じのものを選んだ
  5. ・スタック全体からリアルタイムに詳細なメトリック監視を行うことができる運用監視クラウドサービス
  6. ・データフローにはLuigi、分散処理にはSpark、DWHにはRedshift、BIツールにはLookerを利用 ・1日あたり1兆を超えるシステムログやリクエストを捌いている
  7. ・40を超えるデータソースから取得することができる ・インフラデータ、サービストラフィック、売上情報、インフラコストなど
  8. ・ほとんどの企業では、オペレータがDataを取り出し巨大なコードに変換してDWHに出力するETLプロセスを保持している
  9. ・DatadogではETLを拡張したETTL(Extract Tiered Transform Load)プロセスを採用している ・Tiered Transformとはデータの階層化変換のことで、一度にデータの変換をするのではなく、いくつかのステップに分けてデータの変換を行う ・ブロンズ、シルバー、ゴールドの3つのステップに分解している ・原則的に各ステップの中間データはS3に保存される ・途中のパイプラインのデータは保持して、繰り返しジョブが実行できるようになっている
  10. ・すべてのデータソースから1つの場所に生データを集めること(主にS3に保存) ・ここではフィルター、変換、名前の変更などは実施しない ・単純に構造化データとして集計するだけ ・メリット ・データソースごとに1つの基本タスクを実行するように抽象化しているため、新しいデータセットを簡単に追加できる ・データを保持しているため、それ以降の処理に問題がある場合、ブロンズから処理をやり直すことができる
  11. ・各データソースから、データを構造化して保存している
  12. ・オブジェクトを1:1にマッピングできるように正規化する ・フィルター、データクリーニング、列の選択・操作、名前の変更、型キャストをサポートしている ・メリット ・新しいデータソースのカラム変更に対して、同じフォーマットになるようにオブジェクトを変換する ・データが変化した場合は、変換を階層化しているため、影響があるジョブからbackfillするだけで済む ・パイプライン全体を修正する必要はなく、新しいデータソースの変更による問題を緩和できる ・他タスクでシルバー関数を再利用することもできる
  13. ・Bronzeで構造化したデータを型キャストや名前変更など、正規化しているのが分かる
  14. ・Sparkを利用してSilverのデータを集計してDWHにロードする ・ここの複数レイヤーからデータ集計・変換にマシンパワーが必要なのでSparkを利用して分散処理 ・ここでの出力が最終的にDWHで利用するオブジェクトを含んでいる ・import方針として、truncate&insert、insert only、replace、upsertをサポートしている
  15. ・Silverデータを集計・変換してGoldに出力している
  16. ・複数の変化するデータソースへの対応 ・データソースごとに1つの基本タスクを実行するように抽象化しているため、新しいデータセットを簡単に追加できる ・新しいデータソースのカラム変更に対して、同じフォーマットになるようにオブジェクトを変換する ・パイプライン全体を修正する必要はなく、新しいデータソースの変更による問題を緩和できる ・過去データのbackfillのしやすさ ・変換を階層化しているため、影響があるジョブからbackfillするだけで済む ・長期間データの信頼性、堅牢性 ・各レイヤーでデータを保持しているため、それ以降の処理に問題がある場合、ブロンズから処理をやり直すことができる ・セキュリティ、コンプライアンスなどの要件をクリアできる機密性 ・クラウドではIAMソリューション設定、BIツールでは権限設定をすればコントロールすることができる
  17. ・このようにTransformを階層化し、タスク分解しているが、依存関係の問題は依然として存在する ・Datadogでは30以上の依存関係の中に、370程度のタスクによってDWHを構築している ・依存関係が深くなるほど、システムのメンテナンスコストが上がってしまう
  18. ・そのため、ワーフフローエンジンを利用してタスク依存関係を解決する
  19. ・Spotifyが開発したデータフロー制御のワークフローエンジンがOSS化したもの ・Luigiの利用によりタスクの依存関係の問題を緩和させることができる ・特徴 ・Pythonで定義され、複数のバッチ処理を組み合わせたジョブを制御できる ・タスク間のロジックを定義することで依存関係を解決できる ・エラーが発生したら処理を停止し、失敗したところから再開できる ・出力の有無で冪等性を担保できる ・プラットフォームに依存しないため、HadoopやBigQuery、各種クエリエンジンとの連携が可能 ・範囲外(記載しない) ・リアルタイム処理、分散処理、スケジュール起動、トリガ起動 ・あくまでも司令塔としての役割
  20. ・OtherTaskを親に持つ ・hello worldを出力して(ここでデータの変換などが可能) ・s3のbucketにアウトプット ・Datadogでの使い方 ・Datadogでは1データソースに1基盤クラス ・各Task特有のパラメータで定義できるライブラリを開発して利用している
  21. ・このように複雑な依存関係もLuigiを利用することで簡易管理できる
  22. ・弊社でも、生データから中間テーブルを作成して、その後に再度集計してデータマート用のテーブルを作成することはある ・とはいえ、データソースが複数に跨ることは少なく、各データソースごとに最適なDWHを利用している ・DWHを一元管理するためには、ETTLのような管理が必要になってくるだろう
  23. ・弊社では、DigdagやAzkabanなどの宣言型のワークフローエンジンを利用している ・特にSQLでETL対応していることが多い ・SQLの場合は、日付パラメータを変更した定形クエリを何度も実行することが多いため、宣言型のほうが対応工数は小さくなることが多い ・クエリの場合は、非ENであっても対応できるのもメリット ・Luigiなどのスクリプト型のワークフローは、状態処理やスクリプト中の変換などが容易 ・スクリプト定義ができるので、タスク間の依存関係が複雑な場合も有効 ・クエリではない、ETLプロセスの場合はスクリプト型のワークフローだと柔軟に対応できる ・場所によってワーフフローを使い分けるのも良さそう
  24. ・クラウド型の顧客管理や営業管理などのビジネスアプリケーションを提供するSaaS
  25. ・ETLでデータを集計して、前処理で外れ値の除去、次元削減、特徴選択をし、訓練データと検証データに分けてモデルを作成して、精度を検証して、本番にdeployして精度を確認して、またモデルを更新する
  26. ・15万社以上の企業が、Salesforceのアプリケーションを利用している ・そのため、各企業ごとのユースケースにあったモデルを作成しようと思うと、非常に工数がかかる ・1つ1つに専用のモデルを作成するのではなく、全体で共通のモデル作成する必要性が出てきている ・共通モデルを利用するためには、共通のデータフォーマットやパラメータを利用する必要がある
  27. ・15万社以上の企業が、Salesforceのアプリケーションを利用している ・そのため、各企業ごとのユースケースにあったモデルを作成しようと思うと、非常に工数がかかる ・1つ1つに専用のモデルを作成するのではなく、全体で共通のモデル作成する必要性が出てきている ・共通モデルを利用するためには、共通のデータフォーマットやパラメータを利用する必要がある
  28. ・全体で共通モデルを利用したいが、企業によってデータはバラバラ ・データサイエンティスト不足 ・各ビジネスモデルの深い知見の不足 ・各パイプラインの自動化ができていない ・常に変化し、異常値を含んだデータ ・手入力によるラベリングミス ・途中でカラム変更することがある ・過去のデータがない ・各カラムの潜在価値の変化を把握できない ・コールドスタート問題
  29. ・かといって、入力されているデータをそのまま学習データに利用すると問題が発生する ・それは、時系列ではないため答えとなるカラムが存在するデータを学習に利用してしまっているから ・このような問題をデータリーク問題という
  30. ・予測時に利用できるデータ、できないデータが存在する ・予測時には知りえない情報を学習に利用してしまうと、モデルの性能が著しく悪くなってしまう ・企業データのように、時系列でなかったり、急にマスターデータとして登録される場合に発生しやすい ・一つ一つ別のモデルにする場合は、データを確認すればデータリークのカラムを判断できるが、共通モデルで何千もの予測をするモデルであると確認が困難になる
  31. ・性別と生存率、客室クラスと生存率の関係のヒートマップグラフ
  32. ・性別と生存率、客室クラスと生存率の関係のヒートマップグラフ
  33. ・身体識別番号と生存率、救命艇番号と生存率の関係 ・一見、生存率と非常に高い因果関係があるように見えるが、これらの番号は、亡くなった後や救助船に乗った後に決まったデータ ・データとして見るのは問題ないが、これらのデータは事前には分からない ・事後にしか確認できないデータを訓練データとして利用すると、トレーニング時に高い精度が出たとしても、予測時には精度が出ない
  34. ・身体識別番号と生存率、救命艇番号と生存率の関係 ・一見、生存率と非常に高い因果関係があるように見えるが、これらの番号は、亡くなった後や救助船に乗った後に決まったデータ ・データとして見るのは問題ないが、これらのデータは事前には分からない ・事後にしか確認できないデータを訓練データとして利用すると、トレーニング時に高い精度が出たとしても、予測時には精度が出ない
  35. ・一見関係ないようなデータもデータリークに繋がっていることがある、その例を紹介する
  36. ・ReasonLostはコンバージョンしなかったと同意
  37. ・Amountはコンバージョンしたと同意
  38. ・ClosedByはコンバージョンしたと類似
  39. ・企業データの共通モデル作成時に、時系列の情報がなかったり過去データがなかったりする場合は、どこに正解に紐付いたデータが潜んでいるか分からない ・訓練時には高い精度が出ても、予測時には全く精度が出ない ・overfittingと似ているが微妙に違っている 問題となるのは、 ・企業データなどの過去データがなかったり、時系列情報がない場合 ・マスターテーブルの値が、特定トリガーで途中で変更がある場合 ・データセット全体を正規化・標準化してクロスバリデーションを実施すると、データリークしたことになる(意外と陥りやすい) ・平均値、最大値、標準偏差などのスケーリング係数が、訓練データの全体分布が共有されてしまう
  40. まず一般的な方法だが ・分割クロスバリデーションでデータ準備をする ・全体で標準化しないように、分割データごとにパラメータを計算して、テストデータを準備するのもOK ・外れ値の除去、次元削減、特徴選択などのタスクを含むクロスバリデーション内では、パラメータを再計算するのがよい ・全データの特殊選択を行った値でクロスバリデーションをすると、検証データにもその特殊選択が利用されてパフォーマンス分析に偏りが発生する ・検証データセットを保持する ・訓練データとテストデータと検証データに分割し、検証データセットを保持する方法もある ・モデル作成には訓練データとテストデータを利用して、最終モデルは検証データを利用する
  41. 次に特徴選択について エンタープライズデータなどの過去データや時系列判定ができない場合 ・全体のNULL率が高い ・訓練データで非NULLでも検証時にNULLデータが多いカラムは削除する ・訓練精度と検証精度の差が激しい ・精度の差があるときは意図しないカラムが含まれている可能性が高い ・確率分布に変換して比較すると判定しやすい ・日付が大幅にずれているもの ・学習データの日付が離れている場合、モデルがずれる可能性があるので、日付データはまとめる
  42. ・全体で共通のモデルを利用しているため、個別に敷地を設けるのではなく、全体で共通の閾値を設ける必要がある ・Salesforceではこのような閾値定めた動的特徴選択エンジンを動かしている
  43. ・これまでの特徴量基準による特徴選択を実施した動的特徴量削除モデルと、人が手動で特徴選択したモデルのカラムについてのグラフ ・AutoMLでもHand Tuningでも共通のカラムが多く、実サービスでも十分に利用できる ・必ずしもAutoMLの選択したカラムが正しいわけではないが、AutoMLで選択したカラムを見て人が気づきを得ることも多い
  44. ・全体でのモデル最適化を優先 ・1つのモデルでの最適化ではなく、数千の精度を悪くするような閾値を選ばない ・閾値選択は難しい ・良い特徴量と、除去するべき特徴量の閾値判定 ・多くの試行錯誤 ・アルゴリズムに変換できるヒューリスティックな手法が必要となることもある
  45. ・時系列データの重要性 ・Salesforceのように企業データを利用する場合は、データリークカラムの除去に試行錯誤している ・弊社でモデルを作成する際は、基本的に多くのログを保持しているため、素直に予測時に利用できないカラム除去が重要 ・共通モデルの難しさ ・1つのモデルでの最適化は決して難しくないが、全体で共通のモデルの精度を向上させる場合のデータリークは問題になる ・時系列判断が難しい場合の、不要カラム削除の閾値判断はヒューリスティックな判断も必要になりそう