Submit Search
Upload
大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情
•
5 likes
•
1,473 views
nagix
Follow
みんなのPython勉強会#13での発表資料です。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 34
Download now
Download to read offline
Recommended
分かりそうで分からないDWH、何のために導入して、どのようにデータを管理・蓄積するのか、どうやって利用するのか、普通のDBと何が違って、アーキテクチャどうなっているかなど、コンサルの現場でよく尋ねられる疑問について解説します。
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
持続可能なデータ基盤のための データの多様性に対する取り組み 秋葉原ラボ
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
データ分析チームの振り返り
データ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto
Spark Summit 2014 の簡単な報告と最近の Apache Spark コミュニティーへの取り組みについて,2014-08 のリクルートテクノロジーズ アドバンストテクノロジーラボのラボ内の研究会で発表した資料です.
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
Recruit Technologies
トレジャーデータとTableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
Takahiro Inoue
【ビッグデータとデータマート】 「仙台・宮城とれたてネタ!【タガヤス その1】」の株式会社オプト 仙台ラボラトリの登壇資料です。 https://tagayas.connpass.com/event/64324/
ビッグデータとデータマート
ビッグデータとデータマート
株式会社オプト 仙台ラボラトリ
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
Takahiro Inoue
slide for http://cassandra-jp.com/cst2017/ja/
Cassandra - Kylo/Nifi
Cassandra - Kylo/Nifi
Mao Ito
Recommended
分かりそうで分からないDWH、何のために導入して、どのようにデータを管理・蓄積するのか、どうやって利用するのか、普通のDBと何が違って、アーキテクチャどうなっているかなど、コンサルの現場でよく尋ねられる疑問について解説します。
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
持続可能なデータ基盤のための データの多様性に対する取り組み 秋葉原ラボ
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
データ分析チームの振り返り
データ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto
Spark Summit 2014 の簡単な報告と最近の Apache Spark コミュニティーへの取り組みについて,2014-08 のリクルートテクノロジーズ アドバンストテクノロジーラボのラボ内の研究会で発表した資料です.
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
Recruit Technologies
トレジャーデータとTableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
Takahiro Inoue
【ビッグデータとデータマート】 「仙台・宮城とれたてネタ!【タガヤス その1】」の株式会社オプト 仙台ラボラトリの登壇資料です。 https://tagayas.connpass.com/event/64324/
ビッグデータとデータマート
ビッグデータとデータマート
株式会社オプト 仙台ラボラトリ
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
Takahiro Inoue
slide for http://cassandra-jp.com/cst2017/ja/
Cassandra - Kylo/Nifi
Cassandra - Kylo/Nifi
Mao Ito
みんなのPython勉強会#13 Introduction
S13 t0 introduction
S13 t0 introduction
Takeshi Akutsu
2016/8/10開催 みんなのPython勉強会資料です。
プログラミング学習とScratch raspi python
プログラミング学習とScratch raspi python
Yoshitaka Shiono
みんなのPython勉強会#15 で発表した内容です
見た目だけのデザインと意味を持つデザイン
見た目だけのデザインと意味を持つデザイン
Isezaki Toshiaki
2016/6/7 みんなのPython勉強会で発表した資料です。 scikit-learnの初心者向けに、データのまとめ方やドキュメントを読む時の心構えについて書いてあります。
Pythonで機械学習入門以前
Pythonで機械学習入門以前
Kimikazu Kato
このプレゼンテーションではApache Kafkaを紹介し、Fast DataストリームをKafkaやMapR Streamsで扱う際のベストプラクティスを説明します。説明で使われているコード例はこちらで入手可能です: github.com/iandow/design-patterns-for-fast-data Ian Downardによる2016年10月18日のPortland Javaユーザーグループでの講演より。
Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターン
MapR Technologies Japan
Демонстрация решения Talend Data Quality для целей управления клиентскими данными
Talend Data Quality - Customer Data Management platform
Talend Data Quality - Customer Data Management platform
Максим Остархов
業務のためのPython勉強会#3 Talk2 「2と3の違いから見るPythonの進化」(辻真吾)
S03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slides
Takeshi Akutsu
みんなのPython勉強会#12 Talk 1 「私のPython学習奮闘記#5〜学習のTIPs編〜」
S12 t1 python学習奮闘記#5
S12 t1 python学習奮闘記#5
Takeshi Akutsu
みんなのPython勉強会#12 http://startpython.connpass.com/event/28360/ いろいろな言語で用意されているプロファイリング機能。一連の処理の処理時間を計測し、どこに時間がかかっているか調べるときに利用します。Pythonのプロファイリング方法を説明します。
Pythonのプロファイリング
Pythonのプロファイリング
ysakaguchi
ゼロからクラウドを立ち上げる最速法。このドリルでは、ミニクラウド(データセンター)をゼロから構築します。クラウドプラットフォームを物理マシンにデプロイするために最も効率的な方法を見つける。また、クラウドの性能を監視するハードウェア・ソフトウェア(とその組み合わせ)の技術も議論する。 Fastest Way to Build a Cloud from Scratch. In this drill we will build a small cloud (data center), literally from scratch. We will discuss efficient methods to deploy cloud platforms on physical machines. We will also practice hardware and software technologies which facilitate performance monitoring in our cloud.
Cloud from Scratch / ゼロからクラウド構築
Cloud from Scratch / ゼロからクラウド構築
Tokyo University of Science
基調講演:「心の鍵を開く感情技術」第1部 東京大学大学院医学系研究科 音声病態分析学講座 特任講師 光吉俊二氏
S10 p1 mitsuyoshi-sama_2
S10 p1 mitsuyoshi-sama_2
Takeshi Akutsu
ロボカップの10年:インテリジェントホームロボティクスにおける標準問題の設計・成果・展望
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会
Komei Sugiura
DBエンジニアがシェルスクリプトでよくやることをpythonで置き換えようとした話ですhttp://startpython.connpass.com/event/28359/ のLTです。
DBエンジニアに必要だったPythonのスキル
DBエンジニアに必要だったPythonのスキル
Satoshi Yamada
Orientation
S09 t0 orientation
S09 t0 orientation
Takeshi Akutsu
みんなのPython勉強会#14 イントロダクション
S14 t0 introduction
S14 t0 introduction
Takeshi Akutsu
2016年7月2日沖縄コンベンションセンターで行われたOSCのPostgreSQLセッションです。
[OSC2016沖縄]商用DBからPostgreSQLへの移行入門
[OSC2016沖縄]商用DBからPostgreSQLへの移行入門
Kosuke Kida
2015/8/8,9に大分県で実施した、未来のIT技術者発見事業「プログラミング体験教室」で使用したスライドです。Webではゲーム作りとなっていますが、実際はプログラムによる計測制御をArduinoベースのセンサーボード「なのぼ~どAG」と紙工作を組み合わせて実施しています。 https://www.hyper.or.jp/staticpages/index.php/it-hakken
大分県 未来のIT技術者発見事業「プログラミング体験教室」
大分県 未来のIT技術者発見事業「プログラミング体験教室」
Kazuhiro Abe
Python歴1年坊主がPyConに登壇するためのランチェスター戦略
Stapy#17LT
Stapy#17LT
drillan
■OSC 2016 Tokyo/Spring (2016/02/27) 講演資料 「Hadoopエコシステムの最新動向とNTTデータの取り組み」 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 山下 真一
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
db tech show case 2016 Tokyo
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析
Yukio Yoshida
OSC2012Tokyo Springのセミナー資料です。 BI砲ネタはうけなかったので削除しました。 ※嘘です、著作権上の配慮です。
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
Kensuke SAEKI
https://dev.classmethod.jp/cloud/aws/20191101-devio2019-effective-datalake/
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
More Related Content
Viewers also liked
みんなのPython勉強会#13 Introduction
S13 t0 introduction
S13 t0 introduction
Takeshi Akutsu
2016/8/10開催 みんなのPython勉強会資料です。
プログラミング学習とScratch raspi python
プログラミング学習とScratch raspi python
Yoshitaka Shiono
みんなのPython勉強会#15 で発表した内容です
見た目だけのデザインと意味を持つデザイン
見た目だけのデザインと意味を持つデザイン
Isezaki Toshiaki
2016/6/7 みんなのPython勉強会で発表した資料です。 scikit-learnの初心者向けに、データのまとめ方やドキュメントを読む時の心構えについて書いてあります。
Pythonで機械学習入門以前
Pythonで機械学習入門以前
Kimikazu Kato
このプレゼンテーションではApache Kafkaを紹介し、Fast DataストリームをKafkaやMapR Streamsで扱う際のベストプラクティスを説明します。説明で使われているコード例はこちらで入手可能です: github.com/iandow/design-patterns-for-fast-data Ian Downardによる2016年10月18日のPortland Javaユーザーグループでの講演より。
Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターン
MapR Technologies Japan
Демонстрация решения Talend Data Quality для целей управления клиентскими данными
Talend Data Quality - Customer Data Management platform
Talend Data Quality - Customer Data Management platform
Максим Остархов
業務のためのPython勉強会#3 Talk2 「2と3の違いから見るPythonの進化」(辻真吾)
S03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slides
Takeshi Akutsu
みんなのPython勉強会#12 Talk 1 「私のPython学習奮闘記#5〜学習のTIPs編〜」
S12 t1 python学習奮闘記#5
S12 t1 python学習奮闘記#5
Takeshi Akutsu
みんなのPython勉強会#12 http://startpython.connpass.com/event/28360/ いろいろな言語で用意されているプロファイリング機能。一連の処理の処理時間を計測し、どこに時間がかかっているか調べるときに利用します。Pythonのプロファイリング方法を説明します。
Pythonのプロファイリング
Pythonのプロファイリング
ysakaguchi
ゼロからクラウドを立ち上げる最速法。このドリルでは、ミニクラウド(データセンター)をゼロから構築します。クラウドプラットフォームを物理マシンにデプロイするために最も効率的な方法を見つける。また、クラウドの性能を監視するハードウェア・ソフトウェア(とその組み合わせ)の技術も議論する。 Fastest Way to Build a Cloud from Scratch. In this drill we will build a small cloud (data center), literally from scratch. We will discuss efficient methods to deploy cloud platforms on physical machines. We will also practice hardware and software technologies which facilitate performance monitoring in our cloud.
Cloud from Scratch / ゼロからクラウド構築
Cloud from Scratch / ゼロからクラウド構築
Tokyo University of Science
基調講演:「心の鍵を開く感情技術」第1部 東京大学大学院医学系研究科 音声病態分析学講座 特任講師 光吉俊二氏
S10 p1 mitsuyoshi-sama_2
S10 p1 mitsuyoshi-sama_2
Takeshi Akutsu
ロボカップの10年:インテリジェントホームロボティクスにおける標準問題の設計・成果・展望
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会
Komei Sugiura
DBエンジニアがシェルスクリプトでよくやることをpythonで置き換えようとした話ですhttp://startpython.connpass.com/event/28359/ のLTです。
DBエンジニアに必要だったPythonのスキル
DBエンジニアに必要だったPythonのスキル
Satoshi Yamada
Orientation
S09 t0 orientation
S09 t0 orientation
Takeshi Akutsu
みんなのPython勉強会#14 イントロダクション
S14 t0 introduction
S14 t0 introduction
Takeshi Akutsu
2016年7月2日沖縄コンベンションセンターで行われたOSCのPostgreSQLセッションです。
[OSC2016沖縄]商用DBからPostgreSQLへの移行入門
[OSC2016沖縄]商用DBからPostgreSQLへの移行入門
Kosuke Kida
2015/8/8,9に大分県で実施した、未来のIT技術者発見事業「プログラミング体験教室」で使用したスライドです。Webではゲーム作りとなっていますが、実際はプログラムによる計測制御をArduinoベースのセンサーボード「なのぼ~どAG」と紙工作を組み合わせて実施しています。 https://www.hyper.or.jp/staticpages/index.php/it-hakken
大分県 未来のIT技術者発見事業「プログラミング体験教室」
大分県 未来のIT技術者発見事業「プログラミング体験教室」
Kazuhiro Abe
Python歴1年坊主がPyConに登壇するためのランチェスター戦略
Stapy#17LT
Stapy#17LT
drillan
■OSC 2016 Tokyo/Spring (2016/02/27) 講演資料 「Hadoopエコシステムの最新動向とNTTデータの取り組み」 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 山下 真一
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
db tech show case 2016 Tokyo
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析
Yukio Yoshida
Viewers also liked
(20)
S13 t0 introduction
S13 t0 introduction
プログラミング学習とScratch raspi python
プログラミング学習とScratch raspi python
見た目だけのデザインと意味を持つデザイン
見た目だけのデザインと意味を持つデザイン
Pythonで機械学習入門以前
Pythonで機械学習入門以前
Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターン
Talend Data Quality - Customer Data Management platform
Talend Data Quality - Customer Data Management platform
S03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slides
S12 t1 python学習奮闘記#5
S12 t1 python学習奮闘記#5
Pythonのプロファイリング
Pythonのプロファイリング
Cloud from Scratch / ゼロからクラウド構築
Cloud from Scratch / ゼロからクラウド構築
S10 p1 mitsuyoshi-sama_2
S10 p1 mitsuyoshi-sama_2
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会
DBエンジニアに必要だったPythonのスキル
DBエンジニアに必要だったPythonのスキル
S09 t0 orientation
S09 t0 orientation
S14 t0 introduction
S14 t0 introduction
[OSC2016沖縄]商用DBからPostgreSQLへの移行入門
[OSC2016沖縄]商用DBからPostgreSQLへの移行入門
大分県 未来のIT技術者発見事業「プログラミング体験教室」
大分県 未来のIT技術者発見事業「プログラミング体験教室」
Stapy#17LT
Stapy#17LT
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ関連Oss動向調査とニーズ分析
Similar to 大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情
OSC2012Tokyo Springのセミナー資料です。 BI砲ネタはうけなかったので削除しました。 ※嘘です、著作権上の配慮です。
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
Kensuke SAEKI
https://dev.classmethod.jp/cloud/aws/20191101-devio2019-effective-datalake/
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
「既に起こったことをレポートする」ことから、「これから起こりそうなことを予測する」方向へ。この要件を満たすためにどのようなデータを収集すべきか、前もって決めるのは困難です。ならば、あらゆる種類のデータを貯めておいて、必要になった時に取り出せばいい。それがデータ レイクの基本的な発想です。Azure Data Lake は、あらゆる形式のデータを無尽蔵に貯めておけるストレージであり、アプリケーションの要件に合わせて柔軟にデータを取り出せる Query as a Service です。 本セッションでは、 Azure Data Lake を活用したアプリケーションの設計と開発について説明します。 関連リソース 1: Azure Data Lake Analytics (https://azure.microsoft.com/ja-jp/services/data-lake-analytics/) 関連リソース 2: Azure Data Lake Store (https://azure.microsoft.com/ja-jp/services/data-lake-store/) 関連リソース 3: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装 (https://www.microsoft.com/ja-jp/events/decode/2017/sessions.aspx#DI12) 製品/テクノロジ: Microsoft Azure/アーキテクチャ/クラウド/ビッグ データ 野村 一行 日本マイクロソフト株式会社 デベロッパー エバンジェリズム統括本部 エバンジェリスト
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
「データ分析で Excel を活用しよう」 db tech showcase 東京 2014 でのセッションコンテンツ(D16)になります。 企業向けの Office Professional Plus 2013 / Office 365 ProPlus の Excel で社内の様々なデータベースやクラウド上のデータを集約し、分析用の多次元モデルを作成し、インタラクティブなレポートを作成する方法及び SharePoint Online を利用して安全に共有すると同時に、予測アルゴリズムによるシーズナリティに基づいたデータの予測を可能にする方法を紹介しています。 具体的な操作に関してはデモで実施しため、本スライドのみではわかりにくい部分があるかと思います。末尾に体験版の入手方法が記載されていますので、実際に試していただければと思います。
データ分析で Excel を活用しよう
データ分析で Excel を活用しよう
Tsuyoshi Kitagawa
オープンソースカンファレンス2012Tokyo Fallで日本JasperServerユーザ会が行ったセミナー資料です。(小ネタは著作権に配慮してはずしています。)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
Kensuke SAEKI
db analytics showcase Sapporo 2018
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Hideo Takagi
2014年10月15日開催 デル株式会社主催「Dell Solutions Roadshow (DSR) 2014 Tokyo」講演資料 タイトル: ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション 講師: 伊藤忠テクノソリューションズ株式会社 ビックデータアナリティクス部 シニアエンジニア 小平 啓一 氏 内容: ビックデータを統計解析の手法を使って分析・予測・モデリングするビジネスアナリティクスによって新しいビジネスチャンスが生まれている。 BAシステムとしてSAS Visual Analyticsの機能とそれを支えるDELL PowerEdge VRTXの実力に迫る。
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
20160121 データサイエンティスト協会 木曜セミナー #5 の発表資料です
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5
Koichiro Sasaki
Azure Data Lake Analytics / Azure Data Lake Storeの一通りの機能を網羅しています。Storage Gen2は、抜けています。ちゃんとU-SQLで効率的にデータ処理をしましょう!
Azure Datalake 大全
Azure Datalake 大全
Daiyu Hatakeyama
「Azure Cosmos DB」は、Azure が提供する、グローバル分散可能でマルチ モデルをサポートする、フル マネージドの NoSQL データベース サービスです。 本セッションでは、2020 年 5 月に開催された「Microsoft Build 2020」で発表された Azure Cosmos DB の新機能 (Free レベル、C# ノートブック、自動スケール、Private Link、暗号化のキー持ち込み、Synapse Link による HTAP など) をご紹介します。
【de:code 2020】 Azure Cosmos DB - Build 2020 アップデート
【de:code 2020】 Azure Cosmos DB - Build 2020 アップデート
日本マイクロソフト株式会社
Tokyo
Big data解析ビジネス
Big data解析ビジネス
Mie Mori
マイクロソフトは より効率的、かつ大量のデータを使ったデータ分析のための基盤を急ピッチで拡充しています。 分析自体やデータ準備の前処理における手段の1つとして使って頂くことを想定している各種製品・サービスについて説明します。 具体的には、R の並列実行環境である Microsoft R Server、Power BI、並列処理基盤である Azure Data Lake Analytics、Azure Machine Learning を取り上げます。
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
Koichiro Sasaki
To improve customer value and corporate competitiveness, it is necessary to deal with advanced analysis using big data, including data of core systems, and digital transformation. At the same time, examples of hybrid construction of on-premise clouds are also spreading. In this session, we will introduce the technology and the latest case examples of applying real-time replication utilized in the backbone system (RDBMS) to the Hadoop data analysis infrastructure (Hadoop Data Lake) of the hybrid configuration.
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructure
DataWorks Summit
Jpoug 15min#3 20170117 http://www.jpoug.org/2016/11/17/in15m3
簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪
Yohei Azekatsu
「情報戦を制する者が、選挙戦を制する」──。2012年11月の米大統領選で、民主党・現職のオバマ大統領が共和党・ロムニー候補を激戦の末に破り、再選を果たしたのは記憶に新しい。今回の大統領選でオバマ陣営は、「すべての行動をデータで判断する」という大方針を掲げ、世論調査の結果や有権者の声、ソーシャルメディアなどの膨大なデータを素早く分析して、的確な意思決定を行った。ある地域での投票率は57.16%、ボランティアの記録や消費者、党支持者、有権者などの声、世論調査の結果、「Twitter」や「Facebook」といったソーシャルメディア(SNS)でやり取りされている意見など、すべてのデータを1カ所にまとめて分析した予測値はなんと57.68%と0.52%の差でしかなかった。この驚異的なビッグデータ解析をご紹介。
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
Insight Technology, Inc.
QCon Tokyo 2015での発表資料です。 「Apache Sparkがデータサイエンティストの次世代分析基盤となる」というテーマで発表しました。 前編はこちら→http://www.slideshare.net/x1ichi/spark-47265009?qid=75406dab-5016-4a0e-ba9a-772265434480
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
Hadoopソースコードリーディング 第22回 での発表資料です。 https://www.eventbrite.com/e/hadoop-22-tickets-31987821435
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
大髙 領介 中里 浩之
DLLAB Ignite Update Data Platform
DLLAB Ignite Update Data Platform
Deep Learning Lab(ディープラーニング・ラボ)
Microsoft の機械学習/Deep Learning の推論 (Prediction) で役に立つサービス/ツールの概要説明です。
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Daiyu Hatakeyama
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
Amazon Web Services Japan
Similar to 大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情
(20)
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
データ分析で Excel を活用しよう
データ分析で Excel を活用しよう
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5
Azure Datalake 大全
Azure Datalake 大全
【de:code 2020】 Azure Cosmos DB - Build 2020 アップデート
【de:code 2020】 Azure Cosmos DB - Build 2020 アップデート
Big data解析ビジネス
Big data解析ビジネス
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
Smart data integration to hybrid data analysis infrastructure
Smart data integration to hybrid data analysis infrastructure
簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
[db tech showcase Tokyo 2014] C25: Facebookが採用した世界最大級の分析基盤とは? by 日本ヒューレット・パッ...
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
DLLAB Ignite Update Data Platform
DLLAB Ignite Update Data Platform
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
More from nagix
Mapbox/OpenStreetMap meetup #07での発表資料です。 箱根駅伝を3Dデジタル地図上で再現した「箱根駅伝 3D」、YouTube上のウクライナのライブカメラを3D地図にマッピングした「Ukraine Live Cams」の紹介です。 箱根駅伝 3D https://nagix.github.io/hakone-ekiden/ Ukraine Live Cams https://nagix.github.io/ukraine-livecams/
箱根駅伝 3D とその他いろいろ
箱根駅伝 3D とその他いろいろ
nagix
Mapbox/OpenStreetMap meetup #06での発表資料です。 Mini Tokyo 3D 2021 は東京の公共交通のリアルタイム3Dマップ最新版です。今、実際に動いている列車や発着している旅客機をリアルな3Dマップ上に滑らかなアニメーションで表現します。これは、現実世界とそっくりな双子をデジタルの世界に表現した「デジタルツイン」です。 前作「Mini Tokyo 3D」を出発点として、2年間で大きな進化を遂げました。『東京を訪問した旅行者が複雑な交通網を理解し、快適に過ごせるように』という当初の目的に加えて、2020年の新型コロナウイルスパンデミックを契機に『東京を訪問できない世界中の人々が東京の「今」を身近に体験できるように』という新たな目的を設定し、様々なアイデアを盛り込んでいます。 Mini Tokyo 3D 2021 は PC、スマートフォン、タブレット、セットトップボックスなど、デバイスを問わず Web ブラウザさえあれば利用できる Web アプリケーションです。下記の URL からアクセスしてください。 https://minitokyo3d.com/2021/ より詳しい情報は Mini Tokyo 3D ユーザーガイド https://minitokyo3d.com/docs/3.0.0/ja/ をご覧ください。ソースコードは GitHub リポジトリhttps://github.com/nagix/mini-tokyo-3d にて公開されています。開発の経緯は、Mini Tokyo 3D 開発日誌 https://togetter.com/li/1413307 にまとめています。
Mini Tokyo 3D 2021 − 交通デジタルツイン、2年間の進化
Mini Tokyo 3D 2021 − 交通デジタルツイン、2年間の進化
nagix
みんなのPython勉強会#59: Stapy Global Meetupでの発表資料です。 Mini Tokyo 3D は、昨年度の公共交通オープンデータ使ったアプリコンテスト「第3回東京公共交通オープンデータチャレンジ」の最優秀賞受賞作品です。今回はこのアプリの開発秘話とデジタルツインの可能性についてお話しします。 Stapyの第1回勉強会でデータサイエンス・データエンジニアリングについてお話ししたのですが、その後シンガポールに移住して4年が経ちました。海外の開発現場の経験なども交えて、データの意味付けやデジタルトランスフォーメーションの考え方についても触れたいと思います。 Mini Tokyo 3D は PC、スマートフォン、タブレット、セットトップボックスなど、デバイスを問わず Web ブラウザさえあれば利用できる Web アプリケーションです。下記の URL からアクセスしてください。 https://minitokyo3d.com より詳しい情報は Mini Tokyo 3D ユーザーガイド https://github.com/nagix/mini-tokyo-3d/blob/master/USER_GUIDE-ja.md をご覧ください。ソースコードは GitHub リポジトリhttps://github.com/nagix/mini-tokyo-3d にて公開されています。開発の経緯は、Mini Tokyo 3D 開発日誌 https://togetter.com/li/1413307 にまとめています。
Mini Tokyo 3D − 交通デジタルツインとデジタルトランスフォーメーションの世界
Mini Tokyo 3D − 交通デジタルツインとデジタルトランスフォーメーションの世界
nagix
mapbox/OpenStreetMap meetup #03での発表資料です。 Mini Tokyo 3D は東京の公共交通のリアルタイム3Dマップです。今、実際に動いている列車や発着している旅客機をリアルな3Dマップ上に滑らかなアニメーションで表現します。これは、現実世界とそっくりな双子をデジタルの世界に表現した「デジタルツイン」です。 ユーザーは自由に3Dマップ上を動き回り、見たいところにズームインして東京の「今」を知ることができます。路線図として乗り換えルートを調べる、出かける前に目的地の街と天気を下調べする、列車を自動追跡して沿線の様子をただひたすら眺める、終電に逃さないためにダッシュすべきかどうか列車の現在位置から判断するなど、さまざまな使い方ができます。 Mini Tokyo 3D は PC、スマートフォン、タブレット、セットトップボックスなど、デバイスを問わず Web ブラウザさえあれば利用できる Web アプリケーションです。下記の URL からアクセスしてください。 https://nagix.github.io/mini-tokyo-3d/ より詳しい情報は Mini Tokyo 3D ユーザーガイド https://github.com/nagix/mini-tokyo-3d/blob/master/USER_GUIDE-ja.md をご覧ください。ソースコードは GitHub リポジトリhttps://github.com/nagix/mini-tokyo-3d にて公開されています。開発の経緯は、Mini Tokyo 3D 開発日誌 https://togetter.com/li/1413307 にまとめています。
Mini Tokyo 3D
Mini Tokyo 3D
nagix
業務のためのPython勉強会第1回での発表資料です。
データサイエンスとデータエンジニア
データサイエンスとデータエンジニア
nagix
Hadoop ソースコードリーディング第10回での発表資料です。2012年5月23日にラスベガスで開催された Data Science Summit 2012 の講演内容をレポートにまとめました。
Data Science Summit 2012 レポート
Data Science Summit 2012 レポート
nagix
More from nagix
(6)
箱根駅伝 3D とその他いろいろ
箱根駅伝 3D とその他いろいろ
Mini Tokyo 3D 2021 − 交通デジタルツイン、2年間の進化
Mini Tokyo 3D 2021 − 交通デジタルツイン、2年間の進化
Mini Tokyo 3D − 交通デジタルツインとデジタルトランスフォーメーションの世界
Mini Tokyo 3D − 交通デジタルツインとデジタルトランスフォーメーションの世界
Mini Tokyo 3D
Mini Tokyo 3D
データサイエンスとデータエンジニア
データサイエンスとデータエンジニア
Data Science Summit 2012 レポート
Data Science Summit 2012 レポート
大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情
1.
大規模データ分析を支えるインフラ系 オープンソースソフトウェアの最新事情 草薙 昭彦 (@nagix) MapR Technologies
2.
自己紹介 • 草薙 昭彦 (@nagix) •
MapR Technologies データエンジニア NS-SHAFT 無料!
3.
一般的な分析のデータフロー 収集 抽出 変換 加工 格納 集計 加工 生成 モデル 作成 可視化 レポート
4.
一般人 収集 抽出 変換 加工 格納 集計 加工 生成 モデル 作成 可視化 レポート 手入力 Excel Excel
Excel Excel
5.
一般人 収集 抽出 変換 加工 格納 集計 加工 生成 モデル 作成 可視化 レポート 手入力 Excel Excel
Excel Excel 実は専門家も
6.
企業では 収集 抽出 変換 加工 格納 集計 加工 生成 モデル 作成 可視化 レポート 各部門 のRDB のCSV 出力 マスタと の結合 名寄せ 分析用 RDB SQL R SAS SPSS Excel Oracle DB2 MySQL PostgreSQL …
7.
組織の規模が大きくなると • データボリューム – 大容量ストレージ・効率の良い格納フォーマット • 処理性能 – データ増や複数ユーザの同時アクセスに対応 •
信頼性・可用性 – ハードウェアのHA化・データの複製 • セキュリティ – 認証・アクセス制御・暗号化・監査
8.
大企業では 収集 抽出 変換 加工 格納 集計 加工 モデル 作成 可視化 レポート ETL ツール RDB コネクタ ETL ツール データ ウェア ハウス SQL R SAS SPSS セルフ サービ スBI Teradata IBM Netezza HP VerLca AcLan Matrix InformaLca Data Stage Syncsort Talend QlikView Pentaho
9.
ビッグデータって何でしたっけ • データボリューム – 従来のアーキテクチャでは処理格納できない量 • データの種類 – 非構造化(=スキーマが確定していない)データ •
データの流入頻度 – 月次・日時バッチ投入から都度の投入へ
10.
大規模なデータを扱う時に重要なこと • スケールアウト(水平スケーラビリティ) • CPUとストレージの距離(データローカリティ) サーバ
・・・ スケールアウト可能なアルゴリズム・データ格納方式 共有ストレージ (NAS/SAN) サーバ レイテンシ の問題 スループット の問題 サーバ サーバ サーバ 内蔵 HDD /SSD 内蔵 HDD /SSD 内蔵 HDD /SSD CPU CPU CPU
11.
大規模なデータを扱う時に重要なこと • Data Gravity(データの重力) Web App Data 分析 App Data 会計 App Data マーケ App Data 販売 App Data 販売 App Data 会計 App マーケ App
12.
分析のROI • 最も重要なのはデータを増やしたとしてもそ れに見合うリターンが得られるかどうか – データが増えれば得られる価値は上がりそう・・ – 問題はコストをいかに抑えることができるか • コモディティハードウェアは必須! •
スケールアウト分散処理ソフトウェアは必須! • オープンソースソフトウェアは有力な選択肢
13.
参考 • Google対Yahoo—インターネット戦争でどうしてここ まで差がついたのかを振り返る hZp://jp.techcrunch.com/2016/05/23/20160522why-google-beat-yahoo-in-the-war-for-the-internet/ – “NetAppハードウェアのコストはYahooの規模の拡大と同 じ速さで増大し、Yahooの利益の大きな部分に食い込むこ ととなった” –
“これに対して Googleは、規模を拡大し新サービスを追加 するときに起きるはずの問題を、それが起きる前に予期し、 効率的に対処できるようGoogle File Systemの開発に全力 を挙げた”
14.
Hadoop ベース分析基盤(初期) 収集 抽出 変換 加工 格納 集計 加工 モデル作成 可視化 レポート ログ コレクタ RDB コネクタ Map Reduce Hive Pig HDFS Map Reduce Hive Pig Mahout セルフ サービ スBI
15.
Hadoopって? サーバ サーバ サーバ
サーバ サーバ サーバ
16.
Hadoopって? サーバ Hadoop Distributed File System (HDFS) データをブロックに 分割して分散配置、 3つのレプリカ作成
17.
Hadoopって? サーバ Hadoop Distributed File System (HDFS) 分割されたデータ をMap、Reduceと いう単位で並列分 散処理 MapReduce
18.
Hadoopって? Hadoop Distributed File System (HDFS) MapReduce Hadoop コア
19.
Hadoopって? Hadoop Distributed File System (HDFS) MapReduce Hive SQLクエリ エンジン HBase NoSQL データベース Pig データ加工 フレームワーク Mahout 機械学習 Zoo Keeper 分散レポジトリ ・・・ MapReduce/HDFS を使いやすくする ための無数のプロ ジェクト
20.
Hadoop ベース分析基盤(現在) 収集 抽出 変換 加工 格納 集計 加工 モデル作成 可視化 レポート ログ コレクタ RDB コネクタ Spark Hive Pig HDFS Spark SQL Dashbo ard NoteBo ok Apache Spark Apache Kylin Apache Drill Apache Impala Presto MLLib Oryx Apache Spark Apache Hive Apache Pig Apache Flume Fluentd Jupyter Apache Zeppelin Spark Notebook H2O
21.
Sparkって? • (主に)MapReduce の置き換え – バッチだけでなくインタラクティブな処理も – メモリを最大限利用し、より効率よく Spark Spark SQL SQLクエリ エンジン Spark Streaming ストリーム処理 MLlib 機械学習 GraphX グラフ処理 Spark R R on Spark HDFS またはその他のファイルシステム
22.
トレンド:リアルタイム処理 • ビジネス側からの要件 – より早い変化の検知、決断、情報の提供 – 業務処理と分析処理は統合へ • データフロー、格納、処理それぞれに新しい アーキテクチャが必要 •
処理の2つのアプローチ – バッチを極限まで細かくしていく(マイクロバッチ) – メッセージを1つ1つ処理していく
23.
リアルタイム処理基盤 収集 抽出 変換 加工 格納 集計 加工 モデル作成 可視化 ログ コレクタ RDB コネクタ Spark Streami ng Kaka メッセー ジ キュー Spark Streami ng Dashbo ard Spark Streaming Apache Storm Apache Flink Apache APEX Apache Nifi StreamSets Apache Flume Fluentd ElasLcsearch /Kibana Grafana
24.
ラムダアーキテクチャ • バッチ処理(Data at Rest)とリアルタイムストリー ム処理(Streaming Data)は組み合わせることで 価値が出る – 近似的な速報値をリアルタイム処理で得る –
正確な集計や深い分析は履歴データを利用しバッチ 処理で得る • データを入口で複製し、用途に応じた最適な フォーマットで格納する – 例: 時間レンジの検索ならHBase、履歴集計なら Parquet
25.
ラムダアーキテクチャ hZps://www.mapr.com/developercentral/lambda-architecture
26.
ラムダアーキテクチャ 収集 抽出 変換 加工 格納 集計
加工 モデル作成 可視化 格納 抽出 変換 加工 集計 加工 モデル作成 バッチレイヤー スピードレイヤー Kaka HDFS
27.
分析のタイプ • バッチ分析 – 蓄積された大量データから知見を得る • リアルタイム分析 – 流れてくるデータを対象にとりあえずの解を得る •
インタラクティブ分析 – よくわからないものから鍵を見つけ方針を決める
28.
Apache Arrow • カラム型インメモリ分析のデファクト標準を目 指す Apache プロジェクト •
多くのビッグデータ系Apacheプロジェクトで共 通のデータ構造を使うといいよね? • データ構造、アルゴリズム、クロス言語バイン ディングを定義 • 最新のCPUの機能を活用した高速な分析
29.
これは非効率性だわ・・・ • 各システムは独自の内部メモリ 形式を持つ • 70〜80%のCPUはシリアライズ・ デシリアライズに使われる •
似たような機能が複数のプロジェ クトで実装される Thrin, Avro, Protobuf,…
30.
• すべてのシステムは共通のメモリ 形式を持つ • システム間のやりとりにオーバー ヘッドがない •
プロジェクト間で機能を共有できる (例: Parquet-to-Arrow リーダー) ならばこうだ
31.
カラム型フォーマット Row-oriented フォーマット (CSV, 従来のRDB, …) Column-oriented フォーマット (Parquet, ORC, …)
32.
Feather File Format • Apache ArrowをベースにしたRとPythonの Data Frameに適したディスク上のファイル フォーマット • なんで今までこんな便利なものがなかったん だ!
33.
PyhtonはUI言語から処理言語へ? hZp://www.slideshare.net/wesm/nextgeneraLon-python-big-data-tools-powered-by-apache-arrow
34.
ありがとうございました
Download now