SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
2016/10/26
1
ヤフー株式会社 野村 拓也
Case study of
online machine learning for
display advertising in
Yahoo! JAPAN
自己紹介
2
野村 拓也
• オンライン処理基盤の開発
• 機械学習を用いたシステム改善
• YDNの改善活動
目次
• 背景と目的
• 構成とオンライン処理
• A/Bテスト
• まとめ
3
背景と目的
4
直近のデータに
高い価値がある?
仮説: データの価値
5
経過時間
データの価値
オンライン処理の実例
6
バッチをリアルタイムに
→ 37%のクリック率改善
RecSys2013: Tencent
(資料が見つからないため聴講者のtweetで代用)
https://twitter.com/torbenbrodt/status/390284591266668544
YDNの紹介
7
http://promotionalads.yahoo.co.jp/service/ydn/
Yahoo DisplayAd Network
8
YDNのステークホルダ
AD 広告ユーザ
Webページ
YDN
CTR(クリック率)予測問題
基本的な広告ランキングスコア
9
期待収益 = 広告クリック確率 × クリック単価
未知・状況で変化 広告主が設定
10
YDNが活用するデータ
AD
広告ID
広告主ID
行動履歴
興味カテゴリ
URL
コンテンツ
YDN
目的
11
データ反映をリアルタイムに近づけ
YDNクリック予測精度を向上させる
構成とオンライン処理
12
構成
13
Kafka
Storm
配信サーバ
クリックサーバ
ログ回収経路
モデル配布経路
〜
〜
scpscp
広告配信
リクエスト
広告クリック
モデル配布サーバ
内製ログ回収基盤
AD
オンライン処理の概要
14
クリックログ配信ログ
結合
学習データ(負例) 学習データ(正例)
学習
パラメータ(配布) Storm
オンライン処理の概要
15
クリックログ配信ログ
学習データ(正例) 学習データ(負例)
学習
パラメータ(配布) Storm
結合
16
ログ結合と課題
クリックログ配信ログ
一時保持
学習データ(負例) 学習データ(正例)
配信ログの保持
負例生成タイミング
クリックまでの時間と捕捉率
17
10分で
95%捕捉
広告クリックまでの時間
18
配信ログの保持
負例生成タイミング
配信後10分の配信ログを保持
配信後10分経過したログを負例候補とする
結合の課題と対応
オンライン処理の概要
19
クリックログ配信ログ
学習データ(負例) 学習データ(正例)
パラメータ(配布) Storm
結合
学習
20
ババッッチチ オオンンラライインン
モデル Logistic Regression
学習手法 DCD(liblinear) SGD
ハイパーパラメータ調整 Grid Search AdaDelta等
機械学習手法の比較
21
オンライン機械学習の評価手法
学習データ
学習データ
学習データ
学習データ
学習データ
学習データ
モデル
(t)
モデル
(t+1)
時
系
列
順
モデル
(t)
コピー
学習 評価
構築初期のモデル評価手法
22
オフライン評価
ベースラインからのAUC lift
オンライン処理の概要
23
クリックログ配信ログ
学習データ(負例) 学習データ(正例)
パラメータ Storm
結合
学習
(配布)
24
パラメータの配布
Kafka
Storm
配信サーバ
クリックサーバ
ログ回収経路
モデル配布経路
〜
〜
scpscp
Web
ページ
広告配信
リクエスト
広告クリック
モデル配布サーバ
内製ログ回収基盤
再掲
A/Bテスト
25
A/Bテスト結果
• 一部配信面/トラフィックでA/Bテスト
26
KKPPII 意味 KKPPIIリリフフトト
iCTR ≒クリック率 44..11%%
CPC クリック単価 --22..55%%
RPR 1リクエストの売上 11..55%%
リアルタイム更新の可能性
• モデル配布直後のKPIが増加傾向
27
RPR
モデル配布後の経過時間
配布後10分近辺
にRPRのピーク
まとめ
29
オンライン処理
での課題
結果
まとめ
ログ結合
CTR 約4%向上
オフライン評価
さらなる向上の可能性
EOP

Más contenido relacionado

La actualidad más candente

大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク
 

La actualidad más candente (6)

データサイエンス業務と「ツール」
データサイエンス業務と「ツール」データサイエンス業務と「ツール」
データサイエンス業務と「ツール」
 
Google cloudnext recap_DataAnalytics
Google cloudnext recap_DataAnalyticsGoogle cloudnext recap_DataAnalytics
Google cloudnext recap_DataAnalytics
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
 
niconicoにおける継続的なデータ活用のためのHadoop運用事例
niconicoにおける継続的なデータ活用のためのHadoop運用事例niconicoにおける継続的なデータ活用のためのHadoop運用事例
niconicoにおける継続的なデータ活用のためのHadoop運用事例
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 
データ分析プラットフォームの歩き方
データ分析プラットフォームの歩き方データ分析プラットフォームの歩き方
データ分析プラットフォームの歩き方
 

Destacado

Destacado (20)

Real-time Analytics in Financial: Use Case, Architecture and Challenges
Real-time Analytics in Financial: Use Case, Architecture and ChallengesReal-time Analytics in Financial: Use Case, Architecture and Challenges
Real-time Analytics in Financial: Use Case, Architecture and Challenges
 
Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...
Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...
Near Real-Time Network Anomaly Detection and Traffic Analysis using Spark bas...
 
What's new in Hadoop Common and HDFS
What's new in Hadoop Common and HDFS What's new in Hadoop Common and HDFS
What's new in Hadoop Common and HDFS
 
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
Real-World Machine Learning - Leverage the Features of MapR Converged Data Pl...
 
Using Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch dataUsing Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch data
 
Enabling Apache Zeppelin and Spark for Data Science in the Enterprise
Enabling Apache Zeppelin and Spark for Data Science in the EnterpriseEnabling Apache Zeppelin and Spark for Data Science in the Enterprise
Enabling Apache Zeppelin and Spark for Data Science in the Enterprise
 
Moving towards enterprise ready Hadoop clusters on the cloud
Moving towards enterprise ready Hadoop clusters on the cloudMoving towards enterprise ready Hadoop clusters on the cloud
Moving towards enterprise ready Hadoop clusters on the cloud
 
Why is my Hadoop cluster slow?
Why is my Hadoop cluster slow?Why is my Hadoop cluster slow?
Why is my Hadoop cluster slow?
 
Security and Data Governance using Apache Ranger and Apache Atlas
Security and Data Governance using Apache Ranger and Apache AtlasSecurity and Data Governance using Apache Ranger and Apache Atlas
Security and Data Governance using Apache Ranger and Apache Atlas
 
Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.
 
The real world use of Big Data to change business
The real world use of Big Data to change businessThe real world use of Big Data to change business
The real world use of Big Data to change business
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
Hadoop in the Cloud – The What, Why and How from the Experts
Hadoop in the Cloud – The What, Why and How from the ExpertsHadoop in the Cloud – The What, Why and How from the Experts
Hadoop in the Cloud – The What, Why and How from the Experts
 
LLAP: Sub-Second Analytical Queries in Hive
LLAP: Sub-Second Analytical Queries in HiveLLAP: Sub-Second Analytical Queries in Hive
LLAP: Sub-Second Analytical Queries in Hive
 
Protecting Enterprise Data In Apache Hadoop
Protecting Enterprise Data In Apache HadoopProtecting Enterprise Data In Apache Hadoop
Protecting Enterprise Data In Apache Hadoop
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
 
Path to 400M Members: LinkedIn’s Data Powered Journey
Path to 400M Members: LinkedIn’s Data Powered JourneyPath to 400M Members: LinkedIn’s Data Powered Journey
Path to 400M Members: LinkedIn’s Data Powered Journey
 
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big dataInvestment in Yahoo! JAPAN's dataplatform and business growth by big data
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
 
Evolving HDFS to a Generalized Distributed Storage Subsystem
Evolving HDFS to a Generalized Distributed Storage SubsystemEvolving HDFS to a Generalized Distributed Storage Subsystem
Evolving HDFS to a Generalized Distributed Storage Subsystem
 
Apache NiFi 1.0 in Nutshell
Apache NiFi 1.0 in NutshellApache NiFi 1.0 in Nutshell
Apache NiFi 1.0 in Nutshell
 

Similar a Case study of online machine learning for display advertising in Yahoo! JAPAN

ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方
Chiaki Hatanaka
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
Shigeru Kishikawa
 
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート
Daichi Morifuji
 

Similar a Case study of online machine learning for display advertising in Yahoo! JAPAN (20)

ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート
 
World ia day
World ia dayWorld ia day
World ia day
 
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
Kinesis→Redshift連携を、KCLからFirehoseに切り替えたお話
 
20141107 図書館総合展 ユニバーサルナレッジ_講演資料
20141107 図書館総合展 ユニバーサルナレッジ_講演資料20141107 図書館総合展 ユニバーサルナレッジ_講演資料
20141107 図書館総合展 ユニバーサルナレッジ_講演資料
 
Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ
 
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...
 
How to use IMDJ
How to use IMDJHow to use IMDJ
How to use IMDJ
 
爆速機械学習サービス応用:実践編#yjdsw1
爆速機械学習サービス応用:実践編#yjdsw1爆速機械学習サービス応用:実践編#yjdsw1
爆速機械学習サービス応用:実践編#yjdsw1
 
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
 
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxチームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
 
日本財団/CANPAN様とSurveyMonkeyの共同セミナー
日本財団/CANPAN様とSurveyMonkeyの共同セミナー日本財団/CANPAN様とSurveyMonkeyの共同セミナー
日本財団/CANPAN様とSurveyMonkeyの共同セミナー
 
kintone Cafe 新潟 Vol.3
kintone Cafe 新潟 Vol.3kintone Cafe 新潟 Vol.3
kintone Cafe 新潟 Vol.3
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
20120609 ローカリゼーションマップ
20120609 ローカリゼーションマップ20120609 ローカリゼーションマップ
20120609 ローカリゼーションマップ
 
超高速開発の基礎概念 20141119 0
超高速開発の基礎概念 20141119 0超高速開発の基礎概念 20141119 0
超高速開発の基礎概念 20141119 0
 
アジャイルソフトウェア開発の道具箱
アジャイルソフトウェア開発の道具箱アジャイルソフトウェア開発の道具箱
アジャイルソフトウェア開発の道具箱
 

Más de DataWorks Summit/Hadoop Summit

How Hadoop Makes the Natixis Pack More Efficient
How Hadoop Makes the Natixis Pack More Efficient How Hadoop Makes the Natixis Pack More Efficient
How Hadoop Makes the Natixis Pack More Efficient
DataWorks Summit/Hadoop Summit
 
Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
Breaking the 1 Million OPS/SEC Barrier in HOPS HadoopBreaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
DataWorks Summit/Hadoop Summit
 

Más de DataWorks Summit/Hadoop Summit (20)

Running Apache Spark & Apache Zeppelin in Production
Running Apache Spark & Apache Zeppelin in ProductionRunning Apache Spark & Apache Zeppelin in Production
Running Apache Spark & Apache Zeppelin in Production
 
State of Security: Apache Spark & Apache Zeppelin
State of Security: Apache Spark & Apache ZeppelinState of Security: Apache Spark & Apache Zeppelin
State of Security: Apache Spark & Apache Zeppelin
 
Unleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache RangerUnleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache Ranger
 
Enabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science PlatformEnabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science Platform
 
Revolutionize Text Mining with Spark and Zeppelin
Revolutionize Text Mining with Spark and ZeppelinRevolutionize Text Mining with Spark and Zeppelin
Revolutionize Text Mining with Spark and Zeppelin
 
Double Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSenseDouble Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSense
 
Hadoop Crash Course
Hadoop Crash CourseHadoop Crash Course
Hadoop Crash Course
 
Data Science Crash Course
Data Science Crash CourseData Science Crash Course
Data Science Crash Course
 
Apache Spark Crash Course
Apache Spark Crash CourseApache Spark Crash Course
Apache Spark Crash Course
 
Dataflow with Apache NiFi
Dataflow with Apache NiFiDataflow with Apache NiFi
Dataflow with Apache NiFi
 
Schema Registry - Set you Data Free
Schema Registry - Set you Data FreeSchema Registry - Set you Data Free
Schema Registry - Set you Data Free
 
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
 
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
 
Mool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and MLMool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and ML
 
How Hadoop Makes the Natixis Pack More Efficient
How Hadoop Makes the Natixis Pack More Efficient How Hadoop Makes the Natixis Pack More Efficient
How Hadoop Makes the Natixis Pack More Efficient
 
HBase in Practice
HBase in Practice HBase in Practice
HBase in Practice
 
The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)
 
Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
Breaking the 1 Million OPS/SEC Barrier in HOPS HadoopBreaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
 
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
 
Backup and Disaster Recovery in Hadoop
Backup and Disaster Recovery in Hadoop Backup and Disaster Recovery in Hadoop
Backup and Disaster Recovery in Hadoop
 

Último

Último (7)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

Case study of online machine learning for display advertising in Yahoo! JAPAN