SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
海外カンファレンス報告
ランキング学習の現状
カムエラ ラウ (Kamuela Lau)
1
自己紹介
• ロンウイットに2017年12月入社
• LTR4L において LTR のアルゴリズムを実装
• ブログ
• https://jp.kamulau.com 

(English: en.kamulau.com)
• ツイッター: @kamu_lau
2
Agenda
• 海外カンファレンス
• Spark AI Summit Europe 2018
• Activate Search & AI
• LTR の現状
• リコメンデーション改善:Elsevier
• オートコンプリート:The Home Depot
• 検索改善:Bloomberg
3
Spark + AI Summit Europe 2018
4
Activate
5
LTR フレームワークのイメージ
学習データ
クエリa
Doc-a1
Doc-a2
Doc-a3
:
ランキング
・・・
クエリb
Doc-b1
Doc-b2
Doc-b3
:
ランキング
クエリN
Doc-N1
Doc-N2
Doc-N3
:
ランキング
モデルの学習
モ デ
ル
ランキング
システム
クエリX
Doc-X1’
Doc-X2’
Doc-X3’
:
ランキング
推定値
クエリX
Doc-X(0)
Doc-X(1)
Doc-X(2)
:
ランキング?
モデル
6
LTR ユースケースその①
7
LTR ユースケースその①
Elsevier
• Elsevier
• 医学・科学技術関係を中心とす
る世界最大規模の出版社
• ScienceDirect
• 1500万論文・記事
• 月数百万のユーザ
• 論文のリコメンデーション
改善にLTR を利用
Learning to Rank with Apache
Spark: A Case Study in Production
Machine Learning
8
LTR ユースケースその①
ScienceDirect のリコメンデーションエンジン
9
LTR ユースケースその①
LTR を利用するシステム
データ
前処理
(ダウンロード・
閲覧回数)
IBCF モデル
LTR
リランク
データ
前処理
(Popularity, Subject,
Text など)
訓練データ
(リコメンドの
クリック数)
LTR モデル
10
LTR ユースケースその①
協調フィルタリング(Collaborative Filtering, CF)
• Memory-based

Similarity (Cosine 距離など) で似たユーザ、またはアイテムを見つける
• User-based (User-item)
• “あなたへのおすすめ商品”
• Item-based (Item-item)
• “この商品を買った人はこんな商品を買っています”
• Model-based

機械学習を用いてCF モデルを構築
11
LTR ユースケースその①
IBCF のメリット、デメリット
メリット
• ダウンロード・閲覧履歴の
み使用
• 論文内容やユーザの個人
情報は不要
デメリット
• スパースデータの場合は
IBCF の精度が落ちる
• 圧倒的に人気のある論文が
勧められてしまうことがあ
る
12
LTR ユースケースその①
LTR を用いてリコメンデーションをリランク
• IBCF スコア
• 人気度
• テキスト
データ
前処理
(リコメンドの

クリック数)
訓練データ LTR モデル
• カテゴリ・サブジェクト
• 時間・日にちなどのデータ
• リコメンデーションによるア
クセス
論文についてのデータが沢山ある
13
LTR ユースケースその①
結果
• Offline (NDCG など) のモデル評価
• Online (A/B testing)による評価
• ユーザアクティビティを様々な手法で測定
• 全手法において 7∼10% 増加
14
LTR ユースケースその②
15
LTR ユースケースその②
The Home Depot
• The Home Depot
• アメリカに本社を置く住宅
リフォーム・建設資材・サー
ビスの小売チェーンである*
• ウェブサイトの検索語のオー
トコンプリート機能 (Type
Ahead Service)の改善に
LTR を利用
Apply Learning to Rank
in The Home Depot
Type Ahead Service
* Wikipedia より抜粋
16
LTR ユースケースその②
The Home Depot の Type Ahead Service
17
LTR ユースケースその②
LTR を利用するシステム
Click
Stream
Data
訓練データ
XGBoost
モデル
Lucene
インデックス
リランクさ
れた結果
データの
前処理
学習 リランク
18
LTR ユースケースその②
訓練データの構造
• 入力された文字、時間な
どの情報をクエリとする
• 検索語候補のリストが文
書リスト
• 正解はクリックデータに
基づく
19
LTR ユースケースその③
20
LTR ユースケースその③
Bloomberg
• Bloomberg
• 経済・金融情報の配信、通信
社・放送事業を手がけるアメ
リカ合衆国の大手総合情報サー
ビス会社。*
• 情報端末、Bloomberg ニュース
• 検索改善に LTR を利用
(News)
* Wikipedia より抜粋
21
LTR ユースケースその③
LTR を利用したシステム
クエリ インデックス 上位 k件
Commodities
News
People
など
訓練データ モデル
リランクされた
上位 k件
人手でラベル付与 学習
22
LTR ユースケースその③
LTR のデプロイまでの過程と結果
• 期待の結果を確認後、パフォーマンス向上
• ユーザの1割にたいして LTR モデルをデプロイ(試用)
• 異常がないことを確認後、全てのユーザに LTR モデルを
デプロイ
• 同時にウェブサイトの変更があったため、変化の測定が
難しかった
23
まとめ
• LTR は様々なユースケースがある
• リコメンデーションエンジンの改善
• オートコンプリートの改善
• 検索の改善
• など
24
ご静聴ありがとうございました
参考資料
• Spark + AI Summit Europe: https://databricks.com/sparkaisummit/europe/schedule
• Activate 2018: https://activate-conf.com/agenda/
• Learning to Rank with Apache Spark: A Case Study in Production Machine Learning with Adam Davidson and Anna Bladzich
• 資料と動画: https://databricks.com/session/learning-to-rank-with-apache-spark-a-case-study-in-production-machine-
learning
• Learning to Rank: From Theory to Production
• 資料: https://www.slideshare.net/lucidworks/learning-to-rank-from-theory-to-production-malvina-josephidou-diego-
ceccarelli-bloomberg
• 概要: https://sched.co/FkM6
• Apply Learning to Rank in The Home Depot Type Ahead Service
• 概要: https://sched.co/FkMQ
その他
• エンジニア・コンサルタント募集中
25

Más contenido relacionado

Similar a Learningtorank meetup-vol3-pt2

Similar a Learningtorank meetup-vol3-pt2 (12)

IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0
 
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
 
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
 
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Drupalを活用した Linked Open Dataの実践的試行環境の構築Drupalを活用した Linked Open Dataの実践的試行環境の構築
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
 
「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
How to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using RHow to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using R
 

Último

Último (7)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

Learningtorank meetup-vol3-pt2