June Spark meetup : search as recommandation

•

3 recomendaciones•9,809 vistas

Recherche full-text et recommandation, deux mondes à part? Nous verrons qu’il est possible de marier Lucene (Elastic Search/Solr) et filtrage collaboratif afin de produire un système de recommandation flexible et scalable. Cela passera par un aperçu des dernières sorties : la plateforme Confluent (Kafka) ainsi que Mahout 0.10 (avec Samsara).

Tecnología

Search as
recommendation
Avec les technologies de nos jours!
Bertrand
Dechoux
Jeudi
11 Juin
2015
Spark
User
Group

Bertrand Dechoux
@BertrandDechoux
FROM DATA TO SALES
Réseaux Bayésiens
Inspiré de faits réels

Ce que nous allons voir
• search vs recommandation
• reco full-text (ElasticSearch)
• 11 avril 2015 => Mahout 0.10 (samsara)
• 25 février 2015 => Conﬂuent 1.0

Recherche ou recommandation ?
classiﬁcation binaire ou système de tri
=> precision / recall / DCG …
factorisation de matrices
=> minimisation des écarts mis au carré

Il était une fois…
Hadoop
Lucene
1999
2005
Elastic
Search
Solr
2004
2010

1/3 : Stockage du Comportement
Application
Web
Historique
récent
temporaire
Historique
complet
permanent
Moteur
recherche
full-text
utilisateur
$ !
Analyse de
similarité

2/3 : Analyse en batch
Application
Web
Historique
récent
temporaire
Historique
complet
permanent
Moteur
recherche
full-text
utilisateur
Analyse de
similarité
$

3/3 : Reco full-text
Application
Web
Historique
récent
temporaire
Historique
complet
permanent
Moteur
recherche
full-text
utilisateur
$ ?
Analyse de
similarité

ES : données
curl -XPUT 'http://localhost:9200/search/item/1' -d ‘{

"name" : “spark", "languages" : "scala java python” }’

curl -XPUT 'http://localhost:9200/search/item/2' -d ‘{

"name" : “gatling", "languages" : “scala" }’

curl -XPUT 'http://localhost:9200/search/item/3' -d ‘{

"name" : “scikit-learn“, "languages" : "python” }'

$ES : recherche curl -XGET 'http://localhost:9200/search/item/_search?q=scala' [{"_score":0.19178301, "_source":{ "name" : "gatling", "languages" : "scala"}}, {"_score":0.15342641, "_source":{ "name" : "spark", "languages" : "scala java python" }}]$

ES : recommendation
{
"name" : “product1",
"description" : “a long description of this product",
"similar" : “product2 product4 product7”,
"category" : “categoryA”
}

0.10 : Samsara
• “25 avril 2014 - Goodbye MapReduce”
• “11 avril 2015 - Samsara”
• inspiré de R, aidé par Scala
• cross-platform (Spark, H2O, Flink?, Ignite?, …)
• “Hive pour math” (Dmitriy Lyubimov)

0.10 : spark-itemsimilarity
• nouvelle version utilisant Spark
• et DistributedRowMatrix
• supporte seulement LogLikelihoodRatio (LLR)
• “Surprise and coincidence” (Ted Dunning)
• entrées et sorties en format text

0.10 : spark-itemsimilarity
Item
1
item
2
item
3
item
4
item
5
item
6 ...
user
1
user
2
user
3
user
4
user
5
user
6
...

0.10 : spark-itemsimilarity
mahout spark-itemsimilarity -i input -o output
2 paramètres à retenir :
• --omitStrength
• --maxSimilaritiesPerItem

Backbone specs
• scalable (performance)
• cross-tech
• structuré
• cohérence
• sécurisé

Conﬂuent : Kafka platform
• Kafka
• + REST server
• + Schema Registry (avro comme standard)
• + Camus

En savoir plus
Pat Ferrel : http://occamsmachete.com/ml/
http://conﬂuent.io/
https://mahout.apache.org/users/algorithms/intro-
cooccurrence-spark.html

Et toi, que fais tu?
Sur LinkedIn : https://goo.gl/1mi0Me

Más contenido relacionado

La actualidad más candente

Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Ippon

DataStax et Apache Cassandra pour la gestion des flux IoTVictor Coustenoble

Deep Learning on Apache Spark: TensorFrames & Deep Learning Pipelines Databricks

Tirer le meilleur de ses données avec ElasticSearchSéven Le Mesle

Spark tools by Jonathan WinandyParis Data Engineers !

Explorez vos données avec apache zeppelinBruno Bonnin

DataStax et Cassandra dans Azure au Microsoft TechdaysVictor Coustenoble

GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...AZUG FR

Spark - Ippevent 19-02-2015Alexis Seigneurin

Delta Lake, un vernis pour parquetAlban Phélip

Tunis big data_meetup__21_nov2015__aymenzaafouriAymen ZAAFOURI

Spark SQL principes et fonctionsMICHRAFY MUSTAFA

DataStax Enterprise - La plateforme de base de données pour le CloudVictor Coustenoble

Quelles stratégies de Recherche avec Cassandra ?Victor Coustenoble

[JSS2015] Azure SQL Data Warehouse - Azure Data LakeGUSS

A la recherche d'ElasticSearchNinnir

Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)Jean-Pierre Riehl

Usi 2013 - NoSql les defis à releverDjamel Zouaoui

Solr and Elasticsearch in Action (at Breizhcamp)Lucian Precup

SQL Saturday Paris 2015 - PolybaseRomain Casteres

La actualidad más candente (20)

Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014

DataStax et Apache Cassandra pour la gestion des flux IoT

Deep Learning on Apache Spark: TensorFrames & Deep Learning Pipelines

Tirer le meilleur de ses données avec ElasticSearch

Spark tools by Jonathan Winandy

Explorez vos données avec apache zeppelin

DataStax et Cassandra dans Azure au Microsoft Techdays

GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...

Spark - Ippevent 19-02-2015

Delta Lake, un vernis pour parquet

Tunis big data_meetup__21_nov2015__aymenzaafouri

Spark SQL principes et fonctions

DataStax Enterprise - La plateforme de base de données pour le Cloud

Quelles stratégies de Recherche avec Cassandra ?

[JSS2015] Azure SQL Data Warehouse - Azure Data Lake

A la recherche d'ElasticSearch

Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)

Usi 2013 - NoSql les defis à relever

Solr and Elasticsearch in Action (at Breizhcamp)

SQL Saturday Paris 2015 - Polybase

Similar a June Spark meetup : search as recommandation

Elasticsearch - Devoxx France 2012David Pilato

Presentation Lucene / Solr / Datafari - Nantes JUGfrancelabs

Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014francelabs

Geneva jug Lucene Solr francelabs

Marseille JUG Novembre 2013 Lucene Solr France Labsfrancelabs

SPARQL-Generate, présentation SemWeb.Pro 2019Maxime Lefrançois

Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearchfrancelabs

Normandy JUG - ElasticsearchDavid Pilato

Offre SearchSmile I.T is open

Système de recommandations de filmsIbn Tofail University

Show de boucane pour ELKFrançois Belleau

Quand Koha rencontre Primo - « Une API comédie »Julien Sicot

Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...pwod

Elastic Workplace Search : la recherche ultra performanteElasticsearch

Solr + Hadoop - Fouillez facilement dans votre système Big Datafrancelabs

Mise en place d’un moteur de recherche et de recommandation de documents text...AbdeslamAMRANE3

Rendez vos objets connectés intelligents avec la "Lambda architecture"Microsoft Décideurs IT

Rendez vos objets connectés intelligents avec la "Lambda architecture"Microsoft Technet France

ABES - intervention congrès Semweb pro (5-11-2014)ABES

Du web sémantique à tous les étagesSemWebPro

Similar a June Spark meetup : search as recommandation (20)

Elasticsearch - Devoxx France 2012

Presentation Lucene / Solr / Datafari - Nantes JUG

Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014

Geneva jug Lucene Solr

Marseille JUG Novembre 2013 Lucene Solr France Labs

SPARQL-Generate, présentation SemWeb.Pro 2019

Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch

Normandy JUG - Elasticsearch

Offre Search

Système de recommandations de films

Show de boucane pour ELK

Quand Koha rencontre Primo - « Une API comédie »

Contribuer à schema.org - Retour d’expérience : extension ELI pour les lois ...

Elastic Workplace Search : la recherche ultra performante

Solr + Hadoop - Fouillez facilement dans votre système Big Data

Mise en place d’un moteur de recherche et de recommandation de documents text...

Rendez vos objets connectés intelligents avec la "Lambda architecture"

ABES - intervention congrès Semweb pro (5-11-2014)

Du web sémantique à tous les étages

Más de Modern Data Stack France

Stash - Data FinOPSModern Data Stack France

Vue d'ensemble DremioModern Data Stack France

From Data Warehouse to LakehouseModern Data Stack France

Talend spark meetup 03042017 - Paris Spark MeetupModern Data Stack France

Paris Spark Meetup - Trifacta - 03_04_2017Modern Data Stack France

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Modern Data Stack France

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...Modern Data Stack France

Hadoop France meetup Feb2016 : recommendations with sparkModern Data Stack France

Hugfr SPARK & RIAK -20160114_hug_franceModern Data Stack France

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)Modern Data Stack France

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Modern Data Stack France

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015Modern Data Stack France

Spark dataframeModern Data Stack France

Spark ML par Xebia (Spark Meetup du 11/06/2015)Modern Data Stack France

Spark meetup at viadeoModern Data Stack France

Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXModern Data Stack France

The Cascading (big) data application frameworkModern Data Stack France

Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Modern Data Stack France

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...Modern Data Stack France

Más de Modern Data Stack France (20)

Stash - Data FinOPS

Vue d'ensemble Dremio

From Data Warehouse to Lakehouse

Talend spark meetup 03042017 - Paris Spark Meetup

Paris Spark Meetup - Trifacta - 03_04_2017

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...

Hadoop France meetup Feb2016 : recommendations with spark

Hugfr SPARK & RIAK -20160114_hug_france

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015

Spark dataframe

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Spark meetup at viadeo

Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX

The Cascading (big) data application framework

Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS...

June Spark meetup : search as recommandation

1. Search as recommendation Avec les technologies de nos jours! Bertrand Dechoux Jeudi 11 Juin 2015 Spark User Group

2. Bertrand Dechoux @BertrandDechoux FROM DATA TO SALES Réseaux Bayésiens Inspiré de faits réels

3. Ce que nous allons voir • search vs recommandation • reco full-text (ElasticSearch) • 11 avril 2015 => Mahout 0.10 (samsara) • 25 février 2015 => Conﬂuent 1.0

4. Recherche ou recommandation ?

5. Recherche ou recommandation ? classiﬁcation binaire ou système de tri => precision / recall / DCG … factorisation de matrices => minimisation des écarts mis au carré

6. Il était une fois… Hadoop Lucene 1999 2005 Elastic Search Solr 2004 2010

7. 1/3 : Stockage du Comportement Application Web Historique récent temporaire Historique complet permanent Moteur recherche full-text utilisateur $ ! Analyse de similarité

8. 2/3 : Analyse en batch Application Web Historique récent temporaire Historique complet permanent Moteur recherche full-text utilisateur Analyse de similarité $

9. 3/3 : Reco full-text Application Web Historique récent temporaire Historique complet permanent Moteur recherche full-text utilisateur $ ? Analyse de similarité

10. Ce que nous allons voir • search vs recommandation • reco full-text (ElasticSearch) • 11 avril 2015 => Mahout 0.10 (samsara) • 25 février 2015 => Conﬂuent 1.0

11. ES : données curl -XPUT 'http://localhost:9200/search/item/1' -d ‘{ "name" : “spark", "languages" : "scala java python” }’ curl -XPUT 'http://localhost:9200/search/item/2' -d ‘{ "name" : “gatling", "languages" : “scala" }’ curl -XPUT 'http://localhost:9200/search/item/3' -d ‘{ "name" : “scikit-learn“, "languages" : "python” }'

12. ES : recherche curl -XGET 'http://localhost:9200/search/item/_search?q=scala' [{"_score":0.19178301, "_source":{ "name" : "gatling", "languages" : "scala"}}, {"_score":0.15342641, "_source":{ "name" : "spark", "languages" : "scala java python" }}]

13. ES : recommendation { "name" : “product1", "description" : “a long description of this product", "similar" : “product2 product4 product7”, "category" : “categoryA” }

14. Ce que nous allons voir • search vs recommandation • reco full-text (ElasticSearch) • 11 avril 2015 => Mahout 0.10 (samsara) • 25 février 2015 => Conﬂuent 1.0

15. 0.10 : Samsara • “25 avril 2014 - Goodbye MapReduce” • “11 avril 2015 - Samsara” • inspiré de R, aidé par Scala • cross-platform (Spark, H2O, Flink?, Ignite?, …) • “Hive pour math” (Dmitriy Lyubimov)

16. 0.10 : spark-itemsimilarity • nouvelle version utilisant Spark • et DistributedRowMatrix • supporte seulement LogLikelihoodRatio (LLR) • “Surprise and coincidence” (Ted Dunning) • entrées et sorties en format text

17. 0.10 : spark-itemsimilarity Item 1 item 2 item 3 item 4 item 5 item 6 ... user 1 user 2 user 3 user 4 user 5 user 6 ...

18. 0.10 : spark-itemsimilarity mahout spark-itemsimilarity -i input -o output 2 paramètres à retenir : • --omitStrength • --maxSimilaritiesPerItem

19. Ce que nous allons voir • search vs recommandation • reco full-text (ElasticSearch) • 11 avril 2015 => Mahout 0.10 (samsara) • 25 février 2015 => Conﬂuent 1.0

20. Backbone specs • scalable (performance) • cross-tech • structuré • cohérence • sécurisé

21. Conﬂuent : Kafka platform • Kafka • + REST server • + Schema Registry (avro comme standard) • + Camus

22. En savoir plus Pat Ferrel : http://occamsmachete.com/ml/ http://conﬂuent.io/ https://mahout.apache.org/users/algorithms/intro- cooccurrence-spark.html

23. Et toi, que fais tu? Sur LinkedIn : https://goo.gl/1mi0Me

June Spark meetup : search as recommandation

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a June Spark meetup : search as recommandation

Similar a June Spark meetup : search as recommandation (20)

Más de Modern Data Stack France

Más de Modern Data Stack France (20)

June Spark meetup : search as recommandation