Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch

Besoin de rien envie de Search
OLIVIER TAVARD
FRANCE LABS
TELECOM VALLEY TECH CONF SEARCH
31/05/16

L’importance business du search
Exemple du eCommerce
• 96% des visiteurs d’un site de e-commerce considèrent l’utilisation d’un moteur de
recherche interne comme faisant partie de leur processus d’achat.
• 73% des visiteurs d’un site d’eCommerce quittent le site au bout de deux minutes s’ils ne
trouvent pas ce qu’ils cherchent
Exemple enterprise search
• Un ingénieur passe 9h par semaine à chercher des documents (source: IDC)

Rappel ((très) rapide)
Un moteur de recherche estun outil qui permet:
• De créerun index à partir de documents
Index

Un moteur de recherche estun outil qui permet:
• De créerun index à partir de documents
• D’effectuerdes recherches dans cet index
Index

Index
coquilles
saint
Jacques
….
Document Requête
coquilles saint jacques
Coquilles saint-jacques
coquilles saint jacques
Coquilles SaintJacques
Analyser Analyser
Indexation Requête
Match!

Fonctionnalités de Search: trouver en – de 2 min
Facettes:
Permet au
client d’affiner
sa recherche, et
de trouver son
produit en
moins de 2
minutes.

Facettes: des
types variés et
configurables:
Catégorie
Fenêtre de prix
Couleur
Taille…

Autocompletion:
Permet de guider le client
lors de sa requête

Fonctionnalités de Search: suggérer des achats
Suggestions:
Propose des
alternatives

Fonctionnalités de Search: Moteur de recommandations
Recommandations:
• Ex: CarrierBuilder
• Génère des suggestions de postes suivant un profil utilisateur

Fonctionnalités de Search: Analyse des logs

Fonctionnalités de Search: Géolocalisation

Recoder son moteur de recherche ? Non !
Pourquoi ne pas le faire soi-même avec une bonne vieille requête sql ?
Moteur de recherche :
• Résultats scorés
• Optimisé pour récupérer un doc à partir de son contenu
• Non relationnel, structure non fixe
• Possibilités d’utiliser des fonctionnalités spécifiques au search

Les technos de recherche open source les plus connues
Apache Lucene
Apache Solr
ElasticSearch

Lucene ?
Créé en 2000 par Doug Cutting. Version actuelle: Lucene 6.0.1 (Mai 2016)
Projet de la fondationApache depuis 2001
Librairie de recherche full-text
Rapide, fiable, customisable, flexible
100 % java (pas de dépendences)

Solr ?
Lucene « embarqué » dans une webapp
Moteur de recherche full text scalable
Créé en 2004 par YonikSeeley à CENT Networks
En 2010, fusion des projets Lucene : tous les deux sous la fondationApache
Version Actuelle : Solr 6.0.1 (Mai 2016)

ElasticSearch ?
Basé sur Lucene
Moteur de recherche full text orienté analytics scalable
Elasticsearch a été créé par Shay Banon en 2004
Licence Apache 2.0
Version actuelle : 2.3.3 (Mai 2016)

Moteur de recherche et Big Data
Scalabilité
Haute disponibilité
Consistance
Simplicité
Elasticité

Moteur de recherche et Big Data – Les shards
Sharding :
• Un shard est un morceau d’index
• Une recherche distribuée se fait sur tous les shards (donc l’index complet)
• Utile pour gérerun gros index
Shard3
Queries
Shard1 Shard2
Aggregated
queries
Subqueries

Moteur de recherche et Big Data :
Leaders/Replicas
Leaders etreplicaspour la réplication:
• Pas de « maître/esclave » mais des « leaders/replicas » (un replica peut devenir un
leader)
• Un leaderet ses replicas contiennent le même shard
• Utile pour gérerune grosse charge de requêtes et pour la haute disponibilité
Leader
Shard 1
Replica
2 Shard
2
Replica
1 Shard 1
Load Balancer
Queries Queries Queries

Moteur de recherche et Big Data
Illustration
On veutrépartirl’index sur 2 shards
On veutun réplica par shard
D’où 4 machines
INDEX

Différences Solr et ElasticSearch
• 95% des fonctionnalités en commun
• Quelques différences :
• ElasticSearch
• Percolator
• Elastic s’oriente vers Analytics
• Outils ES puissants mais peuventêtre payants : Kibana, LogStash, Marvel, Shield…
• Solr
• Historiquement : focus sur fonctionnalités, cloud après
• Cross data center replication Solr 6
• Outils Solr : équivalents de ceux d’ES peuventêtre moins complets mais en licence Apache : console
admin, LogStash for Solr, Banana…

C’est l’heure du quiz
Quelle est la version actuelle de Lucene/Solr ?
• A) 2.3.3
• B) 42
• C) 6.0.1
Répondez vite en tweetant sur @TechConfQuiz

Ecosytème - Crawler
Roles:
• Connection au système externe
• Crawl des données
• Gère les autorisations
• Early Binding
• Late Binding

Roles:
• Push or pull mode
• Extraction du contenu (Tika)
• Crawling normal ou delta
• Attention à l’impactsur le système crawlé
• Throttling
• Scheduling

DifferentsCrawlers
• Aperture
• File, Web
• Nutch
• Web
• DIH
• DB, XML
• Beats
• LogStash
Framework
• Apache Manifold CF

Scénario de moteur de recherche fédéré :
• 1ère source : crawl de fichiers avecautorisation
• Environnement :
• File Share Windows
• Active Directory
• 2e source de données : crawl d’un CMS interne
• Phase de recherche fédérée enrespectant les autorisations

Scénario de moteur de recherche pour l’indexation de logs:
• Parsing de fichiers de logs avec LogStash
• Indexation dans ElasticSearch
• Visualisation avec Kibana

Use cases
Solr
• BOX:
• Index de 10 To
• 10 Mds docs
• 100 M requêtes / jour
• Documents bureautique
ElasticSearch
• Verizon
• 500 milliards docs
• Logs

CONTACT
N’hésitez pas à nous contacter pour toute demande
d’information
Notre site web : www.francelabs.com
Email: contact@francelabs.com
Tél: 09 72 43 72 85
Fax: 09 72 29 28 14
Adresse:
France Labs
CEEI – Nice Premium
1 boulevard Maître Maurice Slama
06200 Nice, France
Twitter: francelabs

Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch

Similar a Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch (20)

Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch