Moteurs de recherche et Lucene at LorraineJUG

Moteurs de Recherche
Lucene, Solr et Elasticsearch en
Action
@LucianPrecup
@LorraineJUG
2012-11-29

Objectif
• Patterns d’architecture
• Outils pour démarrer et exploiter au mieux les
technologies
• Solr
– Accent sur l’indexation
• ElasticSearch
– Accent sur la recherche
• Démonstrations

Historique - avant
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Browse
Filter
Sort
Get

Historique - après
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Index
Search
Filter
Sort
Get

Moteurs de recherche – valeur ajoutée
pour les applications d’entreprise
• Expérience utilisateur / Ergonomie de
l’application
– Navigation « à la Google »
– Accès quasi-direct à la donnée recherchée
– Navigation par facettes
– Pagination disponible « out of the box »
– Performances maximisées impliquant une
fluidité accrue des applications
– Suggestions (auto-complétion) des termes à
rechercher
• Fonctionnalités de recherche sémantique très
puissantes
– Recherche approximative, recherche
phonétique, correction grammaticale et
d’orthographe, gestion des mots techniques, des
synonymes et des mots composés
• Plus rapide que les approches SQL traditionnels

Fonctionnalités
• Indexation
– Données non-structurées (fichiers)
– Données semi-structurées (email)
– Analyse du texte
• Recherche
– Fulltext, multicritère, suggestion
– Facettes, filtres, tris
– Sémantique

Pagination gérée par le moteurPagination gérée par le moteur
Navigation par facettes
- Calculées avec les
résultats de recherche
- Filtres de recherche à
renseigner apostériori
Navigation par facettes
- Calculées avec les
- Filtres de recherche à
renseigner apostériori
Auto-complétion
(suggestions de
résultats)
Surbrillance gérée par le
moteur
Auto-complétion
(suggestions de
résultats)
Surbrillance gérée par le
moteur
Recherche rapide
« full-text »
Recherche rapide
« full-text »
Nombre total
des
résultats
Nombre total
des
résultats
Tri sur l’ensemble
des résultats (pas
seulement page
en cours)
Tri sur l’ensemble
des résultats (pas
seulement page
en cours)
Résultats affichés
sous la forme de
« mini-fiches »
Résultats affichés
sous la forme de
« mini-fiches »
Recherche approximative et
suggestions d’orthographe
Recherche approximative et
suggestions d’orthographe
Accès aux recherches
multicritères
Accès aux recherches
multicritères

NoSQL et Moteurs de Recherche –
alternative aux SGBDs classiques
Synchronisatio
n temps réel
Synchronisatio
n temps réel
Alternative aux outils BI
traditionnels
-La navigation par facettes
-Les statistiques sur les champs
-Le regroupement automatique
des résultats de recherche
Alternative aux outils BI
traditionnels
-La navigation par facettes
-Les statistiques sur les champs
-Le regroupement automatique
des résultats de recherche
Facettes simples ou
complexes calculées en
même temps que les
Facettes simples ou
complexes calculées en
même temps que les
Certaines requêtes (ex.
ORDER BY, GROUP BY ou
LIKE) iront plus vite
Certaines requêtes (ex.
ORDER BY, GROUP BY ou
LIKE) iront plus vite
Utilisation du moteur à
la place ou en
complément de la base
de données
Utilisation du moteur à
la place ou en
complément de la base
de données

Technologies
• Google Search Appliance
• MS FAST Search
• ...
• Open Search Server
• Apache Solr
• Elasticsearch

Open Search Server
• Startup française, produit conçu et développé en France
• Solution complète intégrant
– crawlers (JDBC, CIFS/SAMBA, FTP, FTPS, Dropbox, web)
– parseurs (documents riches, images, video, sons, OCR)
– indexation (analyseurs, lemmatisation, thesaurus, identification
d'entité nommée, classification automatique)
– requêtes (recherche full text, filtrage et facette,
jointures, cluster, correction orthographique)
– scheduler
– API (Rest/XML, Rest/Json, SOAP)
– interface utilisateur RIA
• Noyau
– Lucene pour la version 1.3
– C (via JNA) pour la prochaine version 2.0

Intégration Solr (v3)
• Clustering : répartiteur de charge et redondance des SA
• Indexation en masse : dizaine de millions de documents
• Fonctions avancées d’analyse du texte

Démo Solr – alimenter l’index
• Importer une BD
• Join
• Entités et référencement avec ${parent.ID}
• GROUP_CONCAT
• Indexer des fichiers binaires (Word, Excel, PDF)

Types de champs dans l’index
• stored / not_stored
• analyzed / not_analyzed
• Champs de recherche
• Champs de tri
• Champs pour l’affichage
• Champs pour les facettes
• Champs mixtes

Démo Solr – auto-complétion

Analyzers / Tokenizers / Token filters
Document entrée 
Indexation Recherche
Id Nom
1 Céline
Ascii folding  Celine
Lowercase  celine
EdgeNGram  ce cel celi celin celine
Clé Id document
ce 1
cel 1
celi 1
celin 1
celine 1
Index
 Terme recherché
Nom
Celin
Celin  Ascii folding
celin  Lowercase

Analyzers / Tokenizers / Token filters
Documents entrée 
Indexation Recherche
Id Nom
1 Céline
2 Celia
Ascii folding  Celine, Celia
Lowercase  celine, celia
EdgeNGram  ce cel celi celin celine
ce cel celi celia
Clé Id document
ce 1, 2
cel 1, 2
celi 1, 2
celin 1
celine 1
celia 2
Index
 Terme recherché
Nom
Célin
Celin  Ascii folding
celin  Lowercase
ce cel celi celin  EdgeNGram

Solr – zoom sur les outils
• Luke
• Explain
• Solr Admin (stats, query form, analysis)
• Solr browse search UI

Elasticsearch - spécificités
• Clustering
• Schéma auto
• Rivers et indexation en temps réel
• Percolation

Intégration – Elasticsearch

Elasticsearch – zoom sur les outils
• curl
• ESHead
• "explain" : 1

Démo – Pertinence
• Comment est calculé le score
• Comment influencer le score

Démo - recherche
• Analyse à la recherche, requêtes composés
• Highlighting
• Fuzzy
• Facettes
• Filtres

Use case métier
• E-commerce
– Beaucoup de critères de pertinence métier à implémenter
• Ressources humaines
– Recherche de personnes
– Recherche full-texte (catalogues formation, CVs, compétences)
• Poste de travail
– Modèle métier complexe
– Indexation temps réel
• Portail intranet
– Hétérogénéité des sources données: annuaires, wikis, fichiers,
applications
• Internet
– Pertinence du premier résultat. Ex. : « I’m feeling lucky » de Google,
Siri, LeMoteur.fr

Moteurs de recherche et Lucene at LorraineJUG

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (17)

Similar a Moteurs de recherche et Lucene at LorraineJUG

Similar a Moteurs de recherche et Lucene at LorraineJUG (20)

Más de Lucian Precup

Más de Lucian Precup (9)

Moteurs de recherche et Lucene at LorraineJUG

Notas del editor