Comment l’intelligence artificielle transforme le fonctionnement classique des moteurs de recherche.
La compréhension de la requête de l’internaute était le goulot d’étranglement pour améliorer l’expérience de recherche. Par sa compréhension du contexte, du sujet et de la langue, l’intelligence artificielle comprend bien mieux l’intention de recherche de l’internaute.
Impact sur la notion de mot-clé centrale en SEO.
----------------------
Conférence donnée au YOODx Cannes #VEM8 le 18 janvier 2017
Evènement organisé par YOODA.com
2. QUI SUIS-JE ?
Sylvain Peyronnet
Chef et fondateur @ ix-labs
Directeur scientifique @ Qwant
Chef et fondateur @ La Machine
Prof @ Université de Caen (on leave)
Sylvain Peyronnet - @speyronnet
3. COMMENT MARCHE UN MOTEUR ?
ET D’ABORD, QU’EST CE QUE C’EST ?
Un site dont la vocation est de
renvoyer des résultats pertinents
pour une requête donnée
On parle de requête, mais ce qui compte c’est :
• Le besoin informationnel : sujet sur lequel un
utilisateur veut se renseigner
• Il s’agit d’un état cognitif individuel et caché
Mais alors, comment faire le lien entre requête et besoin informationnel ?
Sylvain Peyronnet - @speyronnet
4. COMMENT MARCHE UN MOTEUR ?
LE SCHÉMA !
Sylvain Peyronnet - @speyronnet
5. COMMENT MARCHE UN MOTEUR ?
LE SCHÉMA !
Sujet d’aujourd’hui
Sylvain Peyronnet - @speyronnet
6. COMPRENDRE UNE REQUÊTE
C’EST PAS FACILE
« l’outil qui permet
de desserrer un
robinet »
« clé de lavabo »
Sylvain Peyronnet - @speyronnet
8. La requête est le goulot d'étranglement pour améliorer
l'expérience de recherche
Problème divers :
• Comment exprimer ce que l'on ne connaît pas ?
• Nombreuses ambiguïtés
• Plusieurs besoins informationnels différents pour une
même requête
• Interprétation du langage naturel
Le moteur va faire du raffinement et de l'expansion de
requête
COMPRENDRE UNE REQUÊTE
C’EST PAS FACILE
Sylvain Peyronnet - @speyronnet
9. COMPRENDRE UNE REQUÊTE
UN TRAVAIL INITIÉ PAR AMIT SINGHAL CHEZ GOOGLE
http://
www.seobythesea.com/
2013/09/google-
hummingbird-patent/
It’s being presented as a query expansion or
broadening approach which can better understand
longer natural language queries
The kind of query where it might potentially work best
upon could be something like [What is the best place
to find and eat Chicago deep dish style pizza?], where
Google might use synonym and substitute query rules
in combination with analyzing other non-skip words
Google might look at the query [What is the best
place to find and eat Chicago deep dish style pizza?],
and understand that a searcher looking for results for
that query would likely be more satisfied with the use
of “restaurant” instead of “place”.
Sylvain Peyronnet - @speyronnet
10. COMPRENDRE UNE REQUÊTE
UN TRAVAIL INITIÉ PAR AMIT SINGHAL CHEZ GOOGLE
Il s’agit d’une
approche basée sur la
co-occurence
Sylvain Peyronnet - @speyronnet
11. COMPRENDRE UNE REQUÊTE
UN CHANGEMENT DE PARADIGME ?
Mais début 2016,Amit Singhal
se retire de Google
Remplacé par John
Giannandrea, fondateur de
metaweb, chief of artificial
intelligence
Sylvain Peyronnet - @speyronnet
13. 15% posent
problème en terme
de compréhension
de la requête
RANKBRAIN
OBJECTIF
3 milliards de
recherche par
jour
L’objectif est de :
• Comprendre l’intention de
celui qui écrit la requête (=le
besoin informationnel)
• Pour cela on reformule la
requête en substituant et
ajoutant des termes
« compatibles » ou
« équivalents »
Sylvain Peyronnet - @speyronnet
15. RANKBRAIN
COMMENT ÇA MARCHE
Greg Corrado - Google
Tous les textes contenus dans l’index sont transformés en vecteurs
Les vecteurs sont corrélés entre eux pour trouver les mots équivalents,
co-occurents, qui se complètent ou incompatibles
Sylvain Peyronnet - @speyronnet
16. RANKBRAIN
COMMENT ÇA MARCHE
La transformation en vecteur s’appelle un « embedding vectoriel » et est
fait grâce à un outil (word2vec) basé sur des réseaux de neurones.
Tomas Mikolov a créé word2vec quand il
était chez Google, il est maintenant chez
Facebook
L’outil permet de savoir quel mot de la langue peut se substituer à un mot
choisi dans une phrase
je suis venu en ?????? mais
quelle galère pour se garer
Sylvain Peyronnet - @speyronnet
17. RANKBRAIN
COMMENT ÇA MARCHE
La transformation en vecteur s’appelle un « embedding vectoriel » et est
fait grâce à un outil (word2vec) basé sur des réseaux de neurones.
Tomas Mikolov a créé word2vec quand il
était chez Google, il est maintenant chez
Facebook
L’outil permet de savoir quels mots de la langue entourent un mot choisi
dans une phrase
Aux USA, j’ai visité *** York, **** park
et la 5eme avenue.
Sylvain Peyronnet - @speyronnet
18. RÉSEAUX DE NEURONES
tiré de wikipedia
Une vision idéalisée des neurones de
notre cerveau
• supervisé si on force l’état final en fonction de l’entrée
• un algo d’entrainement permet de trouver les poids correspondants à des exemples
• notion de rétropropagation : on propage à l’envers une erreur pour modifier les poids
synaptiques qui contribuent le plus à l’erreur (error gradient backpropagation)
• notion de couches
Sylvain Peyronnet - @speyronnet
19. RÉSEAUX DE NEURONES
« L’INTUITION »
Othello, qui a gagné ?
+1 si noir
-1 si blanc
noir
blanc
somme des
poids
somme > 0 ?
noir si somme > 0
blanc si somme < 0
nul sinon
Sylvain Peyronnet - @speyronnet
20. MODÈLE DU CERVEAU
inspiré du principe de fonctionnement d’un cerveau : il n’y a pas un bloc
de masse cérébrale qui fait tout le traitement d’une tache, mais au
contraire, plusieurs blocs qui vont gérer plusieurs niveaux d’abstraction
La machine a plusieurs niveaux
de lecture de la donnée : les
pixels, les formes, les couleurs,
avant et arrière plan, etc.
Sylvain Peyronnet - @speyronnet
21. RÉSEAUX DE NEURONES
WORD2VEC
2. Apply the model to each word
to get its corresponding vector
(0.12, 0.23, 0.56)
(0.24, 0.65, 0.72)
(0.38, 0.42, 0.12)
(0.57, 0.01, 0.02)
(0.53, 0.68, 0.91)
(0.11, 0.27, 0.45)
(0.01, 0.05, 0.62)
The
Cardinals
will
win
the
world
series
word vector
3. Calculate the vector of sentences
by averaging the vector of their words
(0.12, 0.23, 0.56)
(0.24, 0.65, 0.72)
(0.38, 0.42, 0.12)
(0.57, 0.01, 0.02)
(0.53, 0.68, 0.91)
(0.11, 0.27, 0.45)
(0.01, 0.05, 0.62)
The
Cardinals
will
win
the
world
series
word vector
sentence vector
(0.28, 0.33, 0.49)
• Un modèle pour remplacer le cosinus de salon et laTF.IDF
• Apprentissage du contexte : compréhension des mots dans
un contexte, des synonymes, des similarités de sens, etc.
• 2 approches : CBOW (prédire le contenu du « trou ») et
skip-gram (prédire qui sont les voisins)
Sylvain Peyronnet - @speyronnet
22. Le moteur comprend l’intention et la reformule
(personnalisation)
Gros problème : annulation de la puissance du mot-clé
unique
• Il faut travailler sur des familles de mots-clés en
association
• Le reste du travail est le même, mais sur une famille de
requêtes
SEO
QUE FAIRE ?
Sylvain Peyronnet - @speyronnet
23. SEO
QUE FAIRE ?
requête q
corpus sur la
thématique de q
compter les
documents avec
les termes de q
repérer les
termes co-
occurrents
créer la famille de
requêtes
Sylvain Peyronnet - @speyronnet
24. SEO
QUE FAIRE ?
requête q
corpus sur la
thématique de q
compter les
documents avec
les termes de q
repérer les
termes co-
occurrents
créer la famille de
requêtes
Ou utiliser un
outil comme
yourtext.guru
Sylvain Peyronnet - @speyronnet
25. corpus sur la
thématique de q
requête q
SEO
QUE FAIRE ?
compter les
documents avec
les termes de q
repérer les
termes co-
occurrents
créer la famille de
requêtes
Ou utiliser un
outil comme
yourtext.guru
Sylvain Peyronnet - @speyronnet
PREMIUM
11
TOP TERMESTOP TERMES
faire du paddle a Cannesfaire du paddle a Cannes
FRANÇAISFRANÇAIS
paddlepaddle
standstand
kayakkayak
activitesactivites
locationlocation
capcap
fairefaire
activiteactivite
azurazur
sportssports
journeejournee
ilesiles
plageplage
lerinslerins
evasionevasion
sportsport
equipeequipe
materielmateriel
grammes1
yourtext.guru @ Your Text Guru 2017 22
ENTITÉS NOMMÉESENTITÉS NOMMÉES
stand paddlestand paddle
iles lerinsiles lerins
cap antibescap antibes
alpes maritimesalpes maritimes
kayak standkayak stand
cannes paddlerscannes paddlers
paddle cannespaddle cannes
baie cannesbaie cannes
cannes standcannes stand
sports nautiquessports nautiques
aqua sportaqua sport
sport evasionsport evasion
standup paddle
triathlon mers
diplome etat
jet ski
cannes standup
jean louis
grammes2
kayak stand paddlekayak stand paddle
location stand paddlelocation stand paddle
cannes stand paddlecannes stand paddle
stand paddle cannesstand paddle cannes
iles lerins kayakiles lerins kayak
saint jean capsaint jean cap
jean cap ferratjean cap ferrat
activite stand paddleactivite stand paddle
lac saint cassienlac saint cassien
aqua sport evasionaqua sport evasion
louez stand paddle
cannes iles lerins
sorties stand paddle
stand paddle location
plage moure rouge
provence alpes azur
antibes saint jean
lerins cap antibes
iles lerins cap
grammes3
antibesantibes
cannescannes
moure rougemoure rouge
palm beachpalm beach
lyonlyon
googlegoogle
frejusfrejus
bicbic
cannes standupcannes standup
paddlepaddle
villefranchevillefranche
grassegrasse
26. Y A -T-IL RÉELLEMENT UNE
RÉVOLUTION EN ROUTE ?
Non
D’ailleurs, existe
probablement sous
le nom de ranknet
chez bing
Sylvain Peyronnet - @speyronnet
28. VOIR LES AUTRES CONFERENCES
L’utilisateur au cœur de la stratégie éditoriale
Eve Demange (Web content strategist, fondatrice de Plume Interactive)
Les outils de l’UX pour connaître les utilisateurs
MC Casal (Stratège de l’eXpérience Utilisateur, agence Relax In the Air)
Les outils du SEARCH pour connaître les utilisateurs
Jean-François Loup (Consultant SEO/SEA) et Romain Bellet (Président YOODA)
eTourisme : un site et des contenus pour générer de l’enthousiasme
François Houste (Directeur Conseil Plan.Net)
Comment créer des expériences personnalisées pour ses visiteurs
Grégoire Thomas (Directeur marketing Kameleoon)
Optimiser la conversion
Nicolas Jardillier (Consultant technique en optimisation de la conversion)
Google RankBrain, l’IA du search
Sylvain Peyronnet (Docteur en informatique et dirigeant de ix-labs)
VOIR SUR SLIDESHARE
Une journée organisée par YOODA.com