2. La veille des réseaux sociaux donne-t-elle les
résultats ambitieux dont les fournisseurs nous
font la promotion?
La réponse dépend en grande partie de la capacité de pondération des
résultats d’analyse versus les veilles qu’offrent les solutions et systèmes
en place.
Abécédaire de l’exploration des médias sociaux
Comme le confirment entre autres les rapports que publie régulièrement
Altimeter Group, la plateforme de veille de Forrester, de nombreuses
études ainsi que la prolifération de compagnies offrant des services de
veille des médias sociaux, nous pouvons certainement assumer que nous
n’en sommes plus à nous demander si la surveillance des conversations
sur le Web présente un certain intérêt ou est carrément une nécessité.
Essentiellement, les données sur cette pratique illustrent avec éloquence
la prévalence actuelle du Web et des médias sociaux :
…nous n’en sommes Wikipédia – plus de 3,5 millions de sujets en anglais seulement
plus à nous demander YouTube – plus de 100 millions de vidéos
Blogues – plus de 150 millions
si la surveillance des
Twitter – plus de 175 millions d’utilisateurs
conversations sur le
Sites Web – plus de 250 millions
Web présente un Facebook – plus de 500 millions d’utilisateurs
certain intérêt ou est Internautes – approximativement 2 milliards
carrément une
nécessité. Toute organisation qui souhaite s’engager plus directement auprès de
ses clients, membres, constituants ou de communautés ou groupes
politiques peut le faire avec succès par l’entremise de l’extraction de
concepts et d’opinions clés relevés dans les conversations et discussions
sur les différents réseaux sociaux du Web. Ceci peut être accompli en
suivant le processus suivant:
Il faut tout d’abord rassembler les données déjà existantes sur le Web,
séparer le contenu médiocre ou sans intérêt de l’information vraiment
pertinente. Il s’agit ensuite de réussir à en extraire les concepts et les
opinions clés et d’établir le plus efficacement possible si l’information
ainsi collectée requiert ou non un appel à l’action. Enfin, il vous faut
relayer l’appel à l’action en temps opportun au service, à la division ou à
la ressource qui pourra en tirer le plus parti.
2
3. C’est dans cette perspective que les attentes du marché ont évolué et ce
qui explique pourquoi de plus en plus de produits de veille des médias
sociaux ont fait leur apparition.
Voici les principales caractéristiques auxquelles on s’attend de tels
produits :
Gestion centralisée et globale des marques, de la concurrence et
des marqueurs de sujets
En plus des exigences Restriction par langue et par pays
ci-dessus, le produit Sources détaillées : plusieurs outils n’explorent pas toutes les
doit permettre sources et éliminent des micromessages (« tweets »)
d’éplucher cette Tableaux de bord avec indicateurs clés de succès ainsi que des
filtres et options de comparaison (mentions, portée, part de
montagne de
voix, etc.)
commentaires pour Analyse des sentiments, information sur la démographie, lorsque
en extraire cela est possible, établissement des internautes les plus influents
rapidement les et des sujets importants
propos en lien direct Listes filtrables des contributions avec information sur le nombre
et le profil des utilisateurs, etc.
avec le sujet abordé
Données sur l’historique permettant des analystes rétrospectives
ou les problématiques
Automatisation des processus et interfaces pragmatiques pour
décelées … . les systèmes de gestion des relations-clients existants
Options d’engagement direct
Alertes courriel (en particulier dans un contexte de gestion de
crise)
En plus des exigences ci-dessus, le produit doit permettre d’éplucher
cette montagne de commentaires pour en extraire rapidement les
propos en lien direct avec le sujet abordé ou les problématiques
décelées afin d’en générer des appels à l’action pertinents et spécifiques
à chacun des problèmes ainsi relevés. Réussir à explorer cette grande
quantité de données est essentiel, mais les méthodes d’extraction de
l’information pertinente peuvent varier considérablement. En ce sens, il
est essentiel de porter une attention particulière au moment du
traitement de données à tout contenu qui requiert une analyse
qualitative, notamment celui extrait de codes sources libres qui peut
parvenir de pourriels, être de nature choquante ou provenir de jeux.
3
4. Examen approfondi des sources
L’établissement des principaux domaines ou site Web qui d’après une
compagnie ou une organisation peut générer des interactions
pertinentes permettra d’assurer que le contenu analysé est vraiment
utile. Ce contenu peut provenir des sites de critiques, des communautés
en ligne ou des forums qui sont hébergés par la compagnie en question,
des nouvelles d’intérêt général, des blogues, des forums techniques
(lorsque cela s’applique) et bien sûr, des réseaux sociaux et des
microblogues les plus pertinents, même si ceux-ci peuvent requérir
avant l’analyse, un filtrage de contenu afin d’éliminer les pourriels et les
contenus de nature choquante.
Pertinence du contenu
Tout se résumera aux résultats de recherche. Quel que soit l’angle
duquel vous examinerez le problème, l’extraction des données que vous
souhaitez analyser exigera la formulation d’une requête ou d’une série
de requêtes afin d’en retirer l’information pertinente. En fin de compte,
la valeur de votre analyse sera étroitement liée à celle des données que
…l’analyse des
vous aurez analysées. Si le moteur de recherche et les modèles
sentiments doit d’évaluation de la pertinence sous-jacents ne sont pas parfaits, votre
s’appuyer sur une analyse en souffrira considérablement et par conséquent, il sera difficile
série d’étapes d’évaluer la fiabilité des constats ou au mieux de déterminer quels
préalables qui sont renseignements pourront être suivis d’actions.
difficiles à accomplir
sans certaines marges
Fiabilité de l’analyse de sentiments
d’erreur.
De très bonnes raisons expliquent pourquoi une analyse des sentiments
vraiment précise est encore difficilement réalisable. Comme il s’agit d’un
exercice de traitement du langage naturel, l’analyse des sentiments doit
s’appuyer sur une série d’étapes préalables qui sont difficiles à accomplir
sans certaines marges d’erreur. De plus, lorsque vous progressez d’une
étape à l’autre, vous devez conjuguer avec des marges d’erreur
composées. Ces principales étapes sont :
Établissement du langage du texte qui doit être analysé
Élimination des paragraphes passe-partout et du bruit inutile, et
extraction de la structure des articles de discussion, des
commentaires et blogues émanant des vrais utilisateurs
4
5. Établissement (lorsque cela s’applique) des paragraphes et
phrases à extraire dans une structure donnée
Séparation des phrases en concepts individuels
Établissement des catégories grammaticales et composantes de
phrase, entre autres le groupe sujet, les syntagmes nominaux,
les adjectifs, verbes, adverbes, etc.
Établissement des caractéristiques stylistiques telles que la
Contrairement à la ponctuation
plupart des fournisseurs Extraction et repérage des concepts clés (analyse sémantique
qui offrent des produits de par opposition à l’extraction de simples mots-clés)
veille des médias sociaux, Établissement des marqueurs de sentiments ou d’émotions
Semeon propose une Segmentation du texte devant être analysé en catégories
approche de traitement du correspondant aux repères les plus importants et pertinents sur
langage naturel qui le plan sémantique
combine l’analyse Classement des phrases par sentiment
sémantique basée sur les
dictionnaires spécifiques à
l’industrie aux
algorithmes
d’apprentissage Analyse et veille des médias sociaux de Semeon
automatique […] Contrairement à la plupart des fournisseurs qui offrent des produits de
veille des médias sociaux, Semeon propose une approche de traitement
du langage naturel qui combine l’analyse sémantique basée sur les
dictionnaires spécifiques à l’industrie aux algorithmes d’apprentissage
automatique, ce qui permet d’établir la signification des données et des
résultats ainsi mis en contexte. Nous sommes d’avis que c’est la seule
façon de permettre à nos clients de procéder à une exploration fiable
des données en fonction de concepts clés et d’ainsi répondre à leurs
nombreux besoins en matière d’extraction d’opinions. Plus important
encore, l’approche de Semeon permet de réduire le temps consacré à
l’analyse des données dans le but d’en tirer des conclusions fiables et de
l’information actionnable. Plusieurs solutions d’extraction d’opinions et
de veille des médias sociaux offerte sur le marché sont efficaces pour
recueillir des données et effectuer la surveillance des occurrences des
mots-clés (noms de marque, noms de produit, etc.). Toutefois, avec ces
solutions, l’utilisateur final doit encore effectuer manuellement l’analyse
d’une montagne de données et tenter ensuite de comprendre quels
seraient les appels à l’action appropriés à diffuser au sein de leur
organisation.
5
6. Productivité et traitement
La plateforme d’analyse et de veille des médias sociaux de Semeon a été
conçue et développée non seulement pour permettre aux utilisateurs de
recueillir des données, mais aussi pour les aider à réduire le nombre
d’heures coûteuses qu’ils doivent consacrer à la phase plus complexe,
celle de l’analyse de ces données. La solution de Semeon peut vraiment
aider les utilisateurs à extraire des constats concrets de l’analyse des
commentaires émis au sujet de leurs produits ou de leurs services. Elle
leur permet de surveiller l’impact de leurs récentes activités en relations
La plateforme d’analyse et publiques et de leurs campagnes de marketing, et d’ensuite mettre en
de veille des réseaux place des tactiques d’intervention pour redresser les perceptions si leur
entreprise ou leurs produits font l’objet de critiques négatives en ligne.
sociaux de Semeon a été
La plateforme d’analyse et de veille des réseaux sociaux de Semeon
conçue et développée non effectue une série de fonctions qui rendent possible l’extraction des
seulement pour permettre concepts les plus importants contenus dans les commentaires des
aux utilisateurs de utilisateurs. Pour établir une concordance entre les commentaires des
recueillir des données, utilisateurs et un document, il faut:
mais aussi pour les aider à Établir avec précision la langue des commentaires lorsque les
réduire le nombre données proviennent de codes sources libres.
d’heures coûteuses qu’ils Éliminer les paragraphes passe-partout des textes recueillis sur
doivent consacrer à la le Web et en extraire uniquement la portion qui a été rédigée
par un utilisateur.
phase plus complexe, celle
Établir quelle est la structure du document afin de pouvoir
de l’analyse de ces séparer les paragraphes et plus important encore, de pouvoir
données. déterminer les fins des phrases dans un paragraphe.
Segmenter les phrases (séparation des phrases en mots).
Procéder à une analyse syntaxique partielle et à l’établissement
des parties du discours (établissement des catégories
grammaticales telles le groupe sujet, les syntagmes nominaux,
les adjectifs, verbes, adverbes, etc.).
Établir quelles sont les caractéristiques stylistiques (titres, format
du texte, accentuation au moyen de la ponctuation, etc.).
Déterminer le descripteur sémantique de chaque document
Déterminer le sentiment associé à chaque phrase.
Établir quels sont les liens importants entre les métadonnées
sémantiques et les métadonnées des sentiments.
Le résultat final de toutes ces étapes est un ensemble de phrases bien
claires qui constituent des occurrences de commentaires d’utilisateurs
6
7. pertinentes en regard des concepts, entités et sentiments recherchés et
qui ont été extraites aux fins d’une analyse plus approfondie à l’aide de
notre produit d’analyse et de veille des réseaux sociaux. De plus,
lorsqu’elles sont disponibles, des métadonnées additionnelles associées
Le résultat final de aux commentaires d’utilisateurs sont stockées selon les paramètres
toutes ces étapes est un suivants :
ensemble de phrases
Langue
bien claires qui Étiquette indiquant la date et l’heure
constituent des Source des commentaires des utilisateurs (une URL par exemple)
occurrences de Identification de l’utilisateur (par exemple, un surnom sur un
commentaires blogue ou dans un forum)
d’utilisateurs Données démographiques sur les utilisateurs (provenant des
pertinentes en regard sources du contenu extrait par l’entreprise uniquement et non
du Web, sinon l’information sera au mieux très sommaire)
des concepts, entités et
sentiments recherchés
et qui ont été extraites L’établissement des concepts clés, entités nommées et marqueurs
aux fins d’une analyse d’émotions se fait à l’aide d’une combinaison de techniques
d’apprentissage automatique exclusives, non supervisées et
plus approfondie ….
semisupervisées, qui permettent d’optimiser la classification des phrases
en catégories de la plus grande précision possible. L’attribution
subséquente d’un marqueur de sentiment à chaque phrase se fait
également au moyen d’algorithmes d’apprentissage automatique
exclusifs. L’élagage successif des concepts basé sur la pertinence des
commentaires des clients eux-mêmes ainsi que le filtrage de sujets en
lien avec un secteur d’activité donné ou ses sous-secteurs basés sur des
dictionnaires spécialisés contribueront à assurer que seuls les sujets les
plus pertinents émergeront et seront accompagnés d’une évaluation du
degré d’émotivité des utilisateurs au moment où ils ont écrit leurs
commentaires.
La valeur est dans les constats, pas dans l’exploration comme
telle
Pourquoi se donner tant de peine quand on pourrait tout simplement
limiter nos efforts à établir des modèles de mots-clés à partir des flux de
commentaires émis sur les médias sociaux ? Grâce aux étapes décrites
précédemment, le modèle d’évaluation de la pertinence de Semeon est
7
8. celui qui est le plus adéquat pour le traitement de l’information
provenant des dialogues textes et qui peut fournir aux clients les blocs
de renseignements les plus intéressants à partir des commentaires des
utilisateurs.
L’application de notre modèle d’évaluation, qui est d’une grande
pertinence et efficacité pour l’établissement des paramètres des études
des commentaires, permet aux clients d’effectuer une analyse
préliminaire des commentaires des utilisateurs en regard des concepts
L’application de notre clés, entités nommées et sentiments. Les clients ont ainsi l’assurance
modèle d’évaluation, qui d’extraire l’information qui est la plus utile et la plus pertinente à l’égard
du ou des sujets qui font l’objet de leur étude. Ils peuvent ainsi obtenir
est d’une grande
une série de commentaires provenant des utilisateurs la plus complète
pertinence et efficacité et la plus pertinente possible et avoir l’assurance que les constats qu’ils
pour l’établissement des en tireront seront d’un plus grand intérêt et d’une grande utilité.
paramètres des études des
commentaires, permet aux
clients d’effectuer une Catégories, concepts et entités
analyse préliminaire des Le système procède à l’extraction de l’information au moyen d’un
commentaires des nombre de calculs préliminaires réalisés pour établir des liens entre les
utilisateurs en regard des concepts clés, les noms de personnes, les noms des organisations et les
concepts clés, entités sentiments correspondants. Les plus pertinents des éléments ci-
mentionnés sont étiquetés comme catégories afin qu’ils puissent servir
nommées et sentiments.
de guides aux clients au cours des étapes d’analyse. Ces catégories font
ensuite l’objet d’une référence croisée dans le but d’établir le contexte,
ce qui facilite la formulation de constats, notamment :
Qui sont les principaux contributeurs ?
Qui détient l’expertise ?
Quel est le sentiment qui déterminera si un commentaire
constitue une plainte ou fait l’éloge du sujet en question ?
La figure 1 démontre comment les catégories les plus pertinentes sont
présentées en lien avec les termes ou concepts qui décrivent pourquoi
elles sont positives ou négatives et spécifient ce qui fait l’objet de
louanges ou de critiques. La figure 2 comprend la ventilation des
utilisateurs par catégorie afin de fournir une indication claire des idées et
concepts émis par chaque utilisateur, la fréquence de leurs articles de
8
9. discussion ou commentaires, ainsi qu’une récente distribution d’un
sentiment.
Figure 1 : Catégories mises dans un contexte négatif ou positif
9
10. Figure 2 : Catégories ayant fait l’objet d’une référence croisée avec les
internautes influents
Conclusion : ne vous contentez pas d’un système de veille
La capacité de mettre en contexte les sujets évoqués est une
fonctionnalité essentielle, qui est possible grâce au traitement du
langage naturel détaillé qu’offre maintenant la plateforme d’analyse et
Chez Semeon, nous de veille de Semeon. Notre solution permet aux clients de tirer des
conclusions actionnables plus rapidement au lieu de devoir consacrer du
avons développé une
temps à décortiquer des données souvent difficiles à lire ou à
approche dont interpréter, surtout qu’ils sont souvent limités à un suivi de mots-clés
l’objectif est d’aider sans contexte. Chez Semeon, nous avons développé une approche dont
les clients à réduire l’objectif est d’aider les clients à réduire l’étape qui prend le plus de
l’étape qui prend le temps, celle de l’analyse. Nos algorithmes exclusifs desquels dérivent
une évaluation serrée de la pertinence sémantique et la mise en
plus de temps, celle
contexte de toutes les catégories (concepts clés, personnes,
de l’analyse. organisations, etc.) sont conçus pour aider les clients à obtenir des
réponses à leurs questions, établir des constats qui leur échapperaient
autrement et enfin, pour leur permettre d’épargner temps et argent.
Pourquoi donc se contenter d’un outil de veille quand Semeon vous
permet en plus de formuler des constats concrets à partir de l’analyse de
l’ensemble des commentaires des utilisateurs?
10