SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
Séminaire DIXIT - Les nouvelles frontières de la « data intelligence » :
content analytics, machine-learning, prédictif
13 avril 2015
LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE
Expérience informationnelle et exploitation analytique des données :
comment aller au-delà des discours très généraux sur les données
massives et le machine learning ?
Odile Quesnel - Responsable ArgusLab
ARGUS DE LA PRESSE 2LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
L’ARGUS, SES SERVICES & SON TERRAIN DE JEU
ARGUS DE LA PRESSE 3LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
DEVELOPPEMENT
&
ANTICIPATION
VEILLE
STRATEGIQUE
ANALYSE
STRATEGIQUE
CONTACT
STRATEGIQUE
REPUTATION
&
INFLUENCE
VEILLE
MEDIA
ANALYSE
MEDIA
ENGAGEMENT
MEDIA
ARGUS DE LA PRESSE
ENJEUX & EXPERTISES
ARGUS DE LA PRESSE 4LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
SOCIAL MEDIA & TERRITOIRES DE L’INFORMATION
• Un monde en permanence « augmenté »
• le data exhaust bouscule les processus de production
et d’accès aux contenus
Dans ce contexte de données massives les cloisonnements
traditionnels tombent
Les décideurs attendent des réponses de la part des professionnels de l’information, de la
communication comme du marketing
Apprécier les contenus nécessite de passer par du cross-media
ARGUS DE LA PRESSE 5LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
UN PEU DE THEORIE
ARGUS DE LA PRESSE 6LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
DE QUOI PARLE-T-ON ?
Jordan Awan
ARGUS DE LA PRESSE 7LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
• S’agit-il de prédire un prix, ou une catégorie ?
• Souhaite-t-on un apprentissage au fil de l’eau ou statique ?
• Quelles variables cibles souhaite-ton prédire au moyen de quelles variables prédictives ?
• A-t-on par avance une idée du type de relation qui lie les variables prédictives à la variable cible ?
=> Plusieurs types d'algorithmes ML à choisir et à appliquer en fonction de l'objectif et du type de données
D’après Melanie Warrick
MAIS ENCORE ?
Ce qui manque par la connaissance « objective » et
un modèle explicatif nous le chercherons par les
données
S’il n’y a pas d’algorithme idéal nous avons des
données pour apprendre
Le Machine Learning a donc pour objectif d’élaborer et d’optimiser des algorithmes pour optimiser des processus
d’apprentissage et concevoir des modèles prédictifs.
ARGUS DE LA PRESSE 8LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
Apprentissage supervisé
• Anticiper la gestion des stations de vélos en libre
accès sachant que ….
• Eviter d’être pollué par des messages publicitaires
sachant que …
La classification consiste à identifier les classes
d'appartenance de nouveaux objets à partir
d'exemples antérieurs connus
La régression prédit les valeurs possibles d'une ou
plusieurs variables à partir des anciennes valeurs
relevées
Apprendre d’une relation , la phase
d’apprentissage consiste à trouver les bonnes
questions à poser pour catégoriser correctement
un ensemble
Généraliser à partir de ce qu'on connaît déjà
Apprentissage non supervisé
• Répartir un ensemble de prospects en niches
quand on ignore la segmentation du marché
• Prévoir quels seront les clients potentiels pour
un produit, à partir des données d’achat de
déplacement
• des données qui peuvent se classer dans un
trop grand nombre de catégories.
Découvrir des structures cachées dans les
données plutôt que de « généraliser » à partir
d’un corpus exemple.
Il ne s’agit pas de « profiler » complètement les
processus
Si les corrélations n’expliquent pas tout, elles
aident à détecter certains motifs ou
régularités.
APPRENDRE ?
Construire des systèmes autonomes que l’on pourra « éduquer » sur la base d’un corpus d’exemples
pertinents pré existant ou que le système fera émerger
ARGUS DE LA PRESSE 9LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
http://www.ted.com/talks/fei_fei_li_how_we_re_teachin
g_computers_to_understand_pictures#t-477527
NOS MACHINES LES PLUS INTELLIGENTES SONT TOUJOURS AVEUGLES
Modèles de réseaux neuronaux :
le laboratoire d’IA de Stanford dirigé par
Fei Fei Li a créé un logiciel capable de
reconnaître des scènes fixes photographiés
et de les décrire en langage naturel .
Projet de catégorisation en
crowdsourcing
ARGUS DE LA PRESSE 10LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
Que dit l’ordinateur quand il
voit une image
OU COMMENT ENSEIGNER AUX MACHINES A COMPRENDRE UNE PHOTO
La machine a appris comme un enfant de 0 à 3 ans,
Le défi suivant est d’aller de 3 à 13 ans
Elle fait des erreurs
ARGUS DE LA PRESSE 11LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
ALGORITHMES ET MACHINE LEARNING A L’ARGUS
DE LA THEORIE A L’ACTION
ARGUS DE LA PRESSE 12LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
8 500 Publications Presse France &
International
270 Radios et TV
10 500 Sites Internet éditoriaux
France & International
60 000 contacts et influenceurs
médias & sociaux
Web social : blogs & réseaux sociaux
Web corporate & Institutionnel
QUELLES ROUTES TRACER ?
Des contenus hétérogènes dans leur forme et leur langage
Des données structurées et qualifiées
Des données à extraire pour donner du sens
• Vision à 360 de son marché
• Connaître les évolutions et les tendances
• Identifier les menaces & opportunités
• Détecter & analyser les leviers de croissance
• Détecter de nouveaux prospects
• Détection et suivi des signaux d’alertes
……..
Un territoire complexe et mouvant
Un monde à révéler
Apprendre à partir des jeux de données
Identifier des schémas via l’exploration
Des données correctement préparées & des
stratégies soigneusement considérées
Des outils et des méthodologies qui mobilisent :
• Traitement automatique de la langue
• Modèles algorithmiques et apprentissage
automatique
• Content analytics
De multiples destinations
ARGUS DE LA PRESSE 13LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
Lever les contraintes
de format
Des contenus cross
media et des données
intelligibles
Des données enrichies et
contextualisées
Systèmes de
représentation et de
navigation pour
exploiter contenus et
connaissance
extraite en contexte
UNE CHAÎNE DE VALEUR POUR DES SPHÈRES D’USAGES MULTIPLES
Data scientist
Linguiste
Développeur
Chief Data Officer
Architecte
Linguiste - Mathématicien
ARGUS DE LA PRESSE 14LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
LEVER LES CONTRAINTES DE FORMAT
OCR - Reconnaissance automatique de
caractères
• Comparer sur un corpus de formes connues
• Retenir les formes les plus proches
• Traiter sur méthodes linguistiques et
contextuelles pour réduire le nombre
d'erreurs de reconnaissance
Reconnaissance automatique de la parole
Hypothèse de transcription avec une mesure de confiance
sur des modèles de langue et acoustiques
D’après Pascale Sébillot Inria
ARGUS DE LA PRESSE 15LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
DES DONNEES INTELLIGIBLES & ENRICHIES
Extraction de relations
Apprentissage d’un classificateur classant chaque
phrase avec au moins deux EN et un déclencheur
=> relation / pas de relation
=> relation positive ou négative
Catégorisation des contenus textuels
Classificateur de texte par l’apprentissage, à
partir d’une série des documents pré-
classifiés ou de caractéristiques de
catégories d’intérêts
L’’algorithme ventile dans des classes
différenciées et ce sur la base du critère de
similarité entre documents
Analyse de sentiments
Apprentissage de l’orientation sémantique des
mots ou des expressions
Un mot a un contexte qui contribue au sens
Signaux forts et faibles
Algorithme de « régression linéaire
Comptages de présence d’information sur des
périodes => montrer une tendance constatée.
Une dimension prédictive => faire intervenir
d’autres variables comme la durée de la
tendance sur les périodes passées, le nombre
de médias qui en parlent, etc.
ARGUS DE LA PRESSE 16LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT
Valoriser le contenu
Aider à la décision
Exploiter la mesure
Tendances
Aider au repérage
“Prendre ce que l’on a et le faire parler”
Produire de la valeur
sur le contenu :
Mesure
Indicateurs
Proposer des endroits à écouter
Etudier viralité
Cartographier relations et
interactions cross media
Rechercher
DES FONCTIONS ADAPTÉES A CHAQUE SPHÈRE D’USAGE
Comprendre la propagation d’une information, les processus de
contamination - Explorer dans une multitude de signaux
=> Des modèles existants et de nouveaux modèles à construire
• Dans des formes variées de trajectoires de notoriété.
discriminer ce qui relève de la « contagion » et ce qui ressort
des différentes formes d’éditorialisation cross media
Faire émerger une histoire pertinente
Découverte de faits intéressants
Mise en évidence de tendances cachées
=> D’une histoire complexe à un
graphique interactif, personnalisable
Merci pour votre attention
odile.quesnel@argus-presse.fr

Más contenido relacionado

Destacado

Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tousDamien Seguy
 
Scikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en PythonScikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en PythonMicrosoft
 
Utilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamUtilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamMicrosoft Décideurs IT
 
Data science a machine learning tour (french)
Data science a machine learning tour (french)Data science a machine learning tour (french)
Data science a machine learning tour (french)Franck Bardol
 
E learning v2008 nouveaux-cours
E learning v2008 nouveaux-coursE learning v2008 nouveaux-cours
E learning v2008 nouveaux-courswalandrea
 
Yrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisYrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisGuillaume Kpotufe
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
 
Le futur n'est plus ce qu'il était
Le futur n'est plus ce qu'il étaitLe futur n'est plus ce qu'il était
Le futur n'est plus ce qu'il étaitFrederic Kaplan
 
Machine learning
Machine learningMachine learning
Machine learningebiznext
 
Machine Learning - Spark / MLlib
Machine Learning - Spark / MLlibMachine Learning - Spark / MLlib
Machine Learning - Spark / MLlibebiznext
 

Destacado (12)

Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tous
 
Scikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en PythonScikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en Python
 
Utilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamUtilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de Spam
 
Data science a machine learning tour (french)
Data science a machine learning tour (french)Data science a machine learning tour (french)
Data science a machine learning tour (french)
 
XebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learningXebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learning
 
E learning v2008 nouveaux-cours
E learning v2008 nouveaux-coursE learning v2008 nouveaux-cours
E learning v2008 nouveaux-cours
 
Yrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisYrecommender, machine learning sur Hybris
Yrecommender, machine learning sur Hybris
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Le futur n'est plus ce qu'il était
Le futur n'est plus ce qu'il étaitLe futur n'est plus ce qu'il était
Le futur n'est plus ce qu'il était
 
Démystification du Machine Learning
Démystification du Machine LearningDémystification du Machine Learning
Démystification du Machine Learning
 
Machine learning
Machine learningMachine learning
Machine learning
 
Machine Learning - Spark / MLlib
Machine Learning - Spark / MLlibMachine Learning - Spark / MLlib
Machine Learning - Spark / MLlib
 

Similar a Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse

Analyser le contexte des personnes dans les réseaux sociaux
Analyser le contexte des personnes dans les réseaux sociauxAnalyser le contexte des personnes dans les réseaux sociaux
Analyser le contexte des personnes dans les réseaux sociauxTakfarinas KENOUCHE
 
L’évolution du métier de veilleur
L’évolution du métier de veilleur L’évolution du métier de veilleur
L’évolution du métier de veilleur Camille A
 
Quels enjeux pour la veille de demain ?
Quels enjeux pour la veille de demain ?Quels enjeux pour la veille de demain ?
Quels enjeux pour la veille de demain ?Camille A
 
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IAParlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IABigBrain Evolution
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Cartographie de l'information.pptx
Cartographie de l'information.pptxCartographie de l'information.pptx
Cartographie de l'information.pptxHajar Bouchriha
 
Alexandre Serres : Veille et évaluation de l'information
Alexandre Serres : Veille et évaluation de l'informationAlexandre Serres : Veille et évaluation de l'information
Alexandre Serres : Veille et évaluation de l'informationDocumentation Rouen
 
12 preao-pergaud stg
12 preao-pergaud stg12 preao-pergaud stg
12 preao-pergaud stgamazonai
 
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuitsIntroduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuitsMokhtar Saada
 
Brochure formation-institut-boostzone-veille-outils-gratuits
Brochure formation-institut-boostzone-veille-outils-gratuitsBrochure formation-institut-boostzone-veille-outils-gratuits
Brochure formation-institut-boostzone-veille-outils-gratuitsBoostzone Institute
 
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...COMPETITIC
 
Intelligence collective dans les environnements numériques : pourquoi et comm...
Intelligence collective dans les environnements numériques : pourquoi et comm...Intelligence collective dans les environnements numériques : pourquoi et comm...
Intelligence collective dans les environnements numériques : pourquoi et comm...Isabelle GUYOT
 
Si km rse
Si km   rseSi km   rse
Si km rsejmbnzc
 
Propos sur les Big Data.pdf
Propos sur les Big Data.pdfPropos sur les Big Data.pdf
Propos sur les Big Data.pdfMichel Bruley
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)Mathieu d'Aquin
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 

Similar a Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse (20)

Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Analyser le contexte des personnes dans les réseaux sociaux
Analyser le contexte des personnes dans les réseaux sociauxAnalyser le contexte des personnes dans les réseaux sociaux
Analyser le contexte des personnes dans les réseaux sociaux
 
L’évolution du métier de veilleur
L’évolution du métier de veilleur L’évolution du métier de veilleur
L’évolution du métier de veilleur
 
Quels enjeux pour la veille de demain ?
Quels enjeux pour la veille de demain ?Quels enjeux pour la veille de demain ?
Quels enjeux pour la veille de demain ?
 
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IAParlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Cartographie de l'information.pptx
Cartographie de l'information.pptxCartographie de l'information.pptx
Cartographie de l'information.pptx
 
Alexandre Serres : Veille et évaluation de l'information
Alexandre Serres : Veille et évaluation de l'informationAlexandre Serres : Veille et évaluation de l'information
Alexandre Serres : Veille et évaluation de l'information
 
12 preao-pergaud stg
12 preao-pergaud stg12 preao-pergaud stg
12 preao-pergaud stg
 
Présentation d'Atelier Open data 2014
Présentation d'Atelier Open data 2014Présentation d'Atelier Open data 2014
Présentation d'Atelier Open data 2014
 
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuitsIntroduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
Introduction mettre-en-place-un-systeme-de-veille-avec-des-outils-gratuits
 
Brochure formation-institut-boostzone-veille-outils-gratuits
Brochure formation-institut-boostzone-veille-outils-gratuitsBrochure formation-institut-boostzone-veille-outils-gratuits
Brochure formation-institut-boostzone-veille-outils-gratuits
 
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
2011 05 26 Anticipez les évolutions de votre environnement pour adapter votre...
 
Intelligence collective dans les environnements numériques : pourquoi et comm...
Intelligence collective dans les environnements numériques : pourquoi et comm...Intelligence collective dans les environnements numériques : pourquoi et comm...
Intelligence collective dans les environnements numériques : pourquoi et comm...
 
Si km rse
Si km   rseSi km   rse
Si km rse
 
Propos sur les Big Data.pdf
Propos sur les Big Data.pdfPropos sur les Big Data.pdf
Propos sur les Big Data.pdf
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Ateliers du web/veille - Cantine numérique rennaise
Ateliers du web/veille  - Cantine numérique rennaiseAteliers du web/veille  - Cantine numérique rennaise
Ateliers du web/veille - Cantine numérique rennaise
 
Veille et curation de données - Lyon - 22 janvier 2015
Veille et curation de données - Lyon - 22 janvier 2015Veille et curation de données - Lyon - 22 janvier 2015
Veille et curation de données - Lyon - 22 janvier 2015
 

Más de Le_GFII

KB Crawl SAS : Transformer l'information en Smart Data
KB Crawl SAS : Transformer l'information en Smart DataKB Crawl SAS : Transformer l'information en Smart Data
KB Crawl SAS : Transformer l'information en Smart DataLe_GFII
 
La Centrale des Marchés : des services B2B pour accompagner la croissance des...
La Centrale des Marchés : des services B2B pour accompagner la croissance des...La Centrale des Marchés : des services B2B pour accompagner la croissance des...
La Centrale des Marchés : des services B2B pour accompagner la croissance des...Le_GFII
 
Accessible.net : l'accessibilité pour tous, partout et en un clic
Accessible.net : l'accessibilité pour tous, partout et en un clicAccessible.net : l'accessibilité pour tous, partout et en un clic
Accessible.net : l'accessibilité pour tous, partout et en un clicLe_GFII
 
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Le_GFII
 
CommoPrices : le portail des prix des matières premières
CommoPrices : le portail des prix des matières premièresCommoPrices : le portail des prix des matières premières
CommoPrices : le portail des prix des matières premièresLe_GFII
 
Data citation metrics : best practice to enable new metrics for research data
Data citation metrics : best practice to enable new metrics for research dataData citation metrics : best practice to enable new metrics for research data
Data citation metrics : best practice to enable new metrics for research dataLe_GFII
 
Open Data, Plateformes et Territoires
Open Data, Plateformes et TerritoiresOpen Data, Plateformes et Territoires
Open Data, Plateformes et TerritoiresLe_GFII
 
How to measure the impact of Research ?
How to measure the impact of Research ?How to measure the impact of Research ?
How to measure the impact of Research ?Le_GFII
 
Le new deal de la sémantique
Le new deal de la sémantiqueLe new deal de la sémantique
Le new deal de la sémantiqueLe_GFII
 
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...Le_GFII
 
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...Le_GFII
 
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...Le_GFII
 
Veille stratégique : du portail thématique à la gestion de flux - La démarch...
Veille stratégique : du portail thématique à la gestion de flux -  La démarch...Veille stratégique : du portail thématique à la gestion de flux -  La démarch...
Veille stratégique : du portail thématique à la gestion de flux - La démarch...Le_GFII
 
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...Le_GFII
 
La veille au service de la stratégie de l'Inra
La veille au service de la stratégie de l'InraLa veille au service de la stratégie de l'Inra
La veille au service de la stratégie de l'InraLe_GFII
 
La maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
La maîtrise des risques et l'intelligence économique au CEA - Frédéric MariotteLa maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
La maîtrise des risques et l'intelligence économique au CEA - Frédéric MariotteLe_GFII
 
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Le_GFII
 
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...Le_GFII
 
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...Le_GFII
 
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Le_GFII
 

Más de Le_GFII (20)

KB Crawl SAS : Transformer l'information en Smart Data
KB Crawl SAS : Transformer l'information en Smart DataKB Crawl SAS : Transformer l'information en Smart Data
KB Crawl SAS : Transformer l'information en Smart Data
 
La Centrale des Marchés : des services B2B pour accompagner la croissance des...
La Centrale des Marchés : des services B2B pour accompagner la croissance des...La Centrale des Marchés : des services B2B pour accompagner la croissance des...
La Centrale des Marchés : des services B2B pour accompagner la croissance des...
 
Accessible.net : l'accessibilité pour tous, partout et en un clic
Accessible.net : l'accessibilité pour tous, partout et en un clicAccessible.net : l'accessibilité pour tous, partout et en un clic
Accessible.net : l'accessibilité pour tous, partout et en un clic
 
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...Algorithmes et data-sciences : approches et limites pour le traitement du lan...
Algorithmes et data-sciences : approches et limites pour le traitement du lan...
 
CommoPrices : le portail des prix des matières premières
CommoPrices : le portail des prix des matières premièresCommoPrices : le portail des prix des matières premières
CommoPrices : le portail des prix des matières premières
 
Data citation metrics : best practice to enable new metrics for research data
Data citation metrics : best practice to enable new metrics for research dataData citation metrics : best practice to enable new metrics for research data
Data citation metrics : best practice to enable new metrics for research data
 
Open Data, Plateformes et Territoires
Open Data, Plateformes et TerritoiresOpen Data, Plateformes et Territoires
Open Data, Plateformes et Territoires
 
How to measure the impact of Research ?
How to measure the impact of Research ?How to measure the impact of Research ?
How to measure the impact of Research ?
 
Le new deal de la sémantique
Le new deal de la sémantiqueLe new deal de la sémantique
Le new deal de la sémantique
 
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
Text Mining et enrichissement sémantique de contenus : retour d'expérience du...
 
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
 
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
Scopus & SciVal au service du pilotage de la recherche scientifique - Elsevie...
 
Veille stratégique : du portail thématique à la gestion de flux - La démarch...
Veille stratégique : du portail thématique à la gestion de flux -  La démarch...Veille stratégique : du portail thématique à la gestion de flux -  La démarch...
Veille stratégique : du portail thématique à la gestion de flux - La démarch...
 
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
 
La veille au service de la stratégie de l'Inra
La veille au service de la stratégie de l'InraLa veille au service de la stratégie de l'Inra
La veille au service de la stratégie de l'Inra
 
La maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
La maîtrise des risques et l'intelligence économique au CEA - Frédéric MariotteLa maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
La maîtrise des risques et l'intelligence économique au CEA - Frédéric Mariotte
 
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
Comment Coyote Systems utilse le Data Science Studio de Dataiku pour optimise...
 
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
L'analytics dans le sport - Mieux vivre les matchs de tennis grâce à l'analyt...
 
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
Retour d'expérience de Sendinblue sur Logmatic.io, solutions d'analyse de log...
 
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
 

Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? L'exemple de l'Argus de la Presse

  • 1. Séminaire DIXIT - Les nouvelles frontières de la « data intelligence » : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle et exploitation analytique des données : comment aller au-delà des discours très généraux sur les données massives et le machine learning ? Odile Quesnel - Responsable ArgusLab
  • 2. ARGUS DE LA PRESSE 2LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT L’ARGUS, SES SERVICES & SON TERRAIN DE JEU
  • 3. ARGUS DE LA PRESSE 3LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT DEVELOPPEMENT & ANTICIPATION VEILLE STRATEGIQUE ANALYSE STRATEGIQUE CONTACT STRATEGIQUE REPUTATION & INFLUENCE VEILLE MEDIA ANALYSE MEDIA ENGAGEMENT MEDIA ARGUS DE LA PRESSE ENJEUX & EXPERTISES
  • 4. ARGUS DE LA PRESSE 4LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT SOCIAL MEDIA & TERRITOIRES DE L’INFORMATION • Un monde en permanence « augmenté » • le data exhaust bouscule les processus de production et d’accès aux contenus Dans ce contexte de données massives les cloisonnements traditionnels tombent Les décideurs attendent des réponses de la part des professionnels de l’information, de la communication comme du marketing Apprécier les contenus nécessite de passer par du cross-media
  • 5. ARGUS DE LA PRESSE 5LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT UN PEU DE THEORIE
  • 6. ARGUS DE LA PRESSE 6LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT DE QUOI PARLE-T-ON ? Jordan Awan
  • 7. ARGUS DE LA PRESSE 7LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT • S’agit-il de prédire un prix, ou une catégorie ? • Souhaite-t-on un apprentissage au fil de l’eau ou statique ? • Quelles variables cibles souhaite-ton prédire au moyen de quelles variables prédictives ? • A-t-on par avance une idée du type de relation qui lie les variables prédictives à la variable cible ? => Plusieurs types d'algorithmes ML à choisir et à appliquer en fonction de l'objectif et du type de données D’après Melanie Warrick MAIS ENCORE ? Ce qui manque par la connaissance « objective » et un modèle explicatif nous le chercherons par les données S’il n’y a pas d’algorithme idéal nous avons des données pour apprendre Le Machine Learning a donc pour objectif d’élaborer et d’optimiser des algorithmes pour optimiser des processus d’apprentissage et concevoir des modèles prédictifs.
  • 8. ARGUS DE LA PRESSE 8LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT Apprentissage supervisé • Anticiper la gestion des stations de vélos en libre accès sachant que …. • Eviter d’être pollué par des messages publicitaires sachant que … La classification consiste à identifier les classes d'appartenance de nouveaux objets à partir d'exemples antérieurs connus La régression prédit les valeurs possibles d'une ou plusieurs variables à partir des anciennes valeurs relevées Apprendre d’une relation , la phase d’apprentissage consiste à trouver les bonnes questions à poser pour catégoriser correctement un ensemble Généraliser à partir de ce qu'on connaît déjà Apprentissage non supervisé • Répartir un ensemble de prospects en niches quand on ignore la segmentation du marché • Prévoir quels seront les clients potentiels pour un produit, à partir des données d’achat de déplacement • des données qui peuvent se classer dans un trop grand nombre de catégories. Découvrir des structures cachées dans les données plutôt que de « généraliser » à partir d’un corpus exemple. Il ne s’agit pas de « profiler » complètement les processus Si les corrélations n’expliquent pas tout, elles aident à détecter certains motifs ou régularités. APPRENDRE ? Construire des systèmes autonomes que l’on pourra « éduquer » sur la base d’un corpus d’exemples pertinents pré existant ou que le système fera émerger
  • 9. ARGUS DE LA PRESSE 9LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT http://www.ted.com/talks/fei_fei_li_how_we_re_teachin g_computers_to_understand_pictures#t-477527 NOS MACHINES LES PLUS INTELLIGENTES SONT TOUJOURS AVEUGLES Modèles de réseaux neuronaux : le laboratoire d’IA de Stanford dirigé par Fei Fei Li a créé un logiciel capable de reconnaître des scènes fixes photographiés et de les décrire en langage naturel . Projet de catégorisation en crowdsourcing
  • 10. ARGUS DE LA PRESSE 10LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT Que dit l’ordinateur quand il voit une image OU COMMENT ENSEIGNER AUX MACHINES A COMPRENDRE UNE PHOTO La machine a appris comme un enfant de 0 à 3 ans, Le défi suivant est d’aller de 3 à 13 ans Elle fait des erreurs
  • 11. ARGUS DE LA PRESSE 11LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT ALGORITHMES ET MACHINE LEARNING A L’ARGUS DE LA THEORIE A L’ACTION
  • 12. ARGUS DE LA PRESSE 12LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT 8 500 Publications Presse France & International 270 Radios et TV 10 500 Sites Internet éditoriaux France & International 60 000 contacts et influenceurs médias & sociaux Web social : blogs & réseaux sociaux Web corporate & Institutionnel QUELLES ROUTES TRACER ? Des contenus hétérogènes dans leur forme et leur langage Des données structurées et qualifiées Des données à extraire pour donner du sens • Vision à 360 de son marché • Connaître les évolutions et les tendances • Identifier les menaces & opportunités • Détecter & analyser les leviers de croissance • Détecter de nouveaux prospects • Détection et suivi des signaux d’alertes …….. Un territoire complexe et mouvant Un monde à révéler Apprendre à partir des jeux de données Identifier des schémas via l’exploration Des données correctement préparées & des stratégies soigneusement considérées Des outils et des méthodologies qui mobilisent : • Traitement automatique de la langue • Modèles algorithmiques et apprentissage automatique • Content analytics De multiples destinations
  • 13. ARGUS DE LA PRESSE 13LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT Lever les contraintes de format Des contenus cross media et des données intelligibles Des données enrichies et contextualisées Systèmes de représentation et de navigation pour exploiter contenus et connaissance extraite en contexte UNE CHAÎNE DE VALEUR POUR DES SPHÈRES D’USAGES MULTIPLES Data scientist Linguiste Développeur Chief Data Officer Architecte Linguiste - Mathématicien
  • 14. ARGUS DE LA PRESSE 14LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT LEVER LES CONTRAINTES DE FORMAT OCR - Reconnaissance automatique de caractères • Comparer sur un corpus de formes connues • Retenir les formes les plus proches • Traiter sur méthodes linguistiques et contextuelles pour réduire le nombre d'erreurs de reconnaissance Reconnaissance automatique de la parole Hypothèse de transcription avec une mesure de confiance sur des modèles de langue et acoustiques D’après Pascale Sébillot Inria
  • 15. ARGUS DE LA PRESSE 15LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT DES DONNEES INTELLIGIBLES & ENRICHIES Extraction de relations Apprentissage d’un classificateur classant chaque phrase avec au moins deux EN et un déclencheur => relation / pas de relation => relation positive ou négative Catégorisation des contenus textuels Classificateur de texte par l’apprentissage, à partir d’une série des documents pré- classifiés ou de caractéristiques de catégories d’intérêts L’’algorithme ventile dans des classes différenciées et ce sur la base du critère de similarité entre documents Analyse de sentiments Apprentissage de l’orientation sémantique des mots ou des expressions Un mot a un contexte qui contribue au sens Signaux forts et faibles Algorithme de « régression linéaire Comptages de présence d’information sur des périodes => montrer une tendance constatée. Une dimension prédictive => faire intervenir d’autres variables comme la durée de la tendance sur les périodes passées, le nombre de médias qui en parlent, etc.
  • 16. ARGUS DE LA PRESSE 16LA COMMUNICATION NOUS REUNIT, L’INFORMATION VOUS ENRICHIT Valoriser le contenu Aider à la décision Exploiter la mesure Tendances Aider au repérage “Prendre ce que l’on a et le faire parler” Produire de la valeur sur le contenu : Mesure Indicateurs Proposer des endroits à écouter Etudier viralité Cartographier relations et interactions cross media Rechercher DES FONCTIONS ADAPTÉES A CHAQUE SPHÈRE D’USAGE Comprendre la propagation d’une information, les processus de contamination - Explorer dans une multitude de signaux => Des modèles existants et de nouveaux modèles à construire • Dans des formes variées de trajectoires de notoriété. discriminer ce qui relève de la « contagion » et ce qui ressort des différentes formes d’éditorialisation cross media Faire émerger une histoire pertinente Découverte de faits intéressants Mise en évidence de tendances cachées => D’une histoire complexe à un graphique interactif, personnalisable
  • 17. Merci pour votre attention odile.quesnel@argus-presse.fr