SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
BigText, compréhension et inférence avancées sur
les textes
Dr. Patrick LAFFITTE Dr. Raja HADDAD Dr. Yassin CHABEB
Big Data Mining and Visualisation - 7ème
édition
PALO IT- PALO IT Labs
1 Contexte et problématiques
2 Expérimentations : BigText
2.1. Mise en place
2.2. Tests et validation
2.3. Amélioration
2.4. Tests sur la RGPD
3 Ajout de l’inférence
4 Conclusion et perspectives
Plan
Cabinet de conseil & de réalisation spécialisé en :
● Design centré sur l’Humain,
● Développement agile de logiciels,
● Transformation des entreprises qui innovent.
● PALO IT Labs est une société de services spécialisée dans les
activités de recherche scientifique et technique.
● Grâce à leurs qualifications académiques et leur savoir-faire, les
employés de PALO IT Labs ciblent deux types d’opérations :
1. RECHERCHE APPLIQUÉE qui visent à :
a. Discerner les applications possibles des résultats d'une
recherche fondamentale.
b. Trouver des solutions nouvelles permettant à une entreprise
d'atteindre un objectif déterminé choisi à l'avance.
2. OPÉRATIONS DE DÉVELOPPEMENT EXPÉRIMENTAL
effectuées, au moyen de prototypes ou d'installations pilotes pour :
a. Réunir informations & éléments techniques des décisions,
b. Produire des nouveaux procédés, systèmes, services,
c. Les améliorer substantiellement (pas une simple utilisation de
l'état des techniques existantes).
1 Contexte et problématiques
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
5
Machine entraînée
(Modèle de deep
learning)
Base de textes
Question
ouverte
Réponses
Liste des réponses :
- Extrait de la base de textes
- Evaluation de la réponse
Contexte
● Un jeu de données composé par des questions/réponses
posées sur un ensemble d’article de Wikipédia.
● La réponse à chaque question (si elle existe) est un segment
de texte.
● Une compétition a été organisée par l’université de Stanford
pour trouver le meilleur modèle capable de battre l’humain
dans la réponse à des questions ouvertes.
SQuAD (Stanford Question Answering Dataset)
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
6
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
Modèles
Humain
7
● Choisir un modèle, le comprendre, le mettre en place et valider
le résultat de SQuAD.
● Améliorer le modèle choisi.
● Tester le modèle sur des données autres que celles de
Wikipédia.
● Trouver une solution pour traiter les textes en français.
Problématiques
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
8
2 Expérimentations : BigText
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
10
R-NET (Mars 2017)
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
11
Pourquoi R-NET ? (il y a 6 mois)
● La documentation est indispensable pas uniquement le papier
universitaire.
● Des exemples de code permettant de mieux comprendre la
préparation de données et des metadatas.
● Une plateforme technique pas trop ésotérique. Dans ce cas,
TensorFlow et Python ne semblent pas trop ésotériques.
● La meilleure performance à l'époque, pour un réseau simple (pas un
ensemble de modèles) avec une architecture classique (GRU) qui
annonce dans le papier d’origine un EM à 71.1%
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
12
● Merci à Karim Ould Aklouche
Test et validation de R-NET (Mars 2017)
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
13
● Enrichir l’ensemble d'apprentissage par le type de la question.
Amélioration de R-NET
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
14
Résultats (amélioration de R-NET)
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
15
Machine entraînée
(R-NET)
700 articles
RGPD
What is personal
data ?
Utilisation de R-NET sur 700 articles de la RGPD (1/2)
1. vulnerable natural
persons
2. data subjects and the
controller
3. any information relating
to an identified or
identifiable natural
person
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
Utilisation de R-NET sur 700 articles de la RGPD (2/2)
Question : who should infringe the
regulation?
Réponses:
1. Namely Directive (EU) 2016/680
of the European Parliament and
of the Council
2. The Board
3. Member States
Question avec “should”
Question : who could infringe the
regulation?
Réponses:
1. Third countries and international
organisations
2. A natural person
3. A legal obligation
Question avec “could”
16
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
17
gdpr.palo-it.com
1. Créer un compte avec une vraie adresse mail.
2. Tester l’outil.
3. Vos feedbacks nous intéressent.
(test.rgpd.paloit@gmail.com)
À vous de tester
3 Ajout de l’inférence
D'après Wikipédia: “C’est un mécanisme cognitif par lequel le
récepteur d'un message interprète une signification
supérieure à la somme de ce qui a été simplement énoncé”.
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
19
Inférence?
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
20
SQuAD 2.0
● Nouveau jeu de données disponible depuis début juin 2018.
● 100 000 questions (SQuAD 1) + 50 000 nouvelles questions qui
nécessitent plus de réflexion donc une capacité d’inférence
Voir https://arxiv.org/abs/1806.03822v1
4 Conclusion et perspectives
● Le traitement des données textuelles anglais a évolué (et évolue) considérablement
principalement grâce aux efforts de groupe de travail issue d’université comme Stanford
ou Georgia Institute of Technology Atlanta et la participation active des centres de
recherche privée comme celui de Microsoft Asia.
● Ces jeux de données ont été créés à la main (par plein de mains), en utilisant des
étudiants payés à l’heure qui imaginent les questions et leur réponses.
● Cela présuppose l’existence d’un site internet capable de mémoriser le travail de chaque
étudiant et de récompenser leur travail s’il est bien fait.
● Et vous ?
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
22
Et le Français?
Merci
Microsoft Research Asia (2017): R-NET: Machine reading comprehension with self-matching networks.
(https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf )
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang (2016): SQuAD: 100,000+
Questions for Machine Comprehension of Text (https://arxiv.org/pdf/1606.05250.pdf )
Pranav Rajpurkar, Robin Jia, Percy Liang (2018): Know What You Don't Know: Unanswerable
Questions for SQuAD (https://arxiv.org/pdf/1806.03822.pdf)
Références

Más contenido relacionado

Similar a BigText, compréhension et inférence avancées sur les textes

CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsCdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsAgile Montréal
 
Offre Audit et Test De Performance
Offre Audit et Test De PerformanceOffre Audit et Test De Performance
Offre Audit et Test De PerformanceCabinet Openi
 
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022Agile Montréal
 
20120612 05 - Etude de maturité d'une organisation de tests avec TPI Next
20120612 05 - Etude de maturité d'une organisation de tests avec TPI Next20120612 05 - Etude de maturité d'une organisation de tests avec TPI Next
20120612 05 - Etude de maturité d'une organisation de tests avec TPI NextLeClubQualiteLogicielle
 
Auditeur Sous Les Projecteurs: Erin Baker
Auditeur Sous Les Projecteurs: Erin BakerAuditeur Sous Les Projecteurs: Erin Baker
Auditeur Sous Les Projecteurs: Erin BakerCaseWare IDEA
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Présentation FADEL Wiam sur le nlp et machine learning
Présentation FADEL Wiam sur le nlp et machine learningPrésentation FADEL Wiam sur le nlp et machine learning
Présentation FADEL Wiam sur le nlp et machine learningWiamFADEL
 
Thesis+of+nesrine+abdelkafi.ppt
Thesis+of+nesrine+abdelkafi.pptThesis+of+nesrine+abdelkafi.ppt
Thesis+of+nesrine+abdelkafi.pptPtidej Team
 
20120124 04 - Retour d'expérience sur la mise en oeuvre de Squash
20120124 04 - Retour d'expérience sur la mise en oeuvre de Squash20120124 04 - Retour d'expérience sur la mise en oeuvre de Squash
20120124 04 - Retour d'expérience sur la mise en oeuvre de SquashLeClubQualiteLogicielle
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfThomas DENECKER
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?Marc Bojoly
 
Ecole ESMA : Projet Fin de semestre - Application de gestion d'une école
Ecole ESMA : Projet Fin de semestre - Application de gestion d'une école Ecole ESMA : Projet Fin de semestre - Application de gestion d'une école
Ecole ESMA : Projet Fin de semestre - Application de gestion d'une école Mehdi Hamime
 
Outils de veille et d'intelligence économique territoriale
Outils de veille et d'intelligence économique territorialeOutils de veille et d'intelligence économique territoriale
Outils de veille et d'intelligence économique territorialeChristophe Marnat
 
De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...
De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...
De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...Mathieu d'Aquin
 
Démarche compétence - LO - SI pédagogique. Morgan Saveuse. 9R
Démarche compétence - LO - SI pédagogique. Morgan Saveuse. 9RDémarche compétence - LO - SI pédagogique. Morgan Saveuse. 9R
Démarche compétence - LO - SI pédagogique. Morgan Saveuse. 9RFFFOD
 
Business Intelligence Reporting Solution
Business Intelligence Reporting Solution Business Intelligence Reporting Solution
Business Intelligence Reporting Solution Imad ALILAT
 
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Antidot
 
Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireAntidot
 
Ritme Data Solutions : Votre Data Academy
Ritme Data Solutions : Votre Data AcademyRitme Data Solutions : Votre Data Academy
Ritme Data Solutions : Votre Data AcademyAurélien Adamo
 

Similar a BigText, compréhension et inférence avancées sur les textes (20)

CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsCdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
 
Offre Audit et Test De Performance
Offre Audit et Test De PerformanceOffre Audit et Test De Performance
Offre Audit et Test De Performance
 
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
 
20120612 05 - Etude de maturité d'une organisation de tests avec TPI Next
20120612 05 - Etude de maturité d'une organisation de tests avec TPI Next20120612 05 - Etude de maturité d'une organisation de tests avec TPI Next
20120612 05 - Etude de maturité d'une organisation de tests avec TPI Next
 
Auditeur Sous Les Projecteurs: Erin Baker
Auditeur Sous Les Projecteurs: Erin BakerAuditeur Sous Les Projecteurs: Erin Baker
Auditeur Sous Les Projecteurs: Erin Baker
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Présentation FADEL Wiam sur le nlp et machine learning
Présentation FADEL Wiam sur le nlp et machine learningPrésentation FADEL Wiam sur le nlp et machine learning
Présentation FADEL Wiam sur le nlp et machine learning
 
Projet VAE
Projet VAEProjet VAE
Projet VAE
 
Thesis+of+nesrine+abdelkafi.ppt
Thesis+of+nesrine+abdelkafi.pptThesis+of+nesrine+abdelkafi.ppt
Thesis+of+nesrine+abdelkafi.ppt
 
20120124 04 - Retour d'expérience sur la mise en oeuvre de Squash
20120124 04 - Retour d'expérience sur la mise en oeuvre de Squash20120124 04 - Retour d'expérience sur la mise en oeuvre de Squash
20120124 04 - Retour d'expérience sur la mise en oeuvre de Squash
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdf
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?
 
Ecole ESMA : Projet Fin de semestre - Application de gestion d'une école
Ecole ESMA : Projet Fin de semestre - Application de gestion d'une école Ecole ESMA : Projet Fin de semestre - Application de gestion d'une école
Ecole ESMA : Projet Fin de semestre - Application de gestion d'une école
 
Outils de veille et d'intelligence économique territoriale
Outils de veille et d'intelligence économique territorialeOutils de veille et d'intelligence économique territoriale
Outils de veille et d'intelligence économique territoriale
 
De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...
De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...
De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...
 
Démarche compétence - LO - SI pédagogique. Morgan Saveuse. 9R
Démarche compétence - LO - SI pédagogique. Morgan Saveuse. 9RDémarche compétence - LO - SI pédagogique. Morgan Saveuse. 9R
Démarche compétence - LO - SI pédagogique. Morgan Saveuse. 9R
 
Business Intelligence Reporting Solution
Business Intelligence Reporting Solution Business Intelligence Reporting Solution
Business Intelligence Reporting Solution
 
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
 
Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaire
 
Ritme Data Solutions : Votre Data Academy
Ritme Data Solutions : Votre Data AcademyRitme Data Solutions : Votre Data Academy
Ritme Data Solutions : Votre Data Academy
 

Más de PALO IT

The Agile Transformation Hell - PALO IT BarCamp
The Agile Transformation Hell - PALO IT BarCampThe Agile Transformation Hell - PALO IT BarCamp
The Agile Transformation Hell - PALO IT BarCampPALO IT
 
Design & Develop Disruptive Software
Design & Develop Disruptive SoftwareDesign & Develop Disruptive Software
Design & Develop Disruptive SoftwarePALO IT
 
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...PALO IT
 
Explorez l’Employee eXperience grâce au Design Thinking
Explorez l’Employee eXperience grâce au Design ThinkingExplorez l’Employee eXperience grâce au Design Thinking
Explorez l’Employee eXperience grâce au Design ThinkingPALO IT
 
Self-Organisation & Transparency: Delegation Poker
Self-Organisation & Transparency: Delegation PokerSelf-Organisation & Transparency: Delegation Poker
Self-Organisation & Transparency: Delegation PokerPALO IT
 
Framework de Digitalisation par les Organisations Exponentielles
Framework de Digitalisation par les Organisations ExponentiellesFramework de Digitalisation par les Organisations Exponentielles
Framework de Digitalisation par les Organisations ExponentiellesPALO IT
 
Project Managers, our World is Changing!
Project Managers, our World is Changing!Project Managers, our World is Changing!
Project Managers, our World is Changing!PALO IT
 
The Future of User Experience
The Future of User ExperienceThe Future of User Experience
The Future of User ExperiencePALO IT
 
Developers are from Mars, Designers are from Venus
Developers are from Mars, Designers are from VenusDevelopers are from Mars, Designers are from Venus
Developers are from Mars, Designers are from VenusPALO IT
 
Self-Organization in Agile & Digital Transformation
Self-Organization in Agile & Digital Transformation Self-Organization in Agile & Digital Transformation
Self-Organization in Agile & Digital Transformation PALO IT
 
Blockchain présenté aux Développeurs
Blockchain présenté aux Développeurs Blockchain présenté aux Développeurs
Blockchain présenté aux Développeurs PALO IT
 
Pourquoi est-ce si difficile de concevoir une API ?
Pourquoi est-ce si difficile de concevoir une API ?Pourquoi est-ce si difficile de concevoir une API ?
Pourquoi est-ce si difficile de concevoir une API ?PALO IT
 
Emerging Innovation: an exploratory journey into Design Thinking and why it m...
Emerging Innovation: an exploratory journey into Design Thinking and why it m...Emerging Innovation: an exploratory journey into Design Thinking and why it m...
Emerging Innovation: an exploratory journey into Design Thinking and why it m...PALO IT
 
Données animées
Données animéesDonnées animées
Données animéesPALO IT
 
Spark Streaming
Spark StreamingSpark Streaming
Spark StreamingPALO IT
 
Et pourquoi pas JEE ?
Et pourquoi pas JEE ?Et pourquoi pas JEE ?
Et pourquoi pas JEE ?PALO IT
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
Sarah : l’Internet des Objets au service de la maison connectée
Sarah : l’Internet des Objets au service de la maison connectée Sarah : l’Internet des Objets au service de la maison connectée
Sarah : l’Internet des Objets au service de la maison connectée PALO IT
 
Product Owner : Gardien du Cap
Product Owner : Gardien du CapProduct Owner : Gardien du Cap
Product Owner : Gardien du CapPALO IT
 
Et pourquoi pas JEE ?
Et pourquoi pas JEE ?Et pourquoi pas JEE ?
Et pourquoi pas JEE ?PALO IT
 

Más de PALO IT (20)

The Agile Transformation Hell - PALO IT BarCamp
The Agile Transformation Hell - PALO IT BarCampThe Agile Transformation Hell - PALO IT BarCamp
The Agile Transformation Hell - PALO IT BarCamp
 
Design & Develop Disruptive Software
Design & Develop Disruptive SoftwareDesign & Develop Disruptive Software
Design & Develop Disruptive Software
 
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
 
Explorez l’Employee eXperience grâce au Design Thinking
Explorez l’Employee eXperience grâce au Design ThinkingExplorez l’Employee eXperience grâce au Design Thinking
Explorez l’Employee eXperience grâce au Design Thinking
 
Self-Organisation & Transparency: Delegation Poker
Self-Organisation & Transparency: Delegation PokerSelf-Organisation & Transparency: Delegation Poker
Self-Organisation & Transparency: Delegation Poker
 
Framework de Digitalisation par les Organisations Exponentielles
Framework de Digitalisation par les Organisations ExponentiellesFramework de Digitalisation par les Organisations Exponentielles
Framework de Digitalisation par les Organisations Exponentielles
 
Project Managers, our World is Changing!
Project Managers, our World is Changing!Project Managers, our World is Changing!
Project Managers, our World is Changing!
 
The Future of User Experience
The Future of User ExperienceThe Future of User Experience
The Future of User Experience
 
Developers are from Mars, Designers are from Venus
Developers are from Mars, Designers are from VenusDevelopers are from Mars, Designers are from Venus
Developers are from Mars, Designers are from Venus
 
Self-Organization in Agile & Digital Transformation
Self-Organization in Agile & Digital Transformation Self-Organization in Agile & Digital Transformation
Self-Organization in Agile & Digital Transformation
 
Blockchain présenté aux Développeurs
Blockchain présenté aux Développeurs Blockchain présenté aux Développeurs
Blockchain présenté aux Développeurs
 
Pourquoi est-ce si difficile de concevoir une API ?
Pourquoi est-ce si difficile de concevoir une API ?Pourquoi est-ce si difficile de concevoir une API ?
Pourquoi est-ce si difficile de concevoir une API ?
 
Emerging Innovation: an exploratory journey into Design Thinking and why it m...
Emerging Innovation: an exploratory journey into Design Thinking and why it m...Emerging Innovation: an exploratory journey into Design Thinking and why it m...
Emerging Innovation: an exploratory journey into Design Thinking and why it m...
 
Données animées
Données animéesDonnées animées
Données animées
 
Spark Streaming
Spark StreamingSpark Streaming
Spark Streaming
 
Et pourquoi pas JEE ?
Et pourquoi pas JEE ?Et pourquoi pas JEE ?
Et pourquoi pas JEE ?
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
Sarah : l’Internet des Objets au service de la maison connectée
Sarah : l’Internet des Objets au service de la maison connectée Sarah : l’Internet des Objets au service de la maison connectée
Sarah : l’Internet des Objets au service de la maison connectée
 
Product Owner : Gardien du Cap
Product Owner : Gardien du CapProduct Owner : Gardien du Cap
Product Owner : Gardien du Cap
 
Et pourquoi pas JEE ?
Et pourquoi pas JEE ?Et pourquoi pas JEE ?
Et pourquoi pas JEE ?
 

BigText, compréhension et inférence avancées sur les textes

  • 1. BigText, compréhension et inférence avancées sur les textes Dr. Patrick LAFFITTE Dr. Raja HADDAD Dr. Yassin CHABEB Big Data Mining and Visualisation - 7ème édition
  • 2. PALO IT- PALO IT Labs 1 Contexte et problématiques 2 Expérimentations : BigText 2.1. Mise en place 2.2. Tests et validation 2.3. Amélioration 2.4. Tests sur la RGPD 3 Ajout de l’inférence 4 Conclusion et perspectives Plan
  • 3. Cabinet de conseil & de réalisation spécialisé en : ● Design centré sur l’Humain, ● Développement agile de logiciels, ● Transformation des entreprises qui innovent. ● PALO IT Labs est une société de services spécialisée dans les activités de recherche scientifique et technique. ● Grâce à leurs qualifications académiques et leur savoir-faire, les employés de PALO IT Labs ciblent deux types d’opérations : 1. RECHERCHE APPLIQUÉE qui visent à : a. Discerner les applications possibles des résultats d'une recherche fondamentale. b. Trouver des solutions nouvelles permettant à une entreprise d'atteindre un objectif déterminé choisi à l'avance. 2. OPÉRATIONS DE DÉVELOPPEMENT EXPÉRIMENTAL effectuées, au moyen de prototypes ou d'installations pilotes pour : a. Réunir informations & éléments techniques des décisions, b. Produire des nouveaux procédés, systèmes, services, c. Les améliorer substantiellement (pas une simple utilisation de l'état des techniques existantes).
  • 4. 1 Contexte et problématiques
  • 5. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 5 Machine entraînée (Modèle de deep learning) Base de textes Question ouverte Réponses Liste des réponses : - Extrait de la base de textes - Evaluation de la réponse Contexte
  • 6. ● Un jeu de données composé par des questions/réponses posées sur un ensemble d’article de Wikipédia. ● La réponse à chaque question (si elle existe) est un segment de texte. ● Une compétition a été organisée par l’université de Stanford pour trouver le meilleur modèle capable de battre l’humain dans la réponse à des questions ouvertes. SQuAD (Stanford Question Answering Dataset) Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 6
  • 7. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives Modèles Humain 7
  • 8. ● Choisir un modèle, le comprendre, le mettre en place et valider le résultat de SQuAD. ● Améliorer le modèle choisi. ● Tester le modèle sur des données autres que celles de Wikipédia. ● Trouver une solution pour traiter les textes en français. Problématiques Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 8
  • 10. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 10 R-NET (Mars 2017)
  • 11. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 11 Pourquoi R-NET ? (il y a 6 mois) ● La documentation est indispensable pas uniquement le papier universitaire. ● Des exemples de code permettant de mieux comprendre la préparation de données et des metadatas. ● Une plateforme technique pas trop ésotérique. Dans ce cas, TensorFlow et Python ne semblent pas trop ésotériques. ● La meilleure performance à l'époque, pour un réseau simple (pas un ensemble de modèles) avec une architecture classique (GRU) qui annonce dans le papier d’origine un EM à 71.1%
  • 12. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 12 ● Merci à Karim Ould Aklouche Test et validation de R-NET (Mars 2017)
  • 13. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 13 ● Enrichir l’ensemble d'apprentissage par le type de la question. Amélioration de R-NET
  • 14. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 14 Résultats (amélioration de R-NET)
  • 15. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 15 Machine entraînée (R-NET) 700 articles RGPD What is personal data ? Utilisation de R-NET sur 700 articles de la RGPD (1/2) 1. vulnerable natural persons 2. data subjects and the controller 3. any information relating to an identified or identifiable natural person
  • 16. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives Utilisation de R-NET sur 700 articles de la RGPD (2/2) Question : who should infringe the regulation? Réponses: 1. Namely Directive (EU) 2016/680 of the European Parliament and of the Council 2. The Board 3. Member States Question avec “should” Question : who could infringe the regulation? Réponses: 1. Third countries and international organisations 2. A natural person 3. A legal obligation Question avec “could” 16
  • 17. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 17 gdpr.palo-it.com 1. Créer un compte avec une vraie adresse mail. 2. Tester l’outil. 3. Vos feedbacks nous intéressent. (test.rgpd.paloit@gmail.com) À vous de tester
  • 18. 3 Ajout de l’inférence
  • 19. D'après Wikipédia: “C’est un mécanisme cognitif par lequel le récepteur d'un message interprète une signification supérieure à la somme de ce qui a été simplement énoncé”. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 19 Inférence?
  • 20. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 20 SQuAD 2.0 ● Nouveau jeu de données disponible depuis début juin 2018. ● 100 000 questions (SQuAD 1) + 50 000 nouvelles questions qui nécessitent plus de réflexion donc une capacité d’inférence Voir https://arxiv.org/abs/1806.03822v1
  • 21. 4 Conclusion et perspectives
  • 22. ● Le traitement des données textuelles anglais a évolué (et évolue) considérablement principalement grâce aux efforts de groupe de travail issue d’université comme Stanford ou Georgia Institute of Technology Atlanta et la participation active des centres de recherche privée comme celui de Microsoft Asia. ● Ces jeux de données ont été créés à la main (par plein de mains), en utilisant des étudiants payés à l’heure qui imaginent les questions et leur réponses. ● Cela présuppose l’existence d’un site internet capable de mémoriser le travail de chaque étudiant et de récompenser leur travail s’il est bien fait. ● Et vous ? Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives 22 Et le Français?
  • 23. Merci
  • 24. Microsoft Research Asia (2017): R-NET: Machine reading comprehension with self-matching networks. (https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf ) Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang (2016): SQuAD: 100,000+ Questions for Machine Comprehension of Text (https://arxiv.org/pdf/1606.05250.pdf ) Pranav Rajpurkar, Robin Jia, Percy Liang (2018): Know What You Don't Know: Unanswerable Questions for SQuAD (https://arxiv.org/pdf/1806.03822.pdf) Références