Les groupes de travail de l’association EGC – « Fouille de Données Complexes » (GT-FDC), « Fouille de Grands Graphes » (GT-FGG), « Visualisation d’informations, interaction et fouille de données » (GT-VIF, commun avec l’AFIHM) et « Gestion et Analyse de données Spatiales et Temporelles » (GT-GAST, commun avec l’action prospective EXCES, GDR MAGIS) – organisent la 7ème édition des journées thématiques visant d’une part à poursuivre les activités des groupes et d’autre part à développer des axes communs autour de la prise en compte, la gestion, l’analyse, le traitement et la visualisation des données massives (Big Data).
Patrick LAFFITTE, Raja HADDAD et Yassin CHABEB ont présenté la conférence : BigText, compréhension et inférence avancées sur les textes.
Aujourd’hui, le volume des données textuelles échangées par les systèmes numériques est en croissance continue. L’exploitation de ces données offre de nombreuses perspectives de développement de nouveaux services pour les particuliers comme pour les professionnels.
Pour exploiter cette richesse, il est indispensable d’extraire et de produire des connaissances à partir de ce type de données.
BigText, compréhension et inférence avancées sur les textes
1. BigText, compréhension et inférence avancées sur
les textes
Dr. Patrick LAFFITTE Dr. Raja HADDAD Dr. Yassin CHABEB
Big Data Mining and Visualisation - 7ème
édition
2. PALO IT- PALO IT Labs
1 Contexte et problématiques
2 Expérimentations : BigText
2.1. Mise en place
2.2. Tests et validation
2.3. Amélioration
2.4. Tests sur la RGPD
3 Ajout de l’inférence
4 Conclusion et perspectives
Plan
3. Cabinet de conseil & de réalisation spécialisé en :
● Design centré sur l’Humain,
● Développement agile de logiciels,
● Transformation des entreprises qui innovent.
● PALO IT Labs est une société de services spécialisée dans les
activités de recherche scientifique et technique.
● Grâce à leurs qualifications académiques et leur savoir-faire, les
employés de PALO IT Labs ciblent deux types d’opérations :
1. RECHERCHE APPLIQUÉE qui visent à :
a. Discerner les applications possibles des résultats d'une
recherche fondamentale.
b. Trouver des solutions nouvelles permettant à une entreprise
d'atteindre un objectif déterminé choisi à l'avance.
2. OPÉRATIONS DE DÉVELOPPEMENT EXPÉRIMENTAL
effectuées, au moyen de prototypes ou d'installations pilotes pour :
a. Réunir informations & éléments techniques des décisions,
b. Produire des nouveaux procédés, systèmes, services,
c. Les améliorer substantiellement (pas une simple utilisation de
l'état des techniques existantes).
5. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
5
Machine entraînée
(Modèle de deep
learning)
Base de textes
Question
ouverte
Réponses
Liste des réponses :
- Extrait de la base de textes
- Evaluation de la réponse
Contexte
6. ● Un jeu de données composé par des questions/réponses
posées sur un ensemble d’article de Wikipédia.
● La réponse à chaque question (si elle existe) est un segment
de texte.
● Une compétition a été organisée par l’université de Stanford
pour trouver le meilleur modèle capable de battre l’humain
dans la réponse à des questions ouvertes.
SQuAD (Stanford Question Answering Dataset)
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
6
7. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
Modèles
Humain
7
8. ● Choisir un modèle, le comprendre, le mettre en place et valider
le résultat de SQuAD.
● Améliorer le modèle choisi.
● Tester le modèle sur des données autres que celles de
Wikipédia.
● Trouver une solution pour traiter les textes en français.
Problématiques
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
8
10. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
10
R-NET (Mars 2017)
11. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
11
Pourquoi R-NET ? (il y a 6 mois)
● La documentation est indispensable pas uniquement le papier
universitaire.
● Des exemples de code permettant de mieux comprendre la
préparation de données et des metadatas.
● Une plateforme technique pas trop ésotérique. Dans ce cas,
TensorFlow et Python ne semblent pas trop ésotériques.
● La meilleure performance à l'époque, pour un réseau simple (pas un
ensemble de modèles) avec une architecture classique (GRU) qui
annonce dans le papier d’origine un EM à 71.1%
12. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
12
● Merci à Karim Ould Aklouche
Test et validation de R-NET (Mars 2017)
13. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
13
● Enrichir l’ensemble d'apprentissage par le type de la question.
Amélioration de R-NET
14. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
14
Résultats (amélioration de R-NET)
15. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
15
Machine entraînée
(R-NET)
700 articles
RGPD
What is personal
data ?
Utilisation de R-NET sur 700 articles de la RGPD (1/2)
1. vulnerable natural
persons
2. data subjects and the
controller
3. any information relating
to an identified or
identifiable natural
person
16. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
Utilisation de R-NET sur 700 articles de la RGPD (2/2)
Question : who should infringe the
regulation?
Réponses:
1. Namely Directive (EU) 2016/680
of the European Parliament and
of the Council
2. The Board
3. Member States
Question avec “should”
Question : who could infringe the
regulation?
Réponses:
1. Third countries and international
organisations
2. A natural person
3. A legal obligation
Question avec “could”
16
17. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
17
gdpr.palo-it.com
1. Créer un compte avec une vraie adresse mail.
2. Tester l’outil.
3. Vos feedbacks nous intéressent.
(test.rgpd.paloit@gmail.com)
À vous de tester
19. D'après Wikipédia: “C’est un mécanisme cognitif par lequel le
récepteur d'un message interprète une signification
supérieure à la somme de ce qui a été simplement énoncé”.
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
19
Inférence?
20. Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
20
SQuAD 2.0
● Nouveau jeu de données disponible depuis début juin 2018.
● 100 000 questions (SQuAD 1) + 50 000 nouvelles questions qui
nécessitent plus de réflexion donc une capacité d’inférence
Voir https://arxiv.org/abs/1806.03822v1
22. ● Le traitement des données textuelles anglais a évolué (et évolue) considérablement
principalement grâce aux efforts de groupe de travail issue d’université comme Stanford
ou Georgia Institute of Technology Atlanta et la participation active des centres de
recherche privée comme celui de Microsoft Asia.
● Ces jeux de données ont été créés à la main (par plein de mains), en utilisant des
étudiants payés à l’heure qui imaginent les questions et leur réponses.
● Cela présuppose l’existence d’un site internet capable de mémoriser le travail de chaque
étudiant et de récompenser leur travail s’il est bien fait.
● Et vous ?
Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
22
Et le Français?
24. Microsoft Research Asia (2017): R-NET: Machine reading comprehension with self-matching networks.
(https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf )
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang (2016): SQuAD: 100,000+
Questions for Machine Comprehension of Text (https://arxiv.org/pdf/1606.05250.pdf )
Pranav Rajpurkar, Robin Jia, Percy Liang (2018): Know What You Don't Know: Unanswerable
Questions for SQuAD (https://arxiv.org/pdf/1806.03822.pdf)
Références