BigText, compréhension et inférence avancées sur les textes

BigText, compréhension et inférence avancées sur
les textes
Dr. Patrick LAFFITTE Dr. Raja HADDAD Dr. Yassin CHABEB
Big Data Mining and Visualisation - 7ème
édition

PALO IT- PALO IT Labs
1 Contexte et problématiques
2 Expérimentations : BigText
2.1. Mise en place
2.2. Tests et validation
2.3. Amélioration
2.4. Tests sur la RGPD
3 Ajout de l’inférence
4 Conclusion et perspectives
Plan

Cabinet de conseil & de réalisation spécialisé en :
● Design centré sur l’Humain,
● Développement agile de logiciels,
● Transformation des entreprises qui innovent.
● PALO IT Labs est une société de services spécialisée dans les
activités de recherche scientifique et technique.
● Grâce à leurs qualifications académiques et leur savoir-faire, les
employés de PALO IT Labs ciblent deux types d’opérations :
1. RECHERCHE APPLIQUÉE qui visent à :
a. Discerner les applications possibles des résultats d'une
recherche fondamentale.
b. Trouver des solutions nouvelles permettant à une entreprise
d'atteindre un objectif déterminé choisi à l'avance.
2. OPÉRATIONS DE DÉVELOPPEMENT EXPÉRIMENTAL
effectuées, au moyen de prototypes ou d'installations pilotes pour :
a. Réunir informations & éléments techniques des décisions,
b. Produire des nouveaux procédés, systèmes, services,
c. Les améliorer substantiellement (pas une simple utilisation de
l'état des techniques existantes).

Contexte et problématiques Expérimentations Ajout de l’inférence Conclusion et perspectives
5
Machine entraînée
(Modèle de deep
learning)
Base de textes
Question
ouverte
Réponses
Liste des réponses :
- Extrait de la base de textes
- Evaluation de la réponse
Contexte

● Un jeu de données composé par des questions/réponses
posées sur un ensemble d’article de Wikipédia.
● La réponse à chaque question (si elle existe) est un segment
de texte.
● Une compétition a été organisée par l’université de Stanford
pour trouver le meilleur modèle capable de battre l’humain
dans la réponse à des questions ouvertes.
SQuAD (Stanford Question Answering Dataset)
6

Modèles
Humain
7

● Choisir un modèle, le comprendre, le mettre en place et valider
le résultat de SQuAD.
● Améliorer le modèle choisi.
● Tester le modèle sur des données autres que celles de
Wikipédia.
● Trouver une solution pour traiter les textes en français.
Problématiques
8

10
R-NET (Mars 2017)

11
Pourquoi R-NET ? (il y a 6 mois)
● La documentation est indispensable pas uniquement le papier
universitaire.
● Des exemples de code permettant de mieux comprendre la
préparation de données et des metadatas.
● Une plateforme technique pas trop ésotérique. Dans ce cas,
TensorFlow et Python ne semblent pas trop ésotériques.
● La meilleure performance à l'époque, pour un réseau simple (pas un
ensemble de modèles) avec une architecture classique (GRU) qui
annonce dans le papier d’origine un EM à 71.1%

12
● Merci à Karim Ould Aklouche
Test et validation de R-NET (Mars 2017)

13
● Enrichir l’ensemble d'apprentissage par le type de la question.
Amélioration de R-NET

14
Résultats (amélioration de R-NET)

15
Machine entraînée
(R-NET)
700 articles
RGPD
What is personal
data ?
Utilisation de R-NET sur 700 articles de la RGPD (1/2)
1. vulnerable natural
persons
2. data subjects and the
controller
3. any information relating
to an identified or
identifiable natural
person

Utilisation de R-NET sur 700 articles de la RGPD (2/2)
Question : who should infringe the
regulation?
Réponses:
1. Namely Directive (EU) 2016/680
of the European Parliament and
of the Council
2. The Board
3. Member States
Question avec “should”
Question : who could infringe the
regulation?
Réponses:
1. Third countries and international
organisations
2. A natural person
3. A legal obligation
Question avec “could”
16

17
gdpr.palo-it.com
1. Créer un compte avec une vraie adresse mail.
2. Tester l’outil.
3. Vos feedbacks nous intéressent.
(test.rgpd.paloit@gmail.com)
À vous de tester

D'après Wikipédia: “C’est un mécanisme cognitif par lequel le
récepteur d'un message interprète une signification
supérieure à la somme de ce qui a été simplement énoncé”.
19
Inférence?

20
SQuAD 2.0
● Nouveau jeu de données disponible depuis début juin 2018.
● 100 000 questions (SQuAD 1) + 50 000 nouvelles questions qui
nécessitent plus de réflexion donc une capacité d’inférence
Voir https://arxiv.org/abs/1806.03822v1

● Le traitement des données textuelles anglais a évolué (et évolue) considérablement
principalement grâce aux efforts de groupe de travail issue d’université comme Stanford
ou Georgia Institute of Technology Atlanta et la participation active des centres de
recherche privée comme celui de Microsoft Asia.
● Ces jeux de données ont été créés à la main (par plein de mains), en utilisant des
étudiants payés à l’heure qui imaginent les questions et leur réponses.
● Cela présuppose l’existence d’un site internet capable de mémoriser le travail de chaque
étudiant et de récompenser leur travail s’il est bien fait.
● Et vous ?
22
Et le Français?

Microsoft Research Asia (2017): R-NET: Machine reading comprehension with self-matching networks.
(https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf )
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang (2016): SQuAD: 100,000+
Questions for Machine Comprehension of Text (https://arxiv.org/pdf/1606.05250.pdf )
Pranav Rajpurkar, Robin Jia, Percy Liang (2018): Know What You Don't Know: Unanswerable
Questions for SQuAD (https://arxiv.org/pdf/1806.03822.pdf)
Références

BigText, compréhension et inférence avancées sur les textes

Recomendados

Recomendados

Más contenido relacionado

Similar a BigText, compréhension et inférence avancées sur les textes

Similar a BigText, compréhension et inférence avancées sur les textes (20)

Más de PALO IT

Más de PALO IT (20)

BigText, compréhension et inférence avancées sur les textes