Slides de la conférence conjointe CORIA-TALN 2018 qui s'est déroulé du 14 au 18 mai 2018 à Rennes.
Gaël Guibon, Magalie Ochs et Patrice Bellot
Article soumis à la conférence TALN en format court.
4. Introduction
Pourquoi ?
Am´eliorer la communication
textuelle
Meilleure compr´ehension des
m´eta-informations du dialogue
Est-ce simple ?
Non, l’usage des emojis n’est pas
d´efini
8. Travaux r´ecents
Limit´es `a peu d’emojis
20 emojis dans des tweets
164 emojis dans des messages priv´es
Seulement une classification multiclasse pour les tweets
Classification multi´etiquette pour la recommandation
9. Travaux r´ecents
Limit´es `a peu d’emojis
20 emojis dans des tweets
164 emojis dans des messages priv´es
Seulement une classification multiclasse pour les tweets
Classification multi´etiquette pour la recommandation
Classification
mono´etiquette
”CT2018 est super !”
Classification
multi´etiquette
”CT2018 est super !”
12. Probl`emes
Nombre de classes : 2623+
Enchevˆetrement de classes :
R´epartition d´es´equilibr´ee : (2 007 102 000) (118 178)
13. Probl`emes
Nombre de classes : 2623+
Enchevˆetrement de classes :
R´epartition d´es´equilibr´ee : (2 007 102 000) (118 178)
Usages inattendus
N’imite pas Harvey
14. Contribution
Nous souhaitons :
Changer l’axe de la pr´ediction
Obtenir une recommendation plus g´en´erale plutˆot qu’une
simple pr´ediction
Simplifier la classification multi´etiquette
15. Contribution
Nous souhaitons :
Changer l’axe de la pr´ediction
Obtenir une recommendation plus g´en´erale plutˆot qu’une
simple pr´ediction
Simplifier la classification multi´etiquette
Mono´etiquette
”CT2018 est super !”
JOIE
Multi´etiquette
”CT2018 est super !”
JOIE, AMUSEMENT
19. Plongements de mots et d’emojis
Usage de plongements existants (Pohl, 2017)
63 emojis ”visages” issus des cat´egories visages d’Unicode
21 millions de tweets
Skip-gram
Dimension: 300
23. Plongements de mots et d’emojis
Pr´e-traitement
1 million de tweets des USA/anglais (>1 emoji/tweet)
D´etection de langue
Tokenisation et formattage par regEx pour isoler les emojis
Lemmatisation
63 emojis ”visage” des cat´egories Unicode
695031 tweets
29. ´Evaluation th´eorique
16 expressions de l’´emotion (Ekman, 1999)
Joie Tristesse
Col`ere Peur
D´egoˆut Surprise
Amusement Gˆene
Excitation Satisfaction
Honte Fiert´e dans la r´eussite
Soulagement Plaisir Sensoriel
M´epris Culpabilit´e
30. ´Evaluation th´eorique
Homog´en´eit´e
Capacit´e des groupes `a contenir uniquement des emojis d’une
mˆeme cat´egorie
Compl´etude
Capacit´e de tous les ´el´ements d’une cat´egorie `a se retrouver dans
un mˆeme groupe
V-mesure
Moyenne harmonique des deux scores
31. ´Evaluation th´eorique
Homog´en´eit´e
Capacit´e des groupes `a contenir uniquement des emojis d’une
mˆeme cat´egorie
Compl´etude
Capacit´e de tous les ´el´ements d’une cat´egorie `a se retrouver dans
un mˆeme groupe
V-mesure
Moyenne harmonique des deux scores
Homog´en´eit´e 85,63
Compl´etude 69,45
V-mesure 76,70
34. Conclusion & Perspectives
Conclusion
Changement d’approche pour la pr´ediction d’emojis
Skipgram pour la classification
CBOW pour le partitionnement
Cat´egories d’emojis en tant que jeu d’´etiquettes