Présentation de Bruno Malenfant dans le cadre du colloque "Une plateforme de recherche et d’expérimentation pour l’édition ouverte" organisée le 25 mai 2015.
Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques
1. Utilisation des citations pour le
résumé automatique de la
contribution d'articles
scientifiques
par Bruno Malenfant
Directeur de thèse : Guy Lapalme
Université de Montréal
4. Corpus
• ACL Anthology Network
• Environ 20 360 articles avec leurs méta-informations
• Nombre de lien : 110 930 références
• Compétitions
• CL 2014 : 10 articles (RP) pré-annotés avec les 84 articles les citant (CP).
• TAC 2014 : 20 articles (RP) pré-annotés avec les 200 articles les citant (CP).
4
5. Méta-information disponible
id = {A00-1002}
author = {Hajič, Jan; Hric, Jan; Kuboň, Vladislav}
title = {Machine Translation Of Very Close Languages}
venue = {Applied Natural Language Processing Conference
And Meeting Of The North American Association
For Computational Linguistics}
year = {2000}
A00-1002 ==> C90-3057
A00-1002 ==> P98-1080
5
6. Construction de la base RDF
• Uniformisation des accents.
• Utilisation des vocabulaires Dublin Code et Friend of a Friend.
• Identificateur unique
• Auteurs
• Journaux, proceeding, workshop.
• Sérialisation en format Turtle.
• 280 000 triplets.
6
7. 7
Exemple de conversion
acl:A00-1002 dc:title "Machine Translation Of Very Close Languages"^^xsd:string ;
dc:isPartOf acl:A00-1 ;
dc:creator [ a rdf:Seq ;
rdf:_1 acl:jan_hajič ;
rdf:_2 acl:jan_hric ;
rdf:_3 acl:vladislav_kuboň ] ;
dc:references acl:C90-3057 , acl:P98-1080 .
acl:A00-1 dc:title "Applied Natural Language Processing Conference And Meeting Of The
North American Association For Computational Linguistics"^^xsd:string ;
dc:date "2000"^^xsd:gYear .
acl:jan_hajič
foaf:familyName "Hajič"^^xsd:string ;
foaf:givenName "Jan"^^xsd:string .
acl:jan_hric
foaf:familyName "Hric"^^xsd:string ;
foaf:givenName "Jan"^^xsd:string .
acl:vladislav_kuboň
foaf:familyName "Kuboň"^^xsd:string ;
foaf:givenName "Vladislav"^^xsd:string .
8. 8
Construction des fichiers XML.
• Utilisation de la base RDF pour construire les méta-informations.
• Division des sections :
• Abstract
• Introduction et sections
• Reference
• Utilisation du standard JATS/XML.
• Liens avec les identificateurs uniques.
12. Sélection d’un sous ensemble du lexitrans
12
Génération
100 ensembles
• Ajout d’un mot
• Suppression d’un
mot
• Union de deux sous-
ensembles
Sélection
Show
Will
Data
Even
Will
Data
View
Even
Will
Effect
Word
View
Verify
Want
Width
Effect
Word
View
Ensembles initiaux : aléatoire
1000 ensembles
15 générations
13. Mots choisis
Discussion
(93 mots)
Results
(76 mots)
Implication
(45 mots)
Method
(34 mots)
Hypothesis
(20 mots)
Show Data Approach Data Will
Evidence Similar Identification Approach Similar
Data Show Data Determine Show
Similar Effect Evidence Following Exclusively
Effect Further Defined Similar Develop
Even Significantly Will Region Uniform
Crucial Contrast Show Further Defined
13
Les sept mots les plus communs pour chaque facette après l’entrainement.
14. Résultats
TAC 2014 CL-2014
Nombre d’articles 200 84
Nombre de citances 313 141
Nombre d’annotateurs 4 1
Classification des citances 47.2% 67.7%
Classification des textes référés 57.7% 88.0%
Annotateurs humains 66.6% 100.0%
14
• Mesure de corrélation = nombre d’annotateurs en accord / nombre d’annotateurs
• Le texte référé est une partie de l’article cité, correspondant à la citation.
15. Conclusion
• Il y a un intérêt pour les résumés d’articles scientifiques et leurs
impacts: TAC 2014, Comp Ling Summarization.
• Les citances donnent de l’information nouvelle et utile pour mesurer
l’impact d’un article.
• Nous avons proposé des techniques pour :
• Transformer l’AAN en une base RDF et XML.
• Détecter le rôle des citances.
• À venir
• Déterminer la portée d’une citance.
• Résumé des impacts.
15