SlideShare una empresa de Scribd logo
1 de 12
Challenge DOP
Extraction de la Sémantique
Jonathan Marchand
Julien Plu (@julienplu - plu.julien@gmail.com)
Guillaume Viland
Séminaire Wimmics, Sophia-Antipolis, le 17/01/2014
Un vrai challenge…
président , Venezuela, Hugo Chavez
Hugo Chavez, décédé, mardi 5/3/2013
Hugo Chavez, décédé à , Caracas
Hugo Chavez, âge, 58 ans
Hugo Chavez, cause décès, cancer
président , Venezuela, Hugo Chavez
Hugo Chavez, décédé, mardi 5/3/2013
Hugo Chavez, décédé à , Caracas
Hugo Chavez, âge, 58 ans
Hugo Chavez, cause décès, cancer
 Sémantique : modélisation du sens d'un énoncé (phrase, discours, etc.)
 Généralement modélisé formellement en logique du premier ordre
représentable sous forme de graphe
Le chien que Marie aime dort.
Analyse Sémantique
dormir
chienMarie
aime
agent patient agent
Exemple avec Lady Gaga
Sujet Prédicat Objet
Lady Gaga etre acoeurdeactu
Lady Gaga devoiler Applause (film)
L'excentrique Lady Gaga est au coeur de l'actu depuis qu'elle a dévoilé son single
"Applause" issu de son quatrième album à découvrir à partir du 11 novembre.
.txt
parseTex
t
.conll06 .inmalt
getNerd .conllsimple
.nerd
buildDep
Graph
.depnt
extractRdf .fullnt
selectRdf .nt
 Part of Speech Tagger (étiqueteur
morpho-syntaxique) et Parser
stochastiques
 Corpus entraîné sur la French
Dependency Treebank (Paris 7)
 Analyse syntaxique de surface en
dépendances (sous forme
d’arbre)
ParseText
.txt
Tokenizer
et PoS
Tagger :
Melt
.conll06
.inmalt
Parser :
MaltParse
r
.inmalt
ParseTe
xt
Analyse syntaxique
1 L' le D DET n=s|s=def 100 3 det _ _
2 excentrique excentrique A ADJ n=s|s=qual _ 3 mod _ _
3 Lady Lady N NPP s=p _ 5 subj _ _
4 Gaga Gaga N NPP s=p _ 3 mod _ _
5 est être V V m=ind|n=s|p=3|t=pst 1101011 0 root _ _
6 au à P+D P+D s=def 1111111 5 mod _ _
7 coeur coeur N NC g=m|n=s|s=c 11111 6 obj_ _ _
8 de de P P _ 11110 7 dep _ _
9 l' le D DET n=s|s=def 100 10 det _ _
10 actu actualité N NC g=f|n=s|s=c _ 8 obj _ _
11 depuis_qu' depuis_que C CS s=s 1100101 5 mod _ _
12 elle cln CL CLS s=suj 1101110 14 suj _ _
13 a avoir V V m=ind|n=s|p=3|t=pst 1101010 14 aux_tps _ _
14 dévoilé dévoiler V VPP g=m|m=part|n=s|t=past 1100011 11 obj _ _
15 son son D DET n=s|s=poss 1011110 16 det _ _
16 single single N NC g=m|n=s|s=c _ 14 obj _ _
17 « « PONCT PONCT s=w _ 16 ponct _ _
18 Applause Applause N NPP s=p _ 16 mod _ _
19 » » PONCT PONCT s=w _ 16 ponct _ _
20 issu issir V VPP g=m|m=part|n=s|t=past 1100010 16 mod _ _
21 de de P P _ 11110 16 dep _ _
22 son son D DET n=s|s=poss 1011110 24 det _ _
23 quatrième quatrième A ADJ n=s|s=ord 0 24 mod _ _
24 album album N NC g=m|n=s|s=c 11110 21 obj _ _
25 à à P P _ 1100110 14 mod _ _
26 découvrir découvrir V VINF m=inf 1100000 25 obj _ _
27 à_partir_du à_partir_de P P _ 101110 26 mod _ _
28 11 11 D DET s=card _ 29 mod _ _
29 novembre novembre N NC g=m|n=s|s=c 11110 27 obj _ _
30 . . PONCT PONCT s=s _ 5 ponct _ _
 Ce module fusionne les
informations de la reconnaissance
d’entités nommées avec l’analyse
syntaxique :
> Fusion des noeuds de l’arbre
syntaxique issues d’une même
EN (si possible)
> Association des EN avec leur
identifiant NERD et dbpedia
 Module de résoultion d’anaphores
simples des clitiques sujets
 Sortie au format RDF
BuildDepGraph
.conll06 .conllsimple.nerd
buildDep
Graph
.depnt
 Deux heuristisques
> un clitique sujet dans une subordonnée réfère au sujet de la principale.
Résolution des anaphores des clitiques sujets
L'excentrique Lady Gaga est au coeur de l'actu depuis qu' elle a dévoilé son single "Applause »
> un clitique sujet dans une principale réfère au sujet de la proposition
principale de la phrase précédante.
Jean aime les animaux. Il aime aussi les plantes. Mais il n’aime pas les écolos.
ExtractRdf
.depnt
extractRdf
.fullnt
 Ce module sélectionne les triplets RDF à
produire
 De manière générale, il faut tuner ce module
pour sélectionner les informations que l'on
souhaite extraire
 Dans notre cas, il s’agit de prendre les
triplets qui ont pour sujet une EN
SelectRDF
.fullnt
selectRdf
.nt
merci

Más contenido relacionado

Más de Julien PLU

Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...Julien PLU
 
Can Deep Learning Techniques Improve Entity Linking?
Can Deep Learning Techniques Improve Entity Linking?Can Deep Learning Techniques Improve Entity Linking?
Can Deep Learning Techniques Improve Entity Linking?Julien PLU
 
Enhancing Entity Linking by Combining NER Models
Enhancing Entity Linking by Combining NER ModelsEnhancing Entity Linking by Combining NER Models
Enhancing Entity Linking by Combining NER ModelsJulien PLU
 
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...Julien PLU
 
Le Web sémantique ? Kézako ?!!
Le Web sémantique ? Kézako ?!! Le Web sémantique ? Kézako ?!!
Le Web sémantique ? Kézako ?!! Julien PLU
 
Revealing Entities From Texts With a Hybrid Approach
Revealing Entities From Texts With a Hybrid ApproachRevealing Entities From Texts With a Hybrid Approach
Revealing Entities From Texts With a Hybrid ApproachJulien PLU
 
Populating DBpedia FR and using it for Extracting Information
Populating DBpedia FR and using it for Extracting InformationPopulating DBpedia FR and using it for Extracting Information
Populating DBpedia FR and using it for Extracting InformationJulien PLU
 
Using DBpedia for Spotting and Disambiguating Entities
Using DBpedia for Spotting and Disambiguating EntitiesUsing DBpedia for Spotting and Disambiguating Entities
Using DBpedia for Spotting and Disambiguating EntitiesJulien PLU
 

Más de Julien PLU (8)

Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
 
Can Deep Learning Techniques Improve Entity Linking?
Can Deep Learning Techniques Improve Entity Linking?Can Deep Learning Techniques Improve Entity Linking?
Can Deep Learning Techniques Improve Entity Linking?
 
Enhancing Entity Linking by Combining NER Models
Enhancing Entity Linking by Combining NER ModelsEnhancing Entity Linking by Combining NER Models
Enhancing Entity Linking by Combining NER Models
 
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
Knowledge extraction in Web media: at the frontier of NLP, Machine Learning a...
 
Le Web sémantique ? Kézako ?!!
Le Web sémantique ? Kézako ?!! Le Web sémantique ? Kézako ?!!
Le Web sémantique ? Kézako ?!!
 
Revealing Entities From Texts With a Hybrid Approach
Revealing Entities From Texts With a Hybrid ApproachRevealing Entities From Texts With a Hybrid Approach
Revealing Entities From Texts With a Hybrid Approach
 
Populating DBpedia FR and using it for Extracting Information
Populating DBpedia FR and using it for Extracting InformationPopulating DBpedia FR and using it for Extracting Information
Populating DBpedia FR and using it for Extracting Information
 
Using DBpedia for Spotting and Disambiguating Entities
Using DBpedia for Spotting and Disambiguating EntitiesUsing DBpedia for Spotting and Disambiguating Entities
Using DBpedia for Spotting and Disambiguating Entities
 

Extraction de la semantique

  • 1. Challenge DOP Extraction de la Sémantique Jonathan Marchand Julien Plu (@julienplu - plu.julien@gmail.com) Guillaume Viland Séminaire Wimmics, Sophia-Antipolis, le 17/01/2014
  • 2. Un vrai challenge… président , Venezuela, Hugo Chavez Hugo Chavez, décédé, mardi 5/3/2013 Hugo Chavez, décédé à , Caracas Hugo Chavez, âge, 58 ans Hugo Chavez, cause décès, cancer président , Venezuela, Hugo Chavez Hugo Chavez, décédé, mardi 5/3/2013 Hugo Chavez, décédé à , Caracas Hugo Chavez, âge, 58 ans Hugo Chavez, cause décès, cancer
  • 3.  Sémantique : modélisation du sens d'un énoncé (phrase, discours, etc.)  Généralement modélisé formellement en logique du premier ordre représentable sous forme de graphe Le chien que Marie aime dort. Analyse Sémantique dormir chienMarie aime agent patient agent
  • 4. Exemple avec Lady Gaga Sujet Prédicat Objet Lady Gaga etre acoeurdeactu Lady Gaga devoiler Applause (film) L'excentrique Lady Gaga est au coeur de l'actu depuis qu'elle a dévoilé son single "Applause" issu de son quatrième album à découvrir à partir du 11 novembre.
  • 6.  Part of Speech Tagger (étiqueteur morpho-syntaxique) et Parser stochastiques  Corpus entraîné sur la French Dependency Treebank (Paris 7)  Analyse syntaxique de surface en dépendances (sous forme d’arbre) ParseText .txt Tokenizer et PoS Tagger : Melt .conll06 .inmalt Parser : MaltParse r .inmalt ParseTe xt
  • 7. Analyse syntaxique 1 L' le D DET n=s|s=def 100 3 det _ _ 2 excentrique excentrique A ADJ n=s|s=qual _ 3 mod _ _ 3 Lady Lady N NPP s=p _ 5 subj _ _ 4 Gaga Gaga N NPP s=p _ 3 mod _ _ 5 est être V V m=ind|n=s|p=3|t=pst 1101011 0 root _ _ 6 au à P+D P+D s=def 1111111 5 mod _ _ 7 coeur coeur N NC g=m|n=s|s=c 11111 6 obj_ _ _ 8 de de P P _ 11110 7 dep _ _ 9 l' le D DET n=s|s=def 100 10 det _ _ 10 actu actualité N NC g=f|n=s|s=c _ 8 obj _ _ 11 depuis_qu' depuis_que C CS s=s 1100101 5 mod _ _ 12 elle cln CL CLS s=suj 1101110 14 suj _ _ 13 a avoir V V m=ind|n=s|p=3|t=pst 1101010 14 aux_tps _ _ 14 dévoilé dévoiler V VPP g=m|m=part|n=s|t=past 1100011 11 obj _ _ 15 son son D DET n=s|s=poss 1011110 16 det _ _ 16 single single N NC g=m|n=s|s=c _ 14 obj _ _ 17 « « PONCT PONCT s=w _ 16 ponct _ _ 18 Applause Applause N NPP s=p _ 16 mod _ _ 19 » » PONCT PONCT s=w _ 16 ponct _ _ 20 issu issir V VPP g=m|m=part|n=s|t=past 1100010 16 mod _ _ 21 de de P P _ 11110 16 dep _ _ 22 son son D DET n=s|s=poss 1011110 24 det _ _ 23 quatrième quatrième A ADJ n=s|s=ord 0 24 mod _ _ 24 album album N NC g=m|n=s|s=c 11110 21 obj _ _ 25 à à P P _ 1100110 14 mod _ _ 26 découvrir découvrir V VINF m=inf 1100000 25 obj _ _ 27 à_partir_du à_partir_de P P _ 101110 26 mod _ _ 28 11 11 D DET s=card _ 29 mod _ _ 29 novembre novembre N NC g=m|n=s|s=c 11110 27 obj _ _ 30 . . PONCT PONCT s=s _ 5 ponct _ _
  • 8.  Ce module fusionne les informations de la reconnaissance d’entités nommées avec l’analyse syntaxique : > Fusion des noeuds de l’arbre syntaxique issues d’une même EN (si possible) > Association des EN avec leur identifiant NERD et dbpedia  Module de résoultion d’anaphores simples des clitiques sujets  Sortie au format RDF BuildDepGraph .conll06 .conllsimple.nerd buildDep Graph .depnt
  • 9.  Deux heuristisques > un clitique sujet dans une subordonnée réfère au sujet de la principale. Résolution des anaphores des clitiques sujets L'excentrique Lady Gaga est au coeur de l'actu depuis qu' elle a dévoilé son single "Applause » > un clitique sujet dans une principale réfère au sujet de la proposition principale de la phrase précédante. Jean aime les animaux. Il aime aussi les plantes. Mais il n’aime pas les écolos.
  • 11.  Ce module sélectionne les triplets RDF à produire  De manière générale, il faut tuner ce module pour sélectionner les informations que l'on souhaite extraire  Dans notre cas, il s’agit de prendre les triplets qui ont pour sujet une EN SelectRDF .fullnt selectRdf .nt
  • 12. merci

Notas del editor

  1. Exemple très simplifié
  2. Montrer la diff entre constituants/dépendances, et montrer que le second est plus proche de la sémantique Parler de TiLT
  3. - format conll - actu : actualité - Déterminant ou adjectif discutable, piège difficile à éviter : ordinal au lieu de cardinal (date)
  4. - (17,18,19) Comment gérer la ponctuation ? - (21) Mauvais rattachement prépositionnel. (25) Mauvais rattachement prépositionnel (ambiguïté avec 16 et 24)
  5. URI BDC Lemmatisation Resolution anaphores
  6. On applique le pattern S V O On autorise : Les génitifs - Les COD et certains COI Les formes passives Supprime les adjectifs et circonstanciels
  7. Parler de l’exemple Chavez -> thématisation !!