1. La toile des fictions
et
les connaissances
Serge Abiteboul
INRIA & ENS Cachan
Conseil national du numérique & Académie des sciences
5/18/2013 1La toile des fictions
2. • Les personnages de ce roman étant réels, toute
ressemblance avec des individus imaginaires, serait
fortuite. Raymond Queneau (Le Dimanche de la vie)
• … l'histoire est entièrement vraie, puisque je l'ai
imaginée d'un bout à l'autre. Boris Vian (L'Écume des
jours)
• Mettons-nous bien d'accord, mes drôles : ces
personnages et cette compagnie sont fictifs
absolument ! Ils n'existent pas, n'ont jamais existé, ne
se permettront jamais d'exister. Et c'est bien dommage
! San-Antonio (Les Vacances de Bérurier)
5/18/2013 La toile des fictions 2
3. Préambule
• J’ai découvert ce sujet très récemment en
discutant avec Yannick Maignien
– Je n’ai encore rien fait de sérieux là-dessus
• Pour en savoir plus sur mon travail
– Web: abiteboul.com
– Blog: http://abiteboul.blogspot.fr/
5/18/2013 La toile des fictions 3
4. Organisation
• Introduction
• Créer une ontologie
• Aligner des ontologies
• Données probabilistes
• Quelques aspects en vrac
• Séparer le vrai du faux
• Conclusion
5/18/2013 La toile des fictions 4
6. La vérité dans/sur la Toile
• Erreurs
• Exagérations
• Mensonges
• Omissions
• Manipulations
• Délires
• Folies
• …
• Fiction
• …
• Où est la vérité? Quelle vérité ?
– Qui est le gouvernement légitime en Syrie ?
– Est-ce qu’Elvis est mort ?
– Peut-on voler sur un balai ? Et dans l’univers de J. K. Rowling ?
Une information
prise au hasard sur
la toile n’a aucun
sens avec une forte
probabilité,
Et si elle en a un, il
est faux avec une
forte probabilité
5/18/2013 La toile des fictions 6
7. La fiction sur la Toile
• De plus en plus de fiction sur la toile
• Romans et toutes sortes de textes en
Creativecommons
– E.g: fanfics(récits que des fans écrivent pour
prolonger, amender ou même totalement transformer
un roman, un manga, une série télévisée, un film, un
jeu vidéo…)
• D’autres références que dans le monde réel
– Personnages, lieux….
• Extraire les connaissances du Web, c’est aussi
retrouver ces références
5/18/2013 La toile des fictions 7
8. HIRONDELLES SUR LE WEB
AVEC LUC BLANCHARD, EDITION STUDIO GRAPH
Je prendrai parfois mes exemples de l’extraction de
connaissances d’un roman disponible sur la toile
5/18/2013 La toile des fictions 8
9. Le mélange banal : réalité et fiction
• Une fiction
– Une énigme policière inventée
– Personnages, évènements, lieux fictifs
– La fin du roman se passe dans le futur
• Des lieux, personnages, évènements vrais
– Autour de la ville de Sèvres
– Simone Hagnauer – Hirondelle
– L’histoire oubliée de La maison d’enfants de Sèvres
5/18/2013 La toile des fictions 9
11. Extraction manuelle sur la toile
Ajouter manuellement des annotations sémantiques dans
des langages formels sur les ressources de la Toile
Freebase: Freebase is an open, Creative Commons
licensed graph database with millions of entities
Linked data: publish RDF links between Web data
Gros succès mais limites
– Sur la toile, les gens aiment écrire du texte pas éditer des
ontologies
5/18/2013 La toile des fictions 11
12. Extraction manuelle
• C’est ce qui se passe dans des domaines scientifiques
ou industriels
• Et dans le domaine de la fiction ?
– Personnage fictif
– Personnage réel – yago:jean_martin
– Probable lieu réel – gmap:sèvres-france
– Possible personnage réel : yanouche@globenet.org
• Un écrivain voudra-il passer du temps à annoter
sémantiquement son roman ?
• Qui d’autre ?
5/18/2013 La toile des fictions 12
13. Extraction automatique de
connaissances de la Toile
A partir de tables en HTML et pdf
A partir de données disponibles de formulaires
– Énormément de données structurées disponibles
A partir de textes (en HTML)
– Des sources comme Wikipedia contiennent
beaucoup de connaissance
– Exemple : Yago
18/05/2013 13La toile des fictions
14. Extraction de texte : Yago
• E.g., thesis of Fabian Suchanek
• YAGO is a knowledge base developed at the Max
Planck Institute for Computer Science in
Saarbrücken
• As of 2012, YAGO has knowledge of more than 10
million entities and contains more than 120
million facts about these entities
• The information in YAGO is automatically extrac-
ted from Wikipedia, WordNet, and GeoNames
• The accuracy of YAGO was manually evaluated to
be above 95% on a sample of facts
5/18/2013 La toile des fictions 14
Mes excuses pour les
textes en anglais ici
ou là
15. Extraction de texte : Yago
• E.g., thesis of Fabian Suchanek
• YAGO is a knowledge base developed at the Max
Planck Institute for Computer Science in
Saarbrücken
• As of 2012, YAGO has knowledge of more than 10
million entities and contains more than 120
million facts about these entities
• The information in YAGO is automatically extrac-
ted from Wikipedia, WordNet, and GeoNames
• The accuracy of YAGO was manually evaluated to
be above 95% on a sample of facts
5/18/2013 La toile des fictions 15
16. Extraction from text : difficile
Natural language processing is complex and
error prone
Simpler if we already have an ontology with lots
of instances
– Possible to semi-automatically wrap new data
sources using overlaps with already known data
– Use specific techniques adapted to the particular
domain
– Heavy use of statistics
5/18/2013 16La toile des fictions
18. Hirondelles sur la Toile
Ontologie
universelle
Contexte du roman: plusieurs ontologies
5/18/2013 La toile des fictions 18
Ontologie
perso de
Serge
Abiteboul
Ontologie
de la
Maison
d’enfants
de Sèvres
19. Alignement d’ontologies
[SuchanekAbiteboulSenellart, PVLDB Journal 201O]
Aligner les entités/relations du texte avec ces ontologies
– La ville de Sèvres
– Le directeur d’Espace dans le roman, dans la réalité, dans
les contacts de Serge A.
Le système Paris
Alignement des concepts
Alignement des relations
Détecter la fonctionalité des relations
Evaluer les probabilités
Délicat : précision et rappel (recall)
5/18/2013 19La toile des fictions
20. Difficulté: précision et rappel (recall)
• Exemple « identifier un personnage du
roman »
• Trop de précision : on va en rater parce que le
roman est imprécis où qu’il prend des libertés
avec la réalité
• Trop de témérité : on va identifier à tord des
personnages du livre
• Incertain
• Quantifier l’incertain – les probabilités
5/18/2013 La toile des fictions 20
22. Bases de données probabilistes
• E.g., thèse de Pierre Senellart
• Faits avec des probabilités
– Alice est à Londres 98%
– et Bob aussi 98%
– Mais les deux faits sont indépendants
• Faits conditionnés par des évènements
– Alice est à Londres si x est vrai (x est 98%)
– Bob aussi si x est vrai
– Sue est à Edinbourg si x est faux
5/18/2013 La toile des fictions 22
23. Calculer des réponses
• Répondre aux requêtes dans ce contexte
– Faits certains
– Faits possibles
– Faits avec probabilité 42%?
• Complexe sur de gros volumes de données
• Techniques d’échantillonnage
• Raisonner sur des bases de connaissances
probabilistes
– pas simple
• Sujet de recherche
5/18/2013 La toile des fictions 23
25. Aspects spatio-temporels
• Résoudre la localisation dans le texte
• Résoudre la temporalité dans le texte
• L’ontologie peut évoluer
– Vous changez d’adresse, d’emploi
– Les identités peuvent changer
Des pays fusionnent (Allemagne), se découpent
(Yougoslavie)
– Les lois changent
« un mariage unit un homme et une femme »
5/18/2013 La toile des fictions 25
26. Erreurs dans les schémas
des ontologies
• En plus d’erreurs sur les faits
– Alice est à Paris alors qu’elle est en fait à Londres
• Des erreurs sur les schémas – les règles
– On ne peut pas être enseignant et étudiant à la
fois – des contrexemples
– Les personnes sont des véhicules – quasi que des
contrexemples
– Une seule règle fausse peut générer des millions
de faits erronés
5/18/2013 La toile des fictions 26
27. Cœur du problème dans la fiction:
séparer réalité ou fiction
• Personnages réels ou pas
• Evènements réels ou pas
• Lieux réels ou pas
• …
• Et toute la zone grise
– Peut-être réel
– Aurait pu exister
– Improbable
– Impossible…
5/18/2013 La toile des fictions 27
28. Dans un mondeoù rien n’est certain
• Mondes possibles : le coupable du deuxième
meurtre pourrait être M. X ou M. Y – le roman
laisse le doute
• Mondes parallèles : dans le roman, Tadeo
Ando a construit un musée sur l’Île Seguin
– Ce n’est pas juste faux, c’est un autre monde
5/18/2013 La toile des fictions 28
30. Raisonner en monde ouvert…
• Dans un monde ouvert où tout est positif, tout pourrait
être vrai
• Le monde des moteurs de recherche
– Une référence à une page indique de l’intérêt – même si
vous dites « tout faux »
• On ne passe pas son temps à dire :
– Je ne suis jamais allé au Chili
– Je ne suis pas un serial killer…
• Plus rarement
– voici la liste complète de tous les pays où je suis allé
• Une bonne source de faits négatifs: les fonctions
5/18/2013 La toile des fictions 30
31. Contradictions
• Des sources de données & des faits
• S13 dit qu’Alice est à Paris
– Elle n’est pas à Rome, Madrid…
• S12 dit qu’Elvis est vivant
– Il n’est pas mort
• En votant on estime la vraisemblance des faits
• Du coup, on estime la qualité des sources (taux
d’erreur)
• Du coup, on peut même estimer la probabilité de faits
nouveaux
5/18/2013 La toile des fictions 31
32. Travail sur la corroboration
[GallandAbiteboulMarianSenellart, WSDM 2010]
• Des sources de données & des faits
• Peut-on faire mieux que le vote ?
• On peut faire mieux
– En estimant la probabilité d’erreur des sources
– En réévaluant la probabilité d’erreur des faits
– …
– Jusqu’à arriver à un point fixe
• Plus grosse difficulté : la complexité
5/18/2013 La toile des fictions 32
33. Améliorations possibles
• Déterminer l’expertise dans des domaines
particuliers
– Sources spécialisées
• Déterminer les corrélations entre des sources
– Si S4 dit toujours la même chose (y compris pour
les erreurs) que S12, ce n’est plus de la
corroboration mais peut-être des copies
5/18/2013 La toile des fictions 33
34. Vraisemblance
1. Obama assiste à ma présentation
2. Obama a assisté à ma dernière présentation
3. Obama va venir à la fin de ma présentation
5/18/2013 La toile des fictions 34
35. Séparer le vrai du faux
On peut donc déduire (avec forte probabilité) qu’un
fait est faux pour pas mal de raisons
• Parce qu’il contredit d’autres faits plus probables
• Parce qu’il n’y a pas assez de raisons de le croire
• Parce qu’il est absent de sources assez complètes
sur ce sujet
• Parce qu’il est trop improbable
• Parce que le locuteur est un menteur chronique
• …
5/18/2013 La toile des fictions 35
37. L’acquisition de connaissances
• Dépend du texte
– De sa nature : roman, fanfic, etc.
– De ses hypothèses : Dans le monde de Harry
Potter, on peut voler avec un balai
– De sa place dans une série comme Le Poulpe
• Dépend du lecteur
– De ses connaissances préalables
– De ses intérêts
– De ses biais/croyances personnels
5/18/2013 La toile des fictions 37
38. Le biais de la fiction
• Par défaut les personnages sont inventés peut-être
« inspirés »
• On est éventuellement dans une logique particulière
• On est dans le monde de l’auteur
Sur la toile : on aimerait avoir des fléchage des sites en
« fiction », « bidon », « paranoïa »… « HP fanfic »…
– Ces annotations simplifieraient l’analyse
– Pourraient varier selon la personne qui annote
La toile des fictions 38