1. semantisch zoeken
in een webomgeving
semantisch web, knowledge graph, ontologieën, metadata, linked data, ....
Eric Sieverts
@sieverts
E-discovery juni 2014
2. semantisch zoeken
semantisch zoeken ≡ semantisch web
van het semantisch web zoals dat Tim Berners Lee in 2004
voor ogen stond, zijn alleen pas wat losse bouwstenen
gerealiseerd, maar die helpen wel bij "semantisch zoeken"
eric sieverts, juni 20142
semantisch
zoeken
semantisch
web
entiteiten
ontologieën
metadata
….
3. semantisch zoeken
zoeken doen we allemaal, maar wat is
semantisch zoeken ?
heel globaal 2 aspecten daaraan:
1. inschatten wat zoekers met hun zoekvraag bedoelen
"no strings but things"
bijvoorbeeld:
– om concreet antwoord te kunnen geven,
in plaats van lijstje met "ten blue links"
2. interpretatie van de betekenis van (in webpagina's)
aangeboden content
eric sieverts, juni 20143
6. semantisch zoeken
zoeken doen we allemaal, maar wat is
semantisch zoeken ?
heel globaal 2 aspecten daaraan:
1. inschatten wat zoekers met hun zoekvraag bedoelen
– concreet antwoord in plaats van "ten blue links"
2. interpretatie van de betekenis van (in webpagina's)
aangeboden content
bijvoorbeeld:
– ten behoeve van die concrete antwoorden, of
– om in die "ten blue links" extra informatie te kunnen tonen
eric sieverts, juni 20146
8. semantisch zoeken
1. bepalen wat de zoeker bedoelt
– uit locatie van de zoeker
bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
– uit eerder zoekgedrag van de zoeker
bijv.: personalisatie van ranking bij Google
– door analyse van de zoekvraag
• uit algemene statistiek van zoekvragen
bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian"
• door herkennen van "entiteiten"
bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn)
• door natuurlijke taalinterpretatie
– ...
eric sieverts, juni 20148
9. semantisch zoeken
2. interpretatie van betekenis in webpagina's
– herkennen van entiteiten in de tekst
bijv.: namen van personen, bedrijven, steden, producten, ...
– automatisch herkennen van betekenis
bijv.: door "machine learning" getraind op vaste concepten
– gebruik van metadata/codering volgens ontologieën
bijv.: informatie gecodeerd met begrippen uit schema.org ontologie
– uit structuur van beschikbare informatie
bijv.: gestructureerd opgeslagen kenmerken in Facebook
– koppelen aan data uit andere bronnen
bijv.: linked (open) data
– ...
eric sieverts, juni 20149
10. 1. intentie van de zoeker
intentie of context van zoekvraag kan worden bepaald:
• op basis van de locatie van de zoeker
– globaal:
op basis van internetdomein waar gebruiker zit (ip-adres)
op google.nl krijg je ander antwoord dan op google.com
– heel precies:
op basis van bekende gps- of gsm-gegevens (mobiel)
• op basis van eerder zoekgedrag van de zoeker
• op basis van analyse van gestelde vraag
eric sieverts, juni 201410
11. 1. intentie van de zoeker
intentie of context van zoekvraag kan worden bepaald:
• op basis van de locatie van de zoeker
• op basis van eerder zoekgedrag van de zoeker
– wat voor zoekvragen stelde gebruiker eerder
– naar welke resultaten keek gebruiker dan
(zoals toegepast in Google's relevantie-personalisatie;
opgeslagen "web history" is ook al "big data")
• op basis van analyse van de gestelde vraag
eric sieverts, juni 201411
12. 1. intentie van de zoeker
intentie of context van vraag kan worden bepaald:
• op basis van locatie
• op basis van eerder zoekgedrag
• op basis van analyse van de gestelde vraag
– naam van persoon, bedrijf, product, gebeurtenis, … >> feiten
– naam van gewoon persoon >> facebook / linked-in gegevens
– herkent vaste combinaties van woorden
– natuurlijke taal interpretatie
– statistiek op frequente eerdere vragen
eric sieverts, juni 201412
Google
Knowledge
Graph
wolfram|alpha
13. Wie “Bach” zoekt, zal vermoedelijk J.S. bedoelen
en liever gegevens dan websites over hem vinden
Google's Knowledge Graph kent >500 miljoen
objecten met >3,5 miljard kenmerken
(deels ook in het Nederlands)
13
gegevens o.a. afkomstig uit:
"Freebase" (crowdsourced kennisbank),
Wikipedia, CIA World factbook en
(statistische) analyse van eigen gegevens
14. wat is in dit verband een "graph"?
een netwerk van al die concepten met
hun onderlinge relaties en kenmerken
14
15. 15 eric sieverts, juni 2014
meer uit de Knowledge Graph
generieke
vragen
leveren
"carousel"
31. hoe doen reguliere zoekmachines en
gespecialiseerde semantische systemen
het bij inhoudelijke vragen?
"how many plays wrote Shakespeare ?"
31
"how many plays wrote
Shakespeare ?"
34. hoe doen reguliere zoekmachines en
gespecialiseerde semantische systemen
het bij inhoudelijke vragen?
"who won the 1992 Nobel Peace Prize ?"
34
"who won the 1992
Nobel Peace Prize ?"
35. 2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning"
(met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens
(bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 201435
39. 2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning"
(met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens
(bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 201439
46. 2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning"
(met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens
(bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 201446
47. eric sieverts, juni 2014
gebruik van semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's - "semantic markup"
voorbeelden van zulke "embedded metadata":
– recipe search bij Google en Yahoo
– toepassing e-commerce ontology
daarbij gebruikte standaarden:
– rich snippet markup / microdata / schema.org
(Google, Yahoo, Bing, Yandex)
onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek
– RDFa
47
53. nieuwe standaard van de zoekmachinegiganten: microdata
hiërarchie van kenmerken voor embeddable metadata in webpagina’s
53
+ nu ook
Yandex
54. de concepten uit de
good relations ontology
zijn recent ook in
schema.org geïncorporeerd
door Google, Bing en Yahoo vastgelegde standaard: microdata
met hiërarchie van embeddable metadata kenmerken voor het web
54
55. microdata en RDFa
• toepassing hiervan op open web is vaak "SEO-driven"
• Google biedt webmasters "Structured data testing tool" dat
fouten in codering detecteert
zie blogposts op
SearchEngineLand:
http://searchengineland.com/how
-to-use-rich-snippets-semantic-
markup-to-send-rich-signals-
139886
http://searchengineland.com/5-
ways-optimize-markup-
knowledge-graph-semantic-
search-186755
eric sieverts, juni 201455
56. • zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt al extra informatie over gevonden
items in zijn 10 blue links
(zoals Google's rich snippets)
wat heeft zoeker hieraan?
60. 2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning"
(met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens
(bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 201460
61. betekenis door structuur
Facebook
• kent betekenis toe door gegevens gestructureerd op te slaan
• doet dat ook in een "graph" >> graph search
61 eric sieverts, juni 2014
Facebook Graph Search
alles wat gebruikers registreren,
wordt gestructureerd opgeslagen
in Facebook's graph (met
gestandaardiseerde betekenis),
waardoor ook gestructureerd
gezocht kan worden
62.
63. 2. interpretatie van betekenis
betekenis herkennen (van tekst) in webpagina's
• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën zoals
plaats, persoon, bedrijf, product, ...)
• automatische categorisatie door training via "machine learning"
(met taxonomie of thesaurus, zowel inhoudelijk als bijv. "sentiment detection")
• betekenis die herkenbaar aanwezig is in "embedded metadata"
(bijvoorbeeld binnen XML of (X)HTML coderingen) >> semantisch web
• betekenis af te leiden uit structuur van opgeslagen gegevens
(bijvoorbeeld bij Facebook Graph Search)
• voor inhoudelijke koppeling met geselecteerde andere bronnen
(bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 201463
64. Tim Berners Lee:
1989: "invented" the World Wide Web
2004: proposed the "semantic web"
2006: designed "linked data" as a step towards
realisation
of the semantic web
eric sieverts, juni 201464
van web tot linked data intermezzo linked data
65. linked data
linked (open) data
• kan weergegeven als RDF-tripels
zodat die data computer-leesbaar zijn
• ze staan op internet
zodat het "open" is
• bedoeld om te worden hergebruikt
zodat het belangrijk ingrediënt voor het semantisch web is
• is gestandaardiseerd
zodat het makkelijk hergebruikt kan worden
• iedereen kan (en moet!) data bijdragen
waardoor het soms wel een beetje een rommeltje is
• je kunt zoeken in linked data triple-stores
SPARQL is voor linked data wat SQL is voor relationele database
eric sieverts, juni 201465
intermezzo linked data
66. intermezzo linked datardf tripels
eric sieverts, juni 201466
naar idee van
Lucas Koster / IP
"Uit Berlijn"
boek
Uit Berlijn
"Armando"
Schuldig
landschap
http://www.worldcat.org/oclc/10098995
http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://xmlns.com/foaf/spec/#term_name
http://viaf.org/viaf/9885610/
http://hdl.handle.net/10934/RM0001.COLLECT.496040
http://purl.org/dc/terms/creator
http://purl.org/dc/terms/creator
http://schema.org/Book
Armando
http://purl.org/dc/terms/title
67. dbpedia: data
from Wikipedia
last.fm: artists
geonames:
6.2 M toponyms
BBC: wildlife
finder
project
GutenbergIMDB
music brainz
Reuters:
openCalais
viaf: virtual
international
authority file
LCSH
NY times
Flickr
"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussen
door standaardisering van dataformats en metadata,
kunnen computers betekenis van die data "begrijpen" en die data gebruiken
rechtspraak.nl
68. in semantisch web
wordt van "alles"
de betekenis
vastgelegd
eric sieverts, juni 2014
semantisch web
om betekenis ook te
kunnen begrijpen zijn
"ontologieën" nodig
68
intermezzo semantisch
web & ontologieën
70. "Ontology is the philosophical study of the nature of
being, becoming, existence, or reality, as well as
the basic categories of being and their relations"
Wikipedia
filosofie
kunstmatige
intelligentie
semantisch
web
70
linked
(open) data
ontologieën
eric sieverts, juni 2014
intermezzo semantisch
web & ontologieën
70
71. filosofie
kunstmatige
intelligentie
semantisch
web
71
linked
(open) data
ontologieën
eric sieverts, juni 2014
intermezzo semantisch
web & ontologieën
“een ontologie is een strikt en uitputtend schema
voor een bepaald onderwerpsdomein,
meestal in een hiërarchische structuur,
die alle relevante grootheden en hun relaties bevat,
alsmede de regels waaraan die grootheden en
relaties binnen dat domein voldoen”
of: een geformaliseerde kennisrepresentatie, meestal voor
een beperkt onderwerpsdomein (bijv. een wijnontologie)
71
72. relaties tussen enkele concepten
in een eenvoudige "wijn-ontologie"
Château Lafitte Rothschild {is een} wijnhuis
Château Lafitte Rothschild {produceert} Château Lafitte Rothschild Pauillac
Bordeaux {heeft als beste wijnhuizen} Château Lafitte Rothschild
Château Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild
Château Lafitte Rothschild Pauillac {is een} Pauillac
Bordeaux {is een} wijnstreek
....
veel meer soorten relaties mogelijk
dan alleen BT, NT, RT, Use, Used for
72
hiërarchische structuur van
concepten van één soort in
een eenvoudige "wijn-ontologie"
73. voorbeeld van de relaties
tussen concepten m.b.t.
het standbeeld van Balzac
door Rodin [CIDOC-CRM]
73
74. elk soort kennisorganisatiesysteem waarmee betekenis
beschreven kan worden, dus ook:
• thesauri
• taxonomieën
• semantische netwerken
• namenlijsten
• concordanties
• …
in veel algemenere zin dan alleen "echte" ontologieën
formele standaard notaties nodig om ze te beschrijven
filosofie
kunstmatige
intelligentie
semantisch
web
74
linked
(open) data
schema.org
is ook simpele
vorm hiervan
ontologieën
eric sieverts, juni 2014
intermezzo semantisch
web & ontologieën
74
75. "conceptuele datamodellen" voor allerlei domeinen, zoals
• foaf (persoonsgegevens)
• dublin core (15 velden voor vooral erfgoed)
• good-relations ontology (e-commerce)
• music ontology (muziek)
• skos (thesaurusrelaties)
• cidoc-crm (erfgoed)
definities van "velden", klassen van eigenschappen, e.d.,
meestal niet van hun inhouden
filosofie
kunstmatige
intelligentie
semantisch
web
75
linked
(open) data
eric sieverts, juni 2014
intermezzo semantisch
web & ontologieënontologieën
75
76. semantisch zoeken
slotconclusies:
al is het hele "semantisch web" er misschien nog niet,
er is wel steeds meer semantiek op het web,
zowel bij zoekmachines als in webpagina's zelf
daardoor wordt het vinden van informatie (of feiten en
antwoorden?) steeds makkelijker
maar wel vooral nog voor mainstream onderwerpen
en voor informatiespecialisten blijven de spreekwoordelijke
"ten blue links" onontbeerlijk om goed gefundeerde
antwoorden te kunnen geven
eric sieverts, juni 201476