4. Semantiek achterhalen van woorden en daar de advertentie op
afstemmen.
“Is de jager op dreef?” zei de student diergeneeskunde
“Is De Jager op dreef?” zei de parlementair journalist
Syntax versus semantiek
5. Entiteiten vaststellen in een document en meegeven in de html:
mensen (‘edward
norton’), gebeurtenissen, bedrijven, landen, sport, eten (‘nasi’)
etc.
Ontologie is opgebouwd uit entiteiten (annotaties).
De tekst: “Mark Rutte is Minister Of The Netherlands” zou je kunnen
vervangen door het volgende stukje RDF/XML:
<rdf:Description rdf: about=#Mark Rutte”>
<isMinisterOf rdf:resource=”#The Netherlands “/>
</rdf:Description>
Bepaal de interpretatie van data door te begrijpen wat de
bedoeling is van de zoeker en de contextuele betekenis van de
termen door het web (associatief slim).
6. Semantiek achterhalen:
Annotaties in de vorm van
RDF en Microformats –
vanuit de documenten
Automatisch herkennen
van entiteiten – vanuit de
zoeker
Binnen de organisatie is een
ontologie het best bruikbaar voor
specifieke domeinen.
Mogelijk te combineren met
externe linked open data
8. Explosieve groei van informatie – de komst van ‘Big Data’
Het wordt lastiger om informatie te beheren en structuur/ betekenis
te achterhalen in de diversiteit en heterogeniteit van bronnen;
Zoeken en vinden is een probleem, maar daarbovenop de gemiste
kansen door onontgonnen informatie.
[T]here are known knowns; there are things we know Database Search
that we know.
There are known unknowns; that is to say there are Enterprise Search
things that, we now know we don't know.
But there are also unknown unknowns – there are Semantic Search
things we do not know, we don't know.
”
—United States Secretary of Defense, Donald
Rumsfeld
9. Digitale (web)teksten
geautomatiseerd
samenvatten, interpreteren
en anonimiseren.
• Sentence Boundary
Detector
• Parser
• Namefinder
• Pattern Recognizer
• PostTagger
• Role Designation
• Associative network
• Tag cloud
• Topic Extraction
• Herleiden van de betekenis van entiteiten uit de context van een
pagina;
• Natuurlijk taal applicaties (NLP)
In grote hoeveelheden data zonder dat hier mensenwerk bij komt
kijken. Alleen mensenwerk bij toevoegen content en ontwikkelen
techniek.
10. … een kijkje achter de schermen
Open Calais van Reuters is een platform dat pagina’s via een API naar
semantische pagina’s verrijkt. Hierbij put Reuters uit haar database
van personen, plaatsen en locaties. http://viewer.opencalais.com/
PlatypusWiki is een pakket waarmee semantische wiki’s gemaakt
kunnen worden. Semantic wiki is een upgrade van de ‘Wikipedia’
Mediawiki software om semantische pagina’s te bouwen.
11. Holding promises of Semantic Search
Bedreiging voor SEO, ondanks succes dankzij
Semanic contextualization
Superieur business
intelligence – analyse
gestructureerde/
ongestructureerde content
12. Zoek op een persoon en vind zijn/ haar geboorteplaats, -
datum, broers en zussen, etc.
Geen links maar
antwoorden!