SlideShare una empresa de Scribd logo
1 de 17
Semantic Search Technology

‘De belofte van het semantisch web (web 3.0)’

                            Hannah Verhoeff
Semantiek achterhalen van woorden en daar de advertentie op
afstemmen.

“Is de jager op dreef?” zei de student diergeneeskunde
“Is De Jager op dreef?” zei de parlementair journalist

Syntax versus semantiek
Entiteiten vaststellen in een document en meegeven in de html:
mensen (‘edward
norton’), gebeurtenissen, bedrijven, landen, sport, eten (‘nasi’)
etc.

Ontologie is opgebouwd uit entiteiten (annotaties).
          De tekst: “Mark Rutte is Minister Of The Netherlands” zou je kunnen
          vervangen door het volgende stukje RDF/XML:
          <rdf:Description rdf: about=#Mark Rutte”>
          <isMinisterOf rdf:resource=”#The Netherlands “/>
          </rdf:Description>



Bepaal de interpretatie van data door te begrijpen wat de
bedoeling is van de zoeker en de contextuele betekenis van de
termen door het web (associatief slim).
Semantiek achterhalen:


                                     Annotaties in de vorm van
                                     RDF en Microformats –
                                     vanuit de documenten



                                     Automatisch herkennen
                                     van entiteiten – vanuit de
                                     zoeker




 Binnen de organisatie is een
 ontologie het best bruikbaar voor
 specifieke domeinen.


 Mogelijk te combineren met
 externe linked open data
Beperkte schaalbaarheid:




Afhankelijk van mensenwerk – inconsistente interpretatie

Arbeidsintensief

Afhankelijk van de bronsystemen
Explosieve groei van informatie – de komst van ‘Big Data’

Het wordt lastiger om informatie te beheren en structuur/ betekenis
te achterhalen in de diversiteit en heterogeniteit van bronnen;

Zoeken en vinden is een probleem, maar daarbovenop de gemiste
kansen door onontgonnen informatie.


[T]here are known knowns; there are things we know       Database Search
that we know.

There are known unknowns; that is to say there are       Enterprise Search
things that, we now know we don't know.

But there are also unknown unknowns – there are          Semantic Search
things we do not know, we don't know.
                                                     ”
      —United States Secretary of Defense, Donald
                                        Rumsfeld
Digitale (web)teksten
                                                                           geautomatiseerd
                                                                           samenvatten, interpreteren
                                                                           en anonimiseren.




                                                                           •   Sentence Boundary
                                                                               Detector
                                                                           •   Parser
                                                                           •   Namefinder
                                                                           •   Pattern Recognizer
                                                                           •   PostTagger
                                                                           •   Role Designation
                                                                           •   Associative network
                                                                           •   Tag cloud
                                                                           •   Topic Extraction


•   Herleiden van de betekenis van entiteiten uit de context van een
    pagina;
•   Natuurlijk taal applicaties (NLP)

                    In grote hoeveelheden data zonder dat hier mensenwerk bij komt
                   kijken. Alleen mensenwerk bij toevoegen content en ontwikkelen
                   techniek.
… een kijkje achter de schermen


Open Calais van Reuters is een platform dat pagina’s via een API naar
semantische pagina’s verrijkt. Hierbij put Reuters uit haar database
van personen, plaatsen en locaties. http://viewer.opencalais.com/

PlatypusWiki is een pakket waarmee semantische wiki’s gemaakt
kunnen worden. Semantic wiki is een upgrade van de ‘Wikipedia’
Mediawiki software om semantische pagina’s te bouwen.
Holding promises of Semantic Search




                            Bedreiging voor SEO, ondanks succes dankzij
                            Semanic contextualization




Superieur business
intelligence – analyse
gestructureerde/
ongestructureerde content
Zoek op een persoon en vind zijn/ haar geboorteplaats, -
datum, broers en zussen, etc.




                   Geen links maar
                   antwoorden!
Human resource
Semantic Search in te zetten binnen de organisatie



Cognito Technology
Sinequa
Sophia Search   Attivio
…‘De belofte van het semantisch web (web 3.0)’

Más contenido relacionado

Similar a 20120829 Presentatie over Semantic Search

Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenSmals
 
Zoekmachinemarketing
Zoekmachinemarketing Zoekmachinemarketing
Zoekmachinemarketing voginip
 
Semantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingSemantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingEric Sieverts
 
Metadata oplossingen
Metadata oplossingenMetadata oplossingen
Metadata oplossingengrus001
 
Eniac Essentials LCTY 2009
Eniac Essentials LCTY 2009Eniac Essentials LCTY 2009
Eniac Essentials LCTY 2009Edwin Kanis
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Enno Meijers
 
Enterprise Search - Evolutie Van Zoekmachines - Whitepaper
Enterprise Search - Evolutie Van Zoekmachines - WhitepaperEnterprise Search - Evolutie Van Zoekmachines - Whitepaper
Enterprise Search - Evolutie Van Zoekmachines - WhitepaperSilverside
 
Registreren en publiceren volgens CEST richtlijnen
Registreren en publiceren volgens CEST richtlijnenRegistreren en publiceren volgens CEST richtlijnen
Registreren en publiceren volgens CEST richtlijnenPACKED vzw
 
Presentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
Presentatie Roeland Ordelman slotbijeenkomst Verteld VerledenPresentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
Presentatie Roeland Ordelman slotbijeenkomst Verteld VerledenVerteldVerleden
 
De kracht van Structured Data
De kracht van Structured DataDe kracht van Structured Data
De kracht van Structured DataOrangeValley
 
Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Jeroen Rombouts
 
SharePoint Digitale Documentenhuishouding NVBA
SharePoint Digitale Documentenhuishouding NVBASharePoint Digitale Documentenhuishouding NVBA
SharePoint Digitale Documentenhuishouding NVBAguest223373
 
Voordeel halen uit zoekmachines en semantic web
Voordeel halen uit zoekmachines en semantic webVoordeel halen uit zoekmachines en semantic web
Voordeel halen uit zoekmachines en semantic webBart Hanssens
 
Workshop Knowledge Graphs- VOGIN-IP lezing 2022
Workshop Knowledge Graphs- VOGIN-IP lezing 2022Workshop Knowledge Graphs- VOGIN-IP lezing 2022
Workshop Knowledge Graphs- VOGIN-IP lezing 2022Joyce van Aalten
 
Structured content (GOEDE VERSIE KOMT NOG)
Structured content (GOEDE VERSIE KOMT NOG)Structured content (GOEDE VERSIE KOMT NOG)
Structured content (GOEDE VERSIE KOMT NOG)Youwe Drecomm OOIP
 
Referentiemodel Enterprise Content Management
Referentiemodel Enterprise Content ManagementReferentiemodel Enterprise Content Management
Referentiemodel Enterprise Content ManagementDanny Greefhorst
 
KVAN11 - TARA - Karin van der Heiden en Ivo Zandhuis
KVAN11 - TARA - Karin van der Heiden en Ivo ZandhuisKVAN11 - TARA - Karin van der Heiden en Ivo Zandhuis
KVAN11 - TARA - Karin van der Heiden en Ivo ZandhuisKVANdagen
 
Getting the most out of social business in traditional organisations
Getting the most out of social business in traditional organisations Getting the most out of social business in traditional organisations
Getting the most out of social business in traditional organisations Sander Zwart
 

Similar a 20120829 Presentatie over Semantic Search (20)

Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doen
 
Zoekmachinemarketing
Zoekmachinemarketing Zoekmachinemarketing
Zoekmachinemarketing
 
Semantisch zoeken in een webomgeving
Semantisch zoeken in een webomgevingSemantisch zoeken in een webomgeving
Semantisch zoeken in een webomgeving
 
Metadata oplossingen
Metadata oplossingenMetadata oplossingen
Metadata oplossingen
 
Eniac Essentials LCTY 2009
Eniac Essentials LCTY 2009Eniac Essentials LCTY 2009
Eniac Essentials LCTY 2009
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016
 
Enterprise Search - Evolutie Van Zoekmachines - Whitepaper
Enterprise Search - Evolutie Van Zoekmachines - WhitepaperEnterprise Search - Evolutie Van Zoekmachines - Whitepaper
Enterprise Search - Evolutie Van Zoekmachines - Whitepaper
 
Registreren en publiceren volgens CEST richtlijnen
Registreren en publiceren volgens CEST richtlijnenRegistreren en publiceren volgens CEST richtlijnen
Registreren en publiceren volgens CEST richtlijnen
 
Presentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
Presentatie Roeland Ordelman slotbijeenkomst Verteld VerledenPresentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
Presentatie Roeland Ordelman slotbijeenkomst Verteld Verleden
 
De kracht van Structured Data
De kracht van Structured DataDe kracht van Structured Data
De kracht van Structured Data
 
Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06
 
SharePoint Digitale Documentenhuishouding NVBA
SharePoint Digitale Documentenhuishouding NVBASharePoint Digitale Documentenhuishouding NVBA
SharePoint Digitale Documentenhuishouding NVBA
 
Voordeel halen uit zoekmachines en semantic web
Voordeel halen uit zoekmachines en semantic webVoordeel halen uit zoekmachines en semantic web
Voordeel halen uit zoekmachines en semantic web
 
Metadata is a messy subject! De ontwikkeling van metadatasets voor een overhe...
Metadata is a messy subject! De ontwikkeling van metadatasets voor een overhe...Metadata is a messy subject! De ontwikkeling van metadatasets voor een overhe...
Metadata is a messy subject! De ontwikkeling van metadatasets voor een overhe...
 
Workshop Knowledge Graphs- VOGIN-IP lezing 2022
Workshop Knowledge Graphs- VOGIN-IP lezing 2022Workshop Knowledge Graphs- VOGIN-IP lezing 2022
Workshop Knowledge Graphs- VOGIN-IP lezing 2022
 
Structured content (GOEDE VERSIE KOMT NOG)
Structured content (GOEDE VERSIE KOMT NOG)Structured content (GOEDE VERSIE KOMT NOG)
Structured content (GOEDE VERSIE KOMT NOG)
 
Structured Content
Structured ContentStructured Content
Structured Content
 
Referentiemodel Enterprise Content Management
Referentiemodel Enterprise Content ManagementReferentiemodel Enterprise Content Management
Referentiemodel Enterprise Content Management
 
KVAN11 - TARA - Karin van der Heiden en Ivo Zandhuis
KVAN11 - TARA - Karin van der Heiden en Ivo ZandhuisKVAN11 - TARA - Karin van der Heiden en Ivo Zandhuis
KVAN11 - TARA - Karin van der Heiden en Ivo Zandhuis
 
Getting the most out of social business in traditional organisations
Getting the most out of social business in traditional organisations Getting the most out of social business in traditional organisations
Getting the most out of social business in traditional organisations
 

20120829 Presentatie over Semantic Search

  • 1. Semantic Search Technology ‘De belofte van het semantisch web (web 3.0)’ Hannah Verhoeff
  • 2.
  • 3.
  • 4. Semantiek achterhalen van woorden en daar de advertentie op afstemmen. “Is de jager op dreef?” zei de student diergeneeskunde “Is De Jager op dreef?” zei de parlementair journalist Syntax versus semantiek
  • 5. Entiteiten vaststellen in een document en meegeven in de html: mensen (‘edward norton’), gebeurtenissen, bedrijven, landen, sport, eten (‘nasi’) etc. Ontologie is opgebouwd uit entiteiten (annotaties). De tekst: “Mark Rutte is Minister Of The Netherlands” zou je kunnen vervangen door het volgende stukje RDF/XML: <rdf:Description rdf: about=#Mark Rutte”> <isMinisterOf rdf:resource=”#The Netherlands “/> </rdf:Description> Bepaal de interpretatie van data door te begrijpen wat de bedoeling is van de zoeker en de contextuele betekenis van de termen door het web (associatief slim).
  • 6. Semantiek achterhalen: Annotaties in de vorm van RDF en Microformats – vanuit de documenten Automatisch herkennen van entiteiten – vanuit de zoeker Binnen de organisatie is een ontologie het best bruikbaar voor specifieke domeinen. Mogelijk te combineren met externe linked open data
  • 7. Beperkte schaalbaarheid: Afhankelijk van mensenwerk – inconsistente interpretatie Arbeidsintensief Afhankelijk van de bronsystemen
  • 8. Explosieve groei van informatie – de komst van ‘Big Data’ Het wordt lastiger om informatie te beheren en structuur/ betekenis te achterhalen in de diversiteit en heterogeniteit van bronnen; Zoeken en vinden is een probleem, maar daarbovenop de gemiste kansen door onontgonnen informatie. [T]here are known knowns; there are things we know Database Search that we know. There are known unknowns; that is to say there are Enterprise Search things that, we now know we don't know. But there are also unknown unknowns – there are Semantic Search things we do not know, we don't know. ” —United States Secretary of Defense, Donald Rumsfeld
  • 9. Digitale (web)teksten geautomatiseerd samenvatten, interpreteren en anonimiseren. • Sentence Boundary Detector • Parser • Namefinder • Pattern Recognizer • PostTagger • Role Designation • Associative network • Tag cloud • Topic Extraction • Herleiden van de betekenis van entiteiten uit de context van een pagina; • Natuurlijk taal applicaties (NLP)  In grote hoeveelheden data zonder dat hier mensenwerk bij komt kijken. Alleen mensenwerk bij toevoegen content en ontwikkelen techniek.
  • 10. … een kijkje achter de schermen Open Calais van Reuters is een platform dat pagina’s via een API naar semantische pagina’s verrijkt. Hierbij put Reuters uit haar database van personen, plaatsen en locaties. http://viewer.opencalais.com/ PlatypusWiki is een pakket waarmee semantische wiki’s gemaakt kunnen worden. Semantic wiki is een upgrade van de ‘Wikipedia’ Mediawiki software om semantische pagina’s te bouwen.
  • 11. Holding promises of Semantic Search Bedreiging voor SEO, ondanks succes dankzij Semanic contextualization Superieur business intelligence – analyse gestructureerde/ ongestructureerde content
  • 12. Zoek op een persoon en vind zijn/ haar geboorteplaats, - datum, broers en zussen, etc. Geen links maar antwoorden!
  • 14. Semantic Search in te zetten binnen de organisatie Cognito Technology
  • 16. Sophia Search Attivio
  • 17. …‘De belofte van het semantisch web (web 3.0)’