Nach mehrjähriger Tätigkeit als Softwareentwickler für mobile Anwendungen im Bereich eTourismus arbeitet Elias Kärle seit kurzem als wissenschaftlicher Mitarbeiter am STI der Universität Innsbruck. Im Rahmen seiner Doktorarbeit erforscht er unter anderem die Verbreitung von semantischem Vokabular auf touristischen Webseiten und geht in seinem Vortrag der Frage nach, wie schnell die Tourismusbranche auf Internettrends wie schema.org reagiert.
7. www.sti-innsbruck.at
1. Motivation
1) Wie viele Hotels verwenden schema.org?
2) Wie wird schema.org verwendet?
1) Welche Klassen?
2) Welche Attribute?
3) Wird schema.org richtig eingesetzt?
3) Wer verwendet schema.org im touristischen Bereich?
7
8. www.sti-innsbruck.at
2. Daten
Was ist schema.org?
• Initiative geründet 2011
• Ontologie zur Strukturierung von Daten auf Webseiten
• In HTML eingebunden
– Microdata
– RDFa
– JSON-LD
Source: http://www.schema.org
8
9. www.sti-innsbruck.at
2. Daten
Analyse aller Webseiten:
• Gegründet 2007
• Non-Profit Organisation
• Erfasst (crawlt) Internet 4 mal pro Jahr
• Datensätze frei zugänglich
• November 2013: 2,3 Milliarden Webseiten, 148TB
• Dezember 2014: 2,1 Milliarden Webseiten, 160TB
Source: http://commoncrawl.org/the-data/get-started/
9
10. www.sti-innsbruck.at
2. Daten
Reduktion auf Strukturierte Daten:
WebDataCommons:
• 2012 Freie Universität Berlin & KIT
• Derzeit Uni Mannheim
• Leitung: Chris Bizer
• Extrahieren aller strukturierter Daten aus Common Crawl
– Web Tabellen: 147 Mio. relationale Tab. (11 Mrd. HTML Tab.)
– Hyperlink Graph: 3,5 Mrd. Webseiten, 128 Mrd. Links
– Semantisch annotierte Daten:
• November 2013: 44TB, 2.2 Mrd. URLs
• Dezember 2014: 160TB, 2 Mrd. URLs
Source: http://webdatacommons.org/structureddata/
10
11. www.sti-innsbruck.at
2. Daten
• November 2013 Datensatz
• Subset: schema.org/Hotel
– 35GB
– 127 Mio. Triples
• OWLIM-SE Repository
• SPARQL Anfragen
• Linux Debian 3.2, STI
11
12. www.sti-innsbruck.at
3. Analyse
1) Wie viele Hotels sind schema.org annotiert?
4.841.353
• Hotels doppelt annotiert
– Eigene Webseite
– Buchungs Webseite
740.298
• Alle Hotels mit gleichem Namen verloren
– Adler, Post, ...
An Adresse binden!
12
21. www.sti-innsbruck.at
3. Analyse
3) Wer verwendet schema.org im touristischen Bereich
Hypothese:
„Schema.org wird überwiegend von Booking- und
Ratingseiten verwendet, kaum auf Hotelseiten direkt.“
21
22. www.sti-innsbruck.at
3. Analyse
Ansatz:
• Hotels auf Booking- & Ratingseiten
suche nach annotation auf eigener Webseite
• Gegenprobe mit annotierten Hotelswebseiten
Mehrfache Vorkommen im Datensatz?
Dezeit: exemplarisch (Top-Buchungsseiten)
Nächster Schritt: vollständiger Datensatz
22
23. www.sti-innsbruck.at
3. Analyse
Resymee:
• Hauptanwender von schema.org/Hotel:
Buchungs- und Ratingseiten
Fehler:
Unvollständig
Falsche Klassen
Falsche Attribute
Falsche Datentypen
Vollständige Fehleranalyse: Uni Mannheim
(R. Meusel & H. Paulheim) [1]
[1] http://dws.informatik.uni-mannheim.de/fileadmin/lehrstuehle/ki/pub/MeuselPaulheim-HeuristicsForFixingCommonErrorsInDeployedSchemaOrgMicrodata-ESWC2015.pdf
23