Web search: „Always different, always the same“
AltaVista 1996
3 | http://web.archive.org/web/19961023234631/http://altavista.digital.com/
Wo stehen Suchmaschinen heute?
• Große Web-Datenbanken sind vorhanden
• Google, Yahoo, MSN/Live.com, Ask, Cuil
• Betrieb dieser Datenbanken technisch möglich.
• Navigationsanfragen können zuverlässig beantwortet werden.
• Informationsorientierte Anfragen können meist zufriedenstellend beantwortet
werden.
• Großer Unterschied zwischen den Anfragen.
• Keine Suchmaschine kann alle Anfragen am besten beantworten.
• Integration zusätzlicher Quellen
• Spezialisierte Web-Datenbanken: News, Blogs, Video, Bücher, wissenschaftliche
Inhalte, usw.
• Shortcuts: Wetter, Reise, Patente, usw.
• Zukunft: Faktenextraktion
• Einbindung kostenpflichtiger Dokumente
4 |
Herausforderungen für Bibliotheken
• Nutzer verwenden Suchmaschinen zur Suche nach „Bibliotheksinhalten“
• Suchmaschinen „erziehen“ Nutzer zu „schlechtem“ Rechercheverhalten.
• Suchmaschinen zielen auf Kernbereiche der Bibliotheken
– Buchsuche
– Wissenschaftliche Inhalte
„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres
Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
(Machill et al. 2003)
• Suchanfragen
– Durchschnittliche Länge: 1,7 Wörter
– Ca. 50% Einwort-Anfragen
– kaum Verwendung von Operatoren und erweiterter Suche
• Ergebnisseiten
– 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus.
– Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”).
– Pro Session werden bis etwa fünf Dokumente angesehen.
– Sessions dauern i.d.R. weniger als 15 Minuten.
• Nutzer sind meist mit ihren Suchergebnissen zufrieden.
• Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.
„Most people are looking for quick wins.“
(Nicholas 2008)
• Beispiele aus der wissenschaftlichen Suche
• Nutzer kommen über Suchmaschinen, schauen herum und nehmen das mit, was
sie brauchen können.
• Es wird eine Vielzahl von Quellen benutzt.
• Die Hälfte der Nutzer betrachtet nur 1-3 Seiten.
• 40% der Nutzer kommen innerhalb von sechs Monaten nicht mehr auf die Website
zurück.
• Nutzer sehen sich Artikel online nur ein paar Minuten lang an, vor allem kurze
Artikel werden gelesen.
• Nutzer sammeln zwar Artikel (als Ausdrucke oder Downloads), lesen sie dann aber
nicht.
Was wäre, wenn Ihre Nutzer auch so suchen?
10 | (Nicholas 2008)
Bücher
• Microsoft hat sein Engagement in der Buchsuche eingestellt.
• Google Book Search könnte durch die Einigung mit (US-)Verlegern/Autoren
zum wichtigsten Anbieter von E-Books werden.
• Direkter Verkauf und Lizenzierung (z.B. an Bibliotheken).
• Die Buchsuche wird in die regulären Trefferlisten eingebunden.
Wissenschaftliche Inhalte
• Recherche kostenlos - Inhalte kostenlos
– Forschungsportal
– Alle Open-Access-Suchmaschinen
• Recherche kostenlos - Inhalte kostenlos/kostenpflichtig
– Google Scholar
– Scirus
• Zugang zur Recherche kostenpflichtig
– Thomson Scientific Web Plus
Google ist in der Lage, wissenschaftliche Inhalte in die reguläre Websuche
einzubinden.
Microsoft hat seine Wissenschaftssuchmaschine eingestellt.
Google Scholar: Inhalte
Inhalte von Google Scholar
• Wissenschaftliche Literatur aus dem Web
– Zeitschriftenaufsätze (peer review), Konferenzbeiträge
– Bücher
– Preprints, Postprints
– Reports
– Seminararbeiten
– ...
• Quellen
– freies Web
– Verlage und Fachgesellschaften (Crawling; keine Feeds!)
– Open-Access-Archive und -Zeitschriften
– Kein Quellenverzeichnis; Umfang der Quellen unklar
Rankingfaktoren
• Textspezifische Faktoren
– „Wie gut passen Anfrage und Dokument zusammen?“
– Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...
• Popularität
– „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses
Dokument treffen würde?“
– Linkpopularität, Klickpopularität.
• Aktualität
– „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“
– Datumsangaben, Linkstruktur, ...
• Lokalität
– „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“
– Länderinterfaces
17 | Im Detail: Lewandowski 2005, Kap. 6
Qualität der Inhalte im Web vs. der Treffer in Suchmaschinen
• Suchmaschinen bewerten mehr als nur den Dokumententext
• Ergebnisse werden an die Anfrage angepasst
– Allgemeine Anfragen werden mit allgemeinen Dokumenten beantwortet,
spezifische Anfragen mit spezifischen.
– Durchmischung der Trefferliste.
– Für viele Anfragen gibt es Seiten, die in den Ergebnissen auftauchen “müssen”.
• Qualitätsbestimmung nur aufgrund formaler Merkmale
– Ungeklärte Frage der Verlässlichkeit der Dokumente.
– Keine Quellenkontrolle.
– Relevanzuntersuchungen messen nur die empfundene Qualität der Ergebnisse.
18 | Dirk Lewandowski
Probleme der OPACs
• Unvollständiger Datenbestand
– Aufsätze, Literaturdatenbanken fehlen (weitgehend)
• “Elektronischer Zettelkatalog”?
• Das Nutzerverhalten hat sich geändert
– Kurze Suchanfragen, schnelle Ergebnisse, ein Ergebnisset
– Nutzererwartungen werden stark von den Web-Suchmaschinen beeinflusst.
• Known-Item-Suche vs. thematische Suche
– OPACs müssen mit beidem klarkommen.
Wie der OPAC verbessert werden soll (“Katalog 2.0”)
• Nutzerpartizipation
– Rezensionen
– Bewertungen
• Anreicherung der bibliographischen Daten
– Rezensionen
– Inhaltsverzeichnisse
• Verbesserung der Navigation
– Auswahlmenüs auf den Trefferseiten (Kombination von Suche und Browsing)
• Erweiterung der Datenbasis
– Federated search
Kern aller Suchanwendungen: Relevanzranking
• Web 2.0 Anwendungen verbessern den Katalog, berühren aber den Kern (die
Suche) nur am Rand.
• “Search must work”
• Nutzererwartungen
– Schneller Weg zu den Ergebnissen.
– Kein allzu großes Nachdenken über die Formulierung der Suchanfrage.
– Keine Suche nach der passenden Datenbank vor der Suche.
– Nachdem ein paar Ergebnisse auf der ersten Trefferseite angesehen wurden,
wird entschieden, wie/ob die Recherche fortgeführt wird.
Ranking: Mißverständnisse
• Ein klares Sortierkriterium ist besser als ein Ranking nach Relevanz.
– Ranking verändert nicht die Anzahl der Ergebnisse, sondern nur die Reihenfolge.
– Andere Sortieroptionen können angeboten werden.
• Bibliothekskataloge arbeiten ohne Ranking
– Konventionelle OPACs sortieren nach dem Erscheinungsjahr.
• Ranking ist nutzlos: Es funktioniert einfach nicht.
– Es ist schwer, “Relevanz” zu bestimmen. Relevanz ist sowohl vom Kontext
abhängig als auch vom individuellen Nutzer. Trotzdem kann Ranking wenigstens
eine befriedigende Trefferliste ergeben.
• Ranking ist gar nicht so kompliziert. Man muss doch nur ein paar
Standardmaße (TF/IDF) anwenden.
– Text matching reicht für ein gutes Ranking bei weitem nicht aus!
Gemischte Trefferlisten
• Ranking-Algorithmen bevorzugen „das immer gleiche“. Nutzer verlangen aber
nach einer gewissen Vielfalt in der Trefferliste.
• Beispiel: Allgemeine Anfrage
– Nachschlagewerk
– Lehrbuch
– Einschlägige Datenbank
– Aktuelle Literatur
– Einschlägige Zeitschriften
Suche ist ein Kern der Bibliotheksangebote
#3 und sollte entsprechend behandelt werden.
Der OPAC muss der zentrale Zugang zu
allen Bibliotheksangeboten sein.
29 |
Ranking ist essentiell. Bibliotheken müssen
#4 eine echte Suchmaschine für ihre Inhalte
anbieten.
30 |
Vielen Dank für Ihre
Aufmerksamkeit.
www.bui.haw-hamburg.de/lewandowski.html
Aktuelles Buch:
Handbuch Internet-Suchmaschinen
(Akademische Verlagsgesellschaft Aka, 2009)
E-Mail:
dirk.lewandowski@haw-hamburg.de