SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
Sunday, June 17, 2012 1
Indexing Pipeline (de)
Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
Sunday, June 17, 2012 2
Über Searchperience
Kurzer Überblick
 Eine eigenständige Suchfunktion für
Webseiten und Online-Shops
 Basierend auf hochleistungsfähiger Open
Source Apache Solr Technologie
 SaaS Cloud Service
Und weil es ein Erlebnis für die Benutzer
und nicht nur eine Suche ist, nennen wir
es Searchperience!
Sunday, June 17, 2012 3
Searchperience Komponenten
Searchperience
Indexer
CMS +Searcher
Index
SOLR Cloud
Query Processing
Result Processing
Facetted Search
Fuzzy Search
Livesuggest
Search Widgets
Rich
Data
Unstructured
Data
Structured
Data
Search
Analytics
Pipeline
Sunday, June 17, 2012 4
What is an Indexing Pipeline?
Structured
Data
Unstructured
Data
Rich
Data
Pipeline
 „Garbage In, Garbage Out“ - Also müssen
wir das meiste aus den Daten „rausholen“
 Die abhängigen Einzelschritte in einer
Indexierungspipeline bereiten ein
Dokument für den Suchindex vor:
 Dokumentenfelder mit extrahierten
und ermittelten Inhalten
 Dokumentenwichtigkeit (Boost)
 ausgehende Relationen (Links)
 Intelligente und manuelle Anreicherung
 Filterung, Statistiken, skalierbare
Ausführung...
Indexer Processes
Sunday, June 17, 2012 5
Indexer Architecture
Documents +
Relations
Crawler Queue
LinkQueue
Enrichment
Crawler
Indexer
PageRank Calc
...
API
Indexer „Database“
Sunday, June 17, 2012 6
An Indexer Example Pipeline
Conditional Subpipes:
„Check Document mimetype and source ..etc“
is product page? is job page? is not „text/*“ mimetype?
XHTML Extracter
„Extract content and product data“
Enrich by Feed
„add price from SAP feed“
Add Boost +40
XHTML Extracter
„Extract Joboffer data“
Get rating from
qype
Tika Extracter
„Extract rich content“
Detect language
Thesaurus
Expansion
Pagerank Evaluation
Searchperience Enrichments
...
Image Analysis
Sunday, June 17, 2012
 XML Extracter
 XHTML Extracter
 Tika Extracter
 Custom Extracter
7
Indexer Pipeline Steps
Different Extracters
Sunday, June 17, 2012 8
Indexer Pipeline Steps
Language Detection
 Spracherkennung an Hand
Text
 langdetect“ Open Source mit
entsprechenden Lerndaten
Sunday, June 17, 2012 9
Indexer Pipeline Steps
Thesaurus Expansion
 Suche nach „Drahtesel“ findet
auch „Fahrräder“
 Verschiedene Thesauri können
nach Spracherkennung oder
Dokumententyp eingesetzt
werden um gezielt Inhalte mit
ihren Synonymen zu erweitern
Sunday, June 17, 2012
 Nutzt TFIDF werte für
das Dokument in Bezug
auf den aktuellen Index
 Beispielsweise genutzt
für Keyword Boosting
und Personalisierung
10
Indexer Pipeline Steps
Interesting Terms
Barack Obama
Navigation
Eurokrise
Sunday, June 17, 2012
 Open NLP
 Open Calais
 Named Entity Recognition
 Anreicherung mit Daten aus
dem sematic Web
(Wikipedia...)
11
Indexer Pipeline Steps
NLP & Semantic Extraction
Person: Barack Obama
City: Berlin
Time: 9.11.2001
Sunday, June 17, 2012 12
Indexer Pipeline Steps
Learn from User Behaviour / Search Analytics Processing
Auswertung des
Nutzerverhalten
beeinflusst
Dokumenten
Keywords und
Dokumenten-
wichtigkeit
Sunday, June 17, 2012 13
Indexer Pipeline Steps
Learn from User Behaviour / Search Analytics Processing
Manuelle Auslese und
Anreicherung...
Sunday, June 17, 2012 14
Indexer Pipeline Steps
Anreicherungspflege für Suchadministratoren
Regelbasierte
Keywort
Anreicherung
und Boosting-
manipulation
Sunday, June 17, 2012 15
Indexer Pipeline Steps
Kontrolle auf Dokumentenebene
Dokumente
Boosten,
Prominent
darstellen oder
sperren
Sunday, June 17, 2012 16
SOLR is not an Indexing Pipeline
 Es gibt einfache Konzepte
(UpdateChain / LangDetect /
ExtractingRequestHandler)
 Keine richtigen abhängigen
Auswertungen / Unflexibel
 Kein Framework für eigene
Pipeline-Steps
 Keine testgeriebene Pipeline
Konfiguration möglich
 Skalierung und Verteilung der
Indexierung
Gute Auffindbarkeit braucht flexible Kontrolle
Sunday, June 17, 2012 17
SOLR is not an Indexing Pipeline
 Der Searchperience Indexer hat
eine eigenentwickelte Crawling
und Indexierungs- Architektur,
und stellt ein Kernbestandteil der
Lösung dar.
 Andere Lösungen
Pipeline Projects
 Open Pipe
 UIMA
 https://docs.google.com/
spreadsheet/ccc?
key=0ApsMZSogVbD9dERlRlAyZXp
ES0JJNjVJaFlLQVN5UXc#gid=0
Sunday, June 17, 2012 18
Vielen Dank!
Fragen?

Más contenido relacionado

Destacado

Verdaderos hombres de negro, los zerpa, fabio
Verdaderos hombres de negro, los   zerpa, fabioVerdaderos hombres de negro, los   zerpa, fabio
Verdaderos hombres de negro, los zerpa, fabioVictor Córdoba
 
Herramientas Tic usadas en el Curso Séptimo durante el año 2014
Herramientas Tic usadas en el Curso Séptimo durante el año 2014Herramientas Tic usadas en el Curso Séptimo durante el año 2014
Herramientas Tic usadas en el Curso Séptimo durante el año 2014lauralizeth123
 
Trainings für Instandhaltung und Produktion - Termine 2014_Österreich
Trainings für Instandhaltung und Produktion - Termine 2014_ÖsterreichTrainings für Instandhaltung und Produktion - Termine 2014_Österreich
Trainings für Instandhaltung und Produktion - Termine 2014_ÖsterreichMCP Deutschland GmbH
 
Concepcion del hombre y cuestionamiento sobre el ser ute
Concepcion del hombre y cuestionamiento sobre el ser uteConcepcion del hombre y cuestionamiento sobre el ser ute
Concepcion del hombre y cuestionamiento sobre el ser uteOscar Robalino
 
M learning andrea_fabrega_bis
M learning andrea_fabrega_bisM learning andrea_fabrega_bis
M learning andrea_fabrega_bisAFC_73
 
Correos electronicos andres_1_1_
Correos electronicos andres_1_1_Correos electronicos andres_1_1_
Correos electronicos andres_1_1_Annie Florez
 
Exposición et
Exposición etExposición et
Exposición etLuasile
 
โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์Su Surut
 
Rape al azafran
Rape al azafranRape al azafran
Rape al azafranpepteyyol
 
Informatica aplicada-a-la-educacion
Informatica aplicada-a-la-educacionInformatica aplicada-a-la-educacion
Informatica aplicada-a-la-educacionEnriqueta Castro
 
Convenio merchan 2014
Convenio merchan 2014Convenio merchan 2014
Convenio merchan 2014Oscar Feijoo
 

Destacado (20)

Power point
Power pointPower point
Power point
 
El reciclaje
El reciclajeEl reciclaje
El reciclaje
 
Verdaderos hombres de negro, los zerpa, fabio
Verdaderos hombres de negro, los   zerpa, fabioVerdaderos hombres de negro, los   zerpa, fabio
Verdaderos hombres de negro, los zerpa, fabio
 
Presentacion diana
Presentacion  dianaPresentacion  diana
Presentacion diana
 
Herramientas Tic usadas en el Curso Séptimo durante el año 2014
Herramientas Tic usadas en el Curso Séptimo durante el año 2014Herramientas Tic usadas en el Curso Séptimo durante el año 2014
Herramientas Tic usadas en el Curso Séptimo durante el año 2014
 
Trainings für Instandhaltung und Produktion - Termine 2014_Österreich
Trainings für Instandhaltung und Produktion - Termine 2014_ÖsterreichTrainings für Instandhaltung und Produktion - Termine 2014_Österreich
Trainings für Instandhaltung und Produktion - Termine 2014_Österreich
 
Temple
TempleTemple
Temple
 
Concepcion del hombre y cuestionamiento sobre el ser ute
Concepcion del hombre y cuestionamiento sobre el ser uteConcepcion del hombre y cuestionamiento sobre el ser ute
Concepcion del hombre y cuestionamiento sobre el ser ute
 
Hypo NOE Neubau 2012
Hypo NOE Neubau 2012Hypo NOE Neubau 2012
Hypo NOE Neubau 2012
 
La Infoxicación
La InfoxicaciónLa Infoxicación
La Infoxicación
 
M learning andrea_fabrega_bis
M learning andrea_fabrega_bisM learning andrea_fabrega_bis
M learning andrea_fabrega_bis
 
Correos electronicos andres_1_1_
Correos electronicos andres_1_1_Correos electronicos andres_1_1_
Correos electronicos andres_1_1_
 
Exposición et
Exposición etExposición et
Exposición et
 
4 mnths
4 mnths4 mnths
4 mnths
 
โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์โครงงานคอมพิวเตอร์
โครงงานคอมพิวเตอร์
 
Rape al azafran
Rape al azafranRape al azafran
Rape al azafran
 
Informatica aplicada-a-la-educacion
Informatica aplicada-a-la-educacionInformatica aplicada-a-la-educacion
Informatica aplicada-a-la-educacion
 
El sistema solar
El sistema solarEl sistema solar
El sistema solar
 
Convenio merchan 2014
Convenio merchan 2014Convenio merchan 2014
Convenio merchan 2014
 
Los simbolos patrios
Los simbolos patriosLos simbolos patrios
Los simbolos patrios
 

Similar a Searchperience Indexierungspipeline

Searchperience Indexierungspipeline
Searchperience   IndexierungspipelineSearchperience   Indexierungspipeline
Searchperience IndexierungspipelineAOE
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11scuy
 
Resource Discovery: Herausforderung und Chance für die Sacherschließung
Resource Discovery:  Herausforderung und Chance für die SacherschließungResource Discovery:  Herausforderung und Chance für die Sacherschließung
Resource Discovery: Herausforderung und Chance für die SacherschließungMagnus Pfeffer
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürichAI4BD GmbH
 
Entwicklung, Kategorisierung von Suchmaschinen
Entwicklung, Kategorisierung von SuchmaschinenEntwicklung, Kategorisierung von Suchmaschinen
Entwicklung, Kategorisierung von Suchmaschinen121WATT GmbH
 
Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)Praxistage
 
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...Martin Kaltenböck
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyseAI4BD GmbH
 
Das LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleDas LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleHermann Stern
 
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr UnternehmenswissenWebinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr UnternehmenswissenB-S-S Business Software Solutions GmbH
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Linked Open Data in der Bibliothekswelt
Linked Open Data in der BibliotheksweltLinked Open Data in der Bibliothekswelt
Linked Open Data in der BibliotheksweltAdrian Pohl
 
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Dirk Lewandowski
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischkostaedt
 
Wissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebWissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebKatrin Weller
 
Top 10 Internet Trends 2007
Top 10 Internet Trends 2007Top 10 Internet Trends 2007
Top 10 Internet Trends 2007Jürg Stuker
 
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDinovex GmbH
 
SEO & Content Marketing entlang der Customer Journey
SEO & Content Marketing entlang der Customer JourneySEO & Content Marketing entlang der Customer Journey
SEO & Content Marketing entlang der Customer Journey1&1
 

Similar a Searchperience Indexierungspipeline (20)

Searchperience Indexierungspipeline
Searchperience   IndexierungspipelineSearchperience   Indexierungspipeline
Searchperience Indexierungspipeline
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
 
Resource Discovery: Herausforderung und Chance für die Sacherschließung
Resource Discovery:  Herausforderung und Chance für die SacherschließungResource Discovery:  Herausforderung und Chance für die Sacherschließung
Resource Discovery: Herausforderung und Chance für die Sacherschließung
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürich
 
Entwicklung, Kategorisierung von Suchmaschinen
Entwicklung, Kategorisierung von SuchmaschinenEntwicklung, Kategorisierung von Suchmaschinen
Entwicklung, Kategorisierung von Suchmaschinen
 
Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)
 
Vernetzungstage 2011
Vernetzungstage 2011Vernetzungstage 2011
Vernetzungstage 2011
 
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyse
 
Das LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleDas LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei Anwendungsfälle
 
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr UnternehmenswissenWebinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Linked Open Data in der Bibliothekswelt
Linked Open Data in der BibliotheksweltLinked Open Data in der Bibliothekswelt
Linked Open Data in der Bibliothekswelt
 
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
 
Der Einfluss der Suchmaschinenoptimierung auf die Ergebnisse von Google: Ein ...
Der Einfluss der Suchmaschinenoptimierung auf die Ergebnisse von Google: Ein ...Der Einfluss der Suchmaschinenoptimierung auf die Ergebnisse von Google: Ein ...
Der Einfluss der Suchmaschinenoptimierung auf die Ergebnisse von Google: Ein ...
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
 
Wissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebWissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic Web
 
Top 10 Internet Trends 2007
Top 10 Internet Trends 2007Top 10 Internet Trends 2007
Top 10 Internet Trends 2007
 
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
 
SEO & Content Marketing entlang der Customer Journey
SEO & Content Marketing entlang der Customer JourneySEO & Content Marketing entlang der Customer Journey
SEO & Content Marketing entlang der Customer Journey
 

Más de AOE

Re-inventing airport non-aeronautical revenue generation post COVID-19
Re-inventing airport non-aeronautical revenue generation post COVID-19Re-inventing airport non-aeronautical revenue generation post COVID-19
Re-inventing airport non-aeronautical revenue generation post COVID-19AOE
 
Flamingo - Inspiring Commerce Frontend made in Go - Meet Magento 2019
Flamingo - Inspiring Commerce Frontend made in Go - Meet Magento 2019Flamingo - Inspiring Commerce Frontend made in Go - Meet Magento 2019
Flamingo - Inspiring Commerce Frontend made in Go - Meet Magento 2019AOE
 
Flamingo presentation at code.talks commerce by Daniel Pötzinger
Flamingo presentation at code.talks commerce by Daniel PötzingerFlamingo presentation at code.talks commerce by Daniel Pötzinger
Flamingo presentation at code.talks commerce by Daniel PötzingerAOE
 
A bag full of trust - Christof Braun at AOE Conference 2018
A bag full of trust - Christof Braun at AOE Conference 2018A bag full of trust - Christof Braun at AOE Conference 2018
A bag full of trust - Christof Braun at AOE Conference 2018AOE
 
Digitalizing the Global Travel Retail World - Kian Gould at Global Retailing ...
Digitalizing the Global Travel Retail World - Kian Gould at Global Retailing ...Digitalizing the Global Travel Retail World - Kian Gould at Global Retailing ...
Digitalizing the Global Travel Retail World - Kian Gould at Global Retailing ...AOE
 
Frankfurt Airport Digitalization Case Study
Frankfurt Airport Digitalization Case StudyFrankfurt Airport Digitalization Case Study
Frankfurt Airport Digitalization Case StudyAOE
 
This is what has to change for Travel Retail to survive - Manuel Heidler, AOE
This is what has to change for Travel Retail to survive - Manuel Heidler, AOEThis is what has to change for Travel Retail to survive - Manuel Heidler, AOE
This is what has to change for Travel Retail to survive - Manuel Heidler, AOEAOE
 
AOEconf17: Application Security
AOEconf17: Application SecurityAOEconf17: Application Security
AOEconf17: Application SecurityAOE
 
AOEconf17: AOE Tech Radar Insights
AOEconf17: AOE Tech Radar InsightsAOEconf17: AOE Tech Radar Insights
AOEconf17: AOE Tech Radar InsightsAOE
 
AOEconf17: A flight through our OM³ Systems
AOEconf17: A flight through our OM³ SystemsAOEconf17: A flight through our OM³ Systems
AOEconf17: A flight through our OM³ SystemsAOE
 
AOEconf17: AOE Tech Radar Insights
AOEconf17: AOE Tech Radar InsightsAOEconf17: AOE Tech Radar Insights
AOEconf17: AOE Tech Radar InsightsAOE
 
AOEconf17: Pets vs. Cattle - modern Application Infrastructure - by Fabrizio ...
AOEconf17: Pets vs. Cattle - modern Application Infrastructure - by Fabrizio ...AOEconf17: Pets vs. Cattle - modern Application Infrastructure - by Fabrizio ...
AOEconf17: Pets vs. Cattle - modern Application Infrastructure - by Fabrizio ...AOE
 
AOEconf17: Agile scaling concepts
AOEconf17: Agile scaling conceptsAOEconf17: Agile scaling concepts
AOEconf17: Agile scaling conceptsAOE
 
AOEcon17: Searchperience - The journey from PHP and Solr to Scala and Elastic...
AOEcon17: Searchperience - The journey from PHP and Solr to Scala and Elastic...AOEcon17: Searchperience - The journey from PHP and Solr to Scala and Elastic...
AOEcon17: Searchperience - The journey from PHP and Solr to Scala and Elastic...AOE
 
AOEconf17: UI challenges in a microservice world
AOEconf17: UI challenges in a microservice worldAOEconf17: UI challenges in a microservice world
AOEconf17: UI challenges in a microservice worldAOE
 
AOEconf17: Application Security - Bastian Ike
AOEconf17: Application Security - Bastian IkeAOEconf17: Application Security - Bastian Ike
AOEconf17: Application Security - Bastian IkeAOE
 
AOEconf17: Management 3.0 - the secret to happy, performing and motivated sel...
AOEconf17: Management 3.0 - the secret to happy, performing and motivated sel...AOEconf17: Management 3.0 - the secret to happy, performing and motivated sel...
AOEconf17: Management 3.0 - the secret to happy, performing and motivated sel...AOE
 
AOEconf17: How to eat an elePHPant, congstar style - Timo Fuchs & Stefan Rotsch
AOEconf17: How to eat an elePHPant, congstar style - Timo Fuchs & Stefan RotschAOEconf17: How to eat an elePHPant, congstar style - Timo Fuchs & Stefan Rotsch
AOEconf17: How to eat an elePHPant, congstar style - Timo Fuchs & Stefan RotschAOE
 
Joern Bock: The basic concept of an agile organisation
Joern Bock: The basic concept of an agile organisationJoern Bock: The basic concept of an agile organisation
Joern Bock: The basic concept of an agile organisationAOE
 
Magento 2 Best Practice Workfow // David Lambauer // Meet Magento 2017 // Lei...
Magento 2 Best Practice Workfow // David Lambauer // Meet Magento 2017 // Lei...Magento 2 Best Practice Workfow // David Lambauer // Meet Magento 2017 // Lei...
Magento 2 Best Practice Workfow // David Lambauer // Meet Magento 2017 // Lei...AOE
 

Más de AOE (20)

Re-inventing airport non-aeronautical revenue generation post COVID-19
Re-inventing airport non-aeronautical revenue generation post COVID-19Re-inventing airport non-aeronautical revenue generation post COVID-19
Re-inventing airport non-aeronautical revenue generation post COVID-19
 
Flamingo - Inspiring Commerce Frontend made in Go - Meet Magento 2019
Flamingo - Inspiring Commerce Frontend made in Go - Meet Magento 2019Flamingo - Inspiring Commerce Frontend made in Go - Meet Magento 2019
Flamingo - Inspiring Commerce Frontend made in Go - Meet Magento 2019
 
Flamingo presentation at code.talks commerce by Daniel Pötzinger
Flamingo presentation at code.talks commerce by Daniel PötzingerFlamingo presentation at code.talks commerce by Daniel Pötzinger
Flamingo presentation at code.talks commerce by Daniel Pötzinger
 
A bag full of trust - Christof Braun at AOE Conference 2018
A bag full of trust - Christof Braun at AOE Conference 2018A bag full of trust - Christof Braun at AOE Conference 2018
A bag full of trust - Christof Braun at AOE Conference 2018
 
Digitalizing the Global Travel Retail World - Kian Gould at Global Retailing ...
Digitalizing the Global Travel Retail World - Kian Gould at Global Retailing ...Digitalizing the Global Travel Retail World - Kian Gould at Global Retailing ...
Digitalizing the Global Travel Retail World - Kian Gould at Global Retailing ...
 
Frankfurt Airport Digitalization Case Study
Frankfurt Airport Digitalization Case StudyFrankfurt Airport Digitalization Case Study
Frankfurt Airport Digitalization Case Study
 
This is what has to change for Travel Retail to survive - Manuel Heidler, AOE
This is what has to change for Travel Retail to survive - Manuel Heidler, AOEThis is what has to change for Travel Retail to survive - Manuel Heidler, AOE
This is what has to change for Travel Retail to survive - Manuel Heidler, AOE
 
AOEconf17: Application Security
AOEconf17: Application SecurityAOEconf17: Application Security
AOEconf17: Application Security
 
AOEconf17: AOE Tech Radar Insights
AOEconf17: AOE Tech Radar InsightsAOEconf17: AOE Tech Radar Insights
AOEconf17: AOE Tech Radar Insights
 
AOEconf17: A flight through our OM³ Systems
AOEconf17: A flight through our OM³ SystemsAOEconf17: A flight through our OM³ Systems
AOEconf17: A flight through our OM³ Systems
 
AOEconf17: AOE Tech Radar Insights
AOEconf17: AOE Tech Radar InsightsAOEconf17: AOE Tech Radar Insights
AOEconf17: AOE Tech Radar Insights
 
AOEconf17: Pets vs. Cattle - modern Application Infrastructure - by Fabrizio ...
AOEconf17: Pets vs. Cattle - modern Application Infrastructure - by Fabrizio ...AOEconf17: Pets vs. Cattle - modern Application Infrastructure - by Fabrizio ...
AOEconf17: Pets vs. Cattle - modern Application Infrastructure - by Fabrizio ...
 
AOEconf17: Agile scaling concepts
AOEconf17: Agile scaling conceptsAOEconf17: Agile scaling concepts
AOEconf17: Agile scaling concepts
 
AOEcon17: Searchperience - The journey from PHP and Solr to Scala and Elastic...
AOEcon17: Searchperience - The journey from PHP and Solr to Scala and Elastic...AOEcon17: Searchperience - The journey from PHP and Solr to Scala and Elastic...
AOEcon17: Searchperience - The journey from PHP and Solr to Scala and Elastic...
 
AOEconf17: UI challenges in a microservice world
AOEconf17: UI challenges in a microservice worldAOEconf17: UI challenges in a microservice world
AOEconf17: UI challenges in a microservice world
 
AOEconf17: Application Security - Bastian Ike
AOEconf17: Application Security - Bastian IkeAOEconf17: Application Security - Bastian Ike
AOEconf17: Application Security - Bastian Ike
 
AOEconf17: Management 3.0 - the secret to happy, performing and motivated sel...
AOEconf17: Management 3.0 - the secret to happy, performing and motivated sel...AOEconf17: Management 3.0 - the secret to happy, performing and motivated sel...
AOEconf17: Management 3.0 - the secret to happy, performing and motivated sel...
 
AOEconf17: How to eat an elePHPant, congstar style - Timo Fuchs & Stefan Rotsch
AOEconf17: How to eat an elePHPant, congstar style - Timo Fuchs & Stefan RotschAOEconf17: How to eat an elePHPant, congstar style - Timo Fuchs & Stefan Rotsch
AOEconf17: How to eat an elePHPant, congstar style - Timo Fuchs & Stefan Rotsch
 
Joern Bock: The basic concept of an agile organisation
Joern Bock: The basic concept of an agile organisationJoern Bock: The basic concept of an agile organisation
Joern Bock: The basic concept of an agile organisation
 
Magento 2 Best Practice Workfow // David Lambauer // Meet Magento 2017 // Lei...
Magento 2 Best Practice Workfow // David Lambauer // Meet Magento 2017 // Lei...Magento 2 Best Practice Workfow // David Lambauer // Meet Magento 2017 // Lei...
Magento 2 Best Practice Workfow // David Lambauer // Meet Magento 2017 // Lei...
 

Searchperience Indexierungspipeline

  • 1. Sunday, June 17, 2012 1 Indexing Pipeline (de) Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
  • 2. Sunday, June 17, 2012 2 Über Searchperience Kurzer Überblick  Eine eigenständige Suchfunktion für Webseiten und Online-Shops  Basierend auf hochleistungsfähiger Open Source Apache Solr Technologie  SaaS Cloud Service Und weil es ein Erlebnis für die Benutzer und nicht nur eine Suche ist, nennen wir es Searchperience!
  • 3. Sunday, June 17, 2012 3 Searchperience Komponenten Searchperience Indexer CMS +Searcher Index SOLR Cloud Query Processing Result Processing Facetted Search Fuzzy Search Livesuggest Search Widgets Rich Data Unstructured Data Structured Data Search Analytics Pipeline
  • 4. Sunday, June 17, 2012 4 What is an Indexing Pipeline? Structured Data Unstructured Data Rich Data Pipeline  „Garbage In, Garbage Out“ - Also müssen wir das meiste aus den Daten „rausholen“  Die abhängigen Einzelschritte in einer Indexierungspipeline bereiten ein Dokument für den Suchindex vor:  Dokumentenfelder mit extrahierten und ermittelten Inhalten  Dokumentenwichtigkeit (Boost)  ausgehende Relationen (Links)  Intelligente und manuelle Anreicherung  Filterung, Statistiken, skalierbare Ausführung...
  • 5. Indexer Processes Sunday, June 17, 2012 5 Indexer Architecture Documents + Relations Crawler Queue LinkQueue Enrichment Crawler Indexer PageRank Calc ... API Indexer „Database“
  • 6. Sunday, June 17, 2012 6 An Indexer Example Pipeline Conditional Subpipes: „Check Document mimetype and source ..etc“ is product page? is job page? is not „text/*“ mimetype? XHTML Extracter „Extract content and product data“ Enrich by Feed „add price from SAP feed“ Add Boost +40 XHTML Extracter „Extract Joboffer data“ Get rating from qype Tika Extracter „Extract rich content“ Detect language Thesaurus Expansion Pagerank Evaluation Searchperience Enrichments ... Image Analysis
  • 7. Sunday, June 17, 2012  XML Extracter  XHTML Extracter  Tika Extracter  Custom Extracter 7 Indexer Pipeline Steps Different Extracters
  • 8. Sunday, June 17, 2012 8 Indexer Pipeline Steps Language Detection  Spracherkennung an Hand Text  langdetect“ Open Source mit entsprechenden Lerndaten
  • 9. Sunday, June 17, 2012 9 Indexer Pipeline Steps Thesaurus Expansion  Suche nach „Drahtesel“ findet auch „Fahrräder“  Verschiedene Thesauri können nach Spracherkennung oder Dokumententyp eingesetzt werden um gezielt Inhalte mit ihren Synonymen zu erweitern
  • 10. Sunday, June 17, 2012  Nutzt TFIDF werte für das Dokument in Bezug auf den aktuellen Index  Beispielsweise genutzt für Keyword Boosting und Personalisierung 10 Indexer Pipeline Steps Interesting Terms Barack Obama Navigation Eurokrise
  • 11. Sunday, June 17, 2012  Open NLP  Open Calais  Named Entity Recognition  Anreicherung mit Daten aus dem sematic Web (Wikipedia...) 11 Indexer Pipeline Steps NLP & Semantic Extraction Person: Barack Obama City: Berlin Time: 9.11.2001
  • 12. Sunday, June 17, 2012 12 Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing Auswertung des Nutzerverhalten beeinflusst Dokumenten Keywords und Dokumenten- wichtigkeit
  • 13. Sunday, June 17, 2012 13 Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing Manuelle Auslese und Anreicherung...
  • 14. Sunday, June 17, 2012 14 Indexer Pipeline Steps Anreicherungspflege für Suchadministratoren Regelbasierte Keywort Anreicherung und Boosting- manipulation
  • 15. Sunday, June 17, 2012 15 Indexer Pipeline Steps Kontrolle auf Dokumentenebene Dokumente Boosten, Prominent darstellen oder sperren
  • 16. Sunday, June 17, 2012 16 SOLR is not an Indexing Pipeline  Es gibt einfache Konzepte (UpdateChain / LangDetect / ExtractingRequestHandler)  Keine richtigen abhängigen Auswertungen / Unflexibel  Kein Framework für eigene Pipeline-Steps  Keine testgeriebene Pipeline Konfiguration möglich  Skalierung und Verteilung der Indexierung Gute Auffindbarkeit braucht flexible Kontrolle
  • 17. Sunday, June 17, 2012 17 SOLR is not an Indexing Pipeline  Der Searchperience Indexer hat eine eigenentwickelte Crawling und Indexierungs- Architektur, und stellt ein Kernbestandteil der Lösung dar.  Andere Lösungen Pipeline Projects  Open Pipe  UIMA  https://docs.google.com/ spreadsheet/ccc? key=0ApsMZSogVbD9dERlRlAyZXp ES0JJNjVJaFlLQVN5UXc#gid=0
  • 18. Sunday, June 17, 2012 18 Vielen Dank! Fragen?