SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Bedeutungsorientierte Suche
mit Sprachverstehen
statt Stichwortsuche
Eine Kurzpräsentation in zwölf Folien, 2013-11-29
Problem der Kunden und Lösung von SEMPRIA
1. Problem
Archivbesitzer (Verlage, Rundfunkhäuser, Web-Sites, Organisationen . . . ):
haben Probleme, ihre Archive voll und effizient zu erschließen
2. Lösung
Suchmaschine SEMPRIA-Suchmaschine hilft durch
höhere Vollständigkeit von Suchergebnissen
höhere Genauigkeit von Suchergebnissen
Fragefunktionalität (Möglichkeit gezielter Fragen)
3. Wie?
eigene Technologie (60 Mannjahre) für deutsche (englische, chinesische) Texte:
automatisches Sprachverstehen durch tiefe semantische Analyse
4. Alleinstellungsmerkmal der Lösung
durch Einsatz von Sprachverstehen deutliche Leistungssteigerungen
Nutzer (Leser, Redakteure, Analysten, . . . ) sparen Recherchezeit
Nutzer finden öfter das eine relevante Dokument
1/ 12

SEMPRIA, 2013-11-29
SEMPRIA Entstehung

1992 bis heute:

Forschung der AG Intelligente Informations- und Kommunikationssysteme von Prof. Helbig (FernUniversität in Hagen)
auf dem Gebiet der wissensbasierten Systeme
http://pi7.fernuni-hagen.de/forschung/

2003 bis heute:

erfolgreiche Teilnahmen an internationalen Wettbewerben im
Bereich Suche und Information Retrieval (CLEF)

2009:

Prof. Helbig und drei langjährige Mitarbeiter gründen die
SEMPRIA GmbH

2/ 12

SEMPRIA, 2013-11-29
SEMPRIA Forschung und Unternehmen

3/ 12

SEMPRIA GmbH mit Sitz in Düsseldorf

Kooperation mit der AG Intelligente Informations- und
Kommunikationssysteme (FernUniversität in Hagen)

Aktuelle Arbeitsschwerpunkte der SEMPRIA GmbH:
Anpassung der bedeutungsorientierten Suchmaschine SEMPRIA-Search an
individuelle Kundenbedürfnisse, Vertrieb

SEMPRIA, 2013-11-29
SEMPRIA Kompetenz: Bedeutungsanalyse
Bedeutungsanalyse von Texten:
Natürliche Sprache
Bedeutungsdarstellung durch semantische Netze

4/ 12

SEMPRIA, 2013-11-29
SEMPRIA Kompetenz: Wissensbasen

5/ 12

Aufbau lexikalisch-semantischer Ressourcen
– Synonyme, Unter-/Oberbegriffe, Nominalisierungen, Schreibvarianten:
semi-automatisch aus Textarchiven
– 150.000 Beziehungen in Begriffs-Ontologien
Aufbau logischer Regelsysteme
– Erfassung komplexer Beziehungen zwischen Wortbedeutungen
– Interpretation von Funktionsverbgefügen und bildhaften Ausdrücken
– mehrere tausend Axiome
Automatische Erzeugung von Wissensbasen aus Texten
– z.B. Wikipedia (60 Millionen Sätze)
Entwicklung von Werkzeugen zur Wissensakquisition
– Unterstützung des Wissensingenieurs beim semi-automatischen
Wissenserwerb
Erfahrung im Aufbau und Nutzung großer Wissensbestände
SEMPRIA, 2013-11-29
SEMPRIA Kompetenz: Computerlexika
Kennzahlen
35.000 semantisch umfassende Einträge (alle linguistischen
Beschreibungsebenen inkl. semantische Rollen und Komplemente)
50.000 unterstützende Einträge (nur Morphologie und Syntax)
800.000 Eigennamen in circa 50 Klassen
1.500.000 Komposita mit Analysen, z.B. ((Erbschafts (steuer)) reform)
SEMPRIA-Search verwendet eines der größten semantischen
Computerlexika

6/ 12

SEMPRIA, 2013-11-29
SEMPRIA-Search Beispiel
Nutzeranfrage:
Import von Öl
Zusätzliche richtige Treffer gegenüber Stichwortsuche (

Vollständigkeit):

importierten Öls
Öl importen aus . . .
Import von Erdgas und . . . Erdöl
führte 2011 . . . Öl ein
Vermiedene falsche Treffer der Stichwortsuche
(
Genauigkeit durch semantische Filter):
um den Import mit Öl zu bezahlen

7/ 12

SEMPRIA, 2013-11-29
SEMPRIA-Search Einsatzbereiche
Suchfunktion (im Web oder in-house) für Textarchive von:
– Zeitungen, Zeitschriften
– Radio, Fernsehen
– Enzyklopädien, Akten, Dokumentation . . .
Alternatives Suchmodul für Content-Management-Systeme (CMS)
Typo3, WordPress, . . .
Unternehmensweite Suche (enterprise search)
Archivierungsunterstützung
– Verschlagwortung, Verstichwortung, Themenseiten
– Verlinkung, ähnliche Artikel
– Duplikatserkennung . . .
Sentimentanalyse (opinion mining, issue management, Öffentlichkeitsarbeit)
in Vorbereitung
8/ 12

SEMPRIA, 2013-11-29
SEMPRIA-Search Merkmale 1
Traditionelle Suchmaschinen beherrschen nur:
Flexion, Derivation, Komposita (teils unvollständig)
Nutzung von Metadaten
facettierte Suche für einige Namensklassen
SEMPRIA-Search beherrscht zusätzlich:
Mehrwortausdrücke Rio de Janeiro stets als Einheit
Zahlen, Maße 10 km

10000 Meter

10.000 m . . .

Idiome, Metonymie * Handtuch werfen

aufgeben

Funktionsverbgefüge * Antrag stellen

beantragen

Mehrdeutigkeiten (lexikalische, strukturelle) * Lincoln: Mensch, Auto, Stadt . . .
absolute Zeitangaben 31. Juli 13

31.07.2013

relative Zeitangaben vorgestern (am Mittwoch) + Metadaten

31.07.2013

facettierte Suche mittels voller Semantik
* abhängig vom verfügbaren Hintergrundwissen

9/ 12

SEMPRIA, 2013-11-29
SEMPRIA-Search Merkmale 2
Bezüge von Pronomen * Die X1 kritisierte den Y. Sie1 antwortete . . .
Beziehungen zwischen Objekten Was hat Firma X mit Kriegswaffen zu tun?
Rolle von Beteiligten in Ereignissen
Kauf der Dresdner Bank vs. Kauf durch Dresdner Bank
Bedeutung aus mehreren Sätzen/Dokumenten Wer exportiert seltene Erden?
Dokument 1: seltene Erde Neodym + Dokument 2: X führt Neodym aus
semantische Suchvorschläge aus den Dokumenten
Fehlerrobustheit (Rechtschreibung, Zusammenschreibung)
Fussball WM
Fußball-WM
* abhängig vom verfügbaren Hintergrundwissen

10/ 12

SEMPRIA, 2013-11-29
Produkt: SEMPRIA-Search ASP
Gehostete Suchlösung:
flexibel
keine Hardwarekosten, kein Installations-Aufwand, kein Update-Aufwand
hochverfügbare Lösung in deutschem Rechenzentrum
preiswerte Monatsgebühren (Einstiegsversion: SEMPRIA-Search Webstarter)
automatische Software-Updates nach Vereinbarung
Randbedingungen:

11/ 12

Vereinbarung der Formate für die zu durchsuchenden Archive
Festlegung der Internet-Schnittstelle zur Einrichtung und Aktualisierung des
Suchindexes
SEMPRIA, 2013-11-29
Produkt: SEMPRIA-Search Server
Eine individuelle Installation beim Archiv-Anbieter.
Randbedingungen:

12/ 12

Vereinbarung der Formate für die zu durchsuchenden Archive
(wie bei SEMPRIA-Search ASP)
Betriebssystem: Linux oder verwandtes Betriebssystem
Software: keine weiteren Anforderungen
Plattenplatz: Größe des Archivs (als reiner Text) mal Faktor 30 bis 60
Server: 4–8 CPU-Kerne, 3 GHz (empfohlen), 4–8 GB RAM

SEMPRIA, 2013-11-29
Impressum

SEMPRIA GmbH
Grafenberger Allee 277–287
40237 Düsseldorf

Telefon: 0211/566693-57
Fax: 0211/566693-58
Web: http://www.sempria.de/
E-Mail: info@sempria.de

Geschäftsführer: Dr. Sven Hartrumpf
Handelsregister: Amtsgericht Düsseldorf, HRB 62168
UStID-Nr: DE268248179

Weitere ähnliche Inhalte

Andere mochten auch

Contaminación mundial
Contaminación mundialContaminación mundial
Contaminación mundialq123q
 
Presentación de prueba
Presentación de pruebaPresentación de prueba
Presentación de pruebaGorffi
 
5 cosas sobre mi.Marina cifuentes
5 cosas sobre mi.Marina cifuentes5 cosas sobre mi.Marina cifuentes
5 cosas sobre mi.Marina cifuentescvquinto
 
Creative commons
Creative commonsCreative commons
Creative commonskroltq
 
SocialMedia Schnittstellenmeeting
SocialMedia Schnittstellenmeeting SocialMedia Schnittstellenmeeting
SocialMedia Schnittstellenmeeting Jonas Konrad
 
Prac2 fer sebasmichel
Prac2 fer sebasmichelPrac2 fer sebasmichel
Prac2 fer sebasmichelcacapupu123
 
HERRAMIENTAS DE GOOGLE
HERRAMIENTAS DE GOOGLEHERRAMIENTAS DE GOOGLE
HERRAMIENTAS DE GOOGLEPato Romero
 
Essensial Blender Rus
Essensial Blender RusEssensial Blender Rus
Essensial Blender Ruskakachiex
 
Star Dust (artistic photos)
Star Dust (artistic photos)Star Dust (artistic photos)
Star Dust (artistic photos)Makala (D)
 
Social Media Buzz analysieren mit einem Data Warehouse – Christoph Hess
Social Media Buzz analysieren mit einem Data Warehouse – Christoph HessSocial Media Buzz analysieren mit einem Data Warehouse – Christoph Hess
Social Media Buzz analysieren mit einem Data Warehouse – Christoph HessKuble AG
 
Universidad Minuto de Dios Metodología de la Investigación ANGELICA BLANCO G...
Universidad Minuto de DiosMetodología de la Investigación

ANGELICA BLANCO G...Universidad Minuto de DiosMetodología de la Investigación

ANGELICA BLANCO G...
Universidad Minuto de Dios Metodología de la Investigación ANGELICA BLANCO G...Angelica Blanco
 

Andere mochten auch (18)

Papa eligio
Papa eligioPapa eligio
Papa eligio
 
Contaminación mundial
Contaminación mundialContaminación mundial
Contaminación mundial
 
Presentación de prueba
Presentación de pruebaPresentación de prueba
Presentación de prueba
 
Presentación1
Presentación1Presentación1
Presentación1
 
Clase power
Clase powerClase power
Clase power
 
5 cosas sobre mi.Marina cifuentes
5 cosas sobre mi.Marina cifuentes5 cosas sobre mi.Marina cifuentes
5 cosas sobre mi.Marina cifuentes
 
Creative commons
Creative commonsCreative commons
Creative commons
 
SocialMedia Schnittstellenmeeting
SocialMedia Schnittstellenmeeting SocialMedia Schnittstellenmeeting
SocialMedia Schnittstellenmeeting
 
Fundiciones
FundicionesFundiciones
Fundiciones
 
Prac2 fer sebasmichel
Prac2 fer sebasmichelPrac2 fer sebasmichel
Prac2 fer sebasmichel
 
Papa
PapaPapa
Papa
 
HERRAMIENTAS DE GOOGLE
HERRAMIENTAS DE GOOGLEHERRAMIENTAS DE GOOGLE
HERRAMIENTAS DE GOOGLE
 
Essensial Blender Rus
Essensial Blender RusEssensial Blender Rus
Essensial Blender Rus
 
Star Dust (artistic photos)
Star Dust (artistic photos)Star Dust (artistic photos)
Star Dust (artistic photos)
 
Social Media Buzz analysieren mit einem Data Warehouse – Christoph Hess
Social Media Buzz analysieren mit einem Data Warehouse – Christoph HessSocial Media Buzz analysieren mit einem Data Warehouse – Christoph Hess
Social Media Buzz analysieren mit einem Data Warehouse – Christoph Hess
 
Cay
CayCay
Cay
 
Universidad Minuto de Dios Metodología de la Investigación ANGELICA BLANCO G...
Universidad Minuto de DiosMetodología de la Investigación

ANGELICA BLANCO G...Universidad Minuto de DiosMetodología de la Investigación

ANGELICA BLANCO G...
Universidad Minuto de Dios Metodología de la Investigación ANGELICA BLANCO G...
 
APTS OFFER LETTER
APTS OFFER LETTERAPTS OFFER LETTER
APTS OFFER LETTER
 

Ähnlich wie Bedeutungsorientierte Suche mit Sprachverstehen statt Stichwortsuche

A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007Andreas Schulte
 
Drupal-basierte Infrastruktur zur Vermittlung von Fachterminologie. Das Konz...
Drupal-basierte Infrastruktur zur Vermittlung von  Fachterminologie. Das Konz...Drupal-basierte Infrastruktur zur Vermittlung von  Fachterminologie. Das Konz...
Drupal-basierte Infrastruktur zur Vermittlung von Fachterminologie. Das Konz...Mediencommunity 2.0
 
Bonedo Relaunch mit extbase
Bonedo Relaunch mit extbaseBonedo Relaunch mit extbase
Bonedo Relaunch mit extbaseFrank Nägler
 
Ontologien für Fachportale - Voraussetzungen und Nutzenpotentiale
Ontologien für Fachportale - Voraussetzungen und NutzenpotentialeOntologien für Fachportale - Voraussetzungen und Nutzenpotentiale
Ontologien für Fachportale - Voraussetzungen und NutzenpotentialeAndreas Schmidt
 
Produktinformationen in Sirius CMS verwalten (PIM)
Produktinformationen in Sirius CMS verwalten (PIM)Produktinformationen in Sirius CMS verwalten (PIM)
Produktinformationen in Sirius CMS verwalten (PIM)acolada_gmbh
 
Web-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeWeb-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeChristoph Lange
 
eCopSoft Präsentation Sascha Rinne
eCopSoft Präsentation Sascha RinneeCopSoft Präsentation Sascha Rinne
eCopSoft Präsentation Sascha RinneWolfgang Reinhardt
 
Webpräsenz und Amazon und Google als Herausforderung? Webpräsenz und Katalog...
 Webpräsenz und Amazon und Google als Herausforderung? Webpräsenz und Katalog... Webpräsenz und Amazon und Google als Herausforderung? Webpräsenz und Katalog...
Webpräsenz und Amazon und Google als Herausforderung? Webpräsenz und Katalog...Martin Blenkle
 
Einsatz von Wikis - Konzepte, Lösungen, Erfahrungen
Einsatz von Wikis - Konzepte, Lösungen, ErfahrungenEinsatz von Wikis - Konzepte, Lösungen, Erfahrungen
Einsatz von Wikis - Konzepte, Lösungen, ErfahrungenStefan Landwehr
 
Präsentation Scompler
Präsentation ScomplerPräsentation Scompler
Präsentation ScomplerScribbleLive
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platformredsys
 
GraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementGraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementNeo4j
 
Was Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenWas Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenRalf Stockmann
 
Neo4j GraphTalks - Semantische Netze
Neo4j GraphTalks - Semantische NetzeNeo4j GraphTalks - Semantische Netze
Neo4j GraphTalks - Semantische NetzeNeo4j
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenMartin Voigt
 
Enterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und FallstrickeEnterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und FallstrickeAlexander Stocker
 
Text Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysierenText Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysierenJens Albrecht
 

Ähnlich wie Bedeutungsorientierte Suche mit Sprachverstehen statt Stichwortsuche (20)

A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
 
Drupal-basierte Infrastruktur zur Vermittlung von Fachterminologie. Das Konz...
Drupal-basierte Infrastruktur zur Vermittlung von  Fachterminologie. Das Konz...Drupal-basierte Infrastruktur zur Vermittlung von  Fachterminologie. Das Konz...
Drupal-basierte Infrastruktur zur Vermittlung von Fachterminologie. Das Konz...
 
Bonedo Relaunch mit extbase
Bonedo Relaunch mit extbaseBonedo Relaunch mit extbase
Bonedo Relaunch mit extbase
 
Ontologien für Fachportale - Voraussetzungen und Nutzenpotentiale
Ontologien für Fachportale - Voraussetzungen und NutzenpotentialeOntologien für Fachportale - Voraussetzungen und Nutzenpotentiale
Ontologien für Fachportale - Voraussetzungen und Nutzenpotentiale
 
Produktinformationen in Sirius CMS verwalten (PIM)
Produktinformationen in Sirius CMS verwalten (PIM)Produktinformationen in Sirius CMS verwalten (PIM)
Produktinformationen in Sirius CMS verwalten (PIM)
 
Cognitive Computing in der Finanzindustrie
Cognitive Computing in der FinanzindustrieCognitive Computing in der Finanzindustrie
Cognitive Computing in der Finanzindustrie
 
Web-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeWeb-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-Gruppe
 
eCopSoft Präsentation Sascha Rinne
eCopSoft Präsentation Sascha RinneeCopSoft Präsentation Sascha Rinne
eCopSoft Präsentation Sascha Rinne
 
Dynamic LINQ
Dynamic LINQDynamic LINQ
Dynamic LINQ
 
Webpräsenz und Amazon und Google als Herausforderung? Webpräsenz und Katalog...
 Webpräsenz und Amazon und Google als Herausforderung? Webpräsenz und Katalog... Webpräsenz und Amazon und Google als Herausforderung? Webpräsenz und Katalog...
Webpräsenz und Amazon und Google als Herausforderung? Webpräsenz und Katalog...
 
Einsatz von Wikis - Konzepte, Lösungen, Erfahrungen
Einsatz von Wikis - Konzepte, Lösungen, ErfahrungenEinsatz von Wikis - Konzepte, Lösungen, Erfahrungen
Einsatz von Wikis - Konzepte, Lösungen, Erfahrungen
 
Präsentation Scompler
Präsentation ScomplerPräsentation Scompler
Präsentation Scompler
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphase
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
GraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementGraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data Management
 
Was Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenWas Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich Wollen
 
Neo4j GraphTalks - Semantische Netze
Neo4j GraphTalks - Semantische NetzeNeo4j GraphTalks - Semantische Netze
Neo4j GraphTalks - Semantische Netze
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
Enterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und FallstrickeEnterprise Search: Potenziale und Fallstricke
Enterprise Search: Potenziale und Fallstricke
 
Text Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysierenText Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysieren
 

Bedeutungsorientierte Suche mit Sprachverstehen statt Stichwortsuche

  • 1. Bedeutungsorientierte Suche mit Sprachverstehen statt Stichwortsuche Eine Kurzpräsentation in zwölf Folien, 2013-11-29
  • 2. Problem der Kunden und Lösung von SEMPRIA 1. Problem Archivbesitzer (Verlage, Rundfunkhäuser, Web-Sites, Organisationen . . . ): haben Probleme, ihre Archive voll und effizient zu erschließen 2. Lösung Suchmaschine SEMPRIA-Suchmaschine hilft durch höhere Vollständigkeit von Suchergebnissen höhere Genauigkeit von Suchergebnissen Fragefunktionalität (Möglichkeit gezielter Fragen) 3. Wie? eigene Technologie (60 Mannjahre) für deutsche (englische, chinesische) Texte: automatisches Sprachverstehen durch tiefe semantische Analyse 4. Alleinstellungsmerkmal der Lösung durch Einsatz von Sprachverstehen deutliche Leistungssteigerungen Nutzer (Leser, Redakteure, Analysten, . . . ) sparen Recherchezeit Nutzer finden öfter das eine relevante Dokument 1/ 12 SEMPRIA, 2013-11-29
  • 3. SEMPRIA Entstehung 1992 bis heute: Forschung der AG Intelligente Informations- und Kommunikationssysteme von Prof. Helbig (FernUniversität in Hagen) auf dem Gebiet der wissensbasierten Systeme http://pi7.fernuni-hagen.de/forschung/ 2003 bis heute: erfolgreiche Teilnahmen an internationalen Wettbewerben im Bereich Suche und Information Retrieval (CLEF) 2009: Prof. Helbig und drei langjährige Mitarbeiter gründen die SEMPRIA GmbH 2/ 12 SEMPRIA, 2013-11-29
  • 4. SEMPRIA Forschung und Unternehmen 3/ 12 SEMPRIA GmbH mit Sitz in Düsseldorf Kooperation mit der AG Intelligente Informations- und Kommunikationssysteme (FernUniversität in Hagen) Aktuelle Arbeitsschwerpunkte der SEMPRIA GmbH: Anpassung der bedeutungsorientierten Suchmaschine SEMPRIA-Search an individuelle Kundenbedürfnisse, Vertrieb SEMPRIA, 2013-11-29
  • 5. SEMPRIA Kompetenz: Bedeutungsanalyse Bedeutungsanalyse von Texten: Natürliche Sprache Bedeutungsdarstellung durch semantische Netze 4/ 12 SEMPRIA, 2013-11-29
  • 6. SEMPRIA Kompetenz: Wissensbasen 5/ 12 Aufbau lexikalisch-semantischer Ressourcen – Synonyme, Unter-/Oberbegriffe, Nominalisierungen, Schreibvarianten: semi-automatisch aus Textarchiven – 150.000 Beziehungen in Begriffs-Ontologien Aufbau logischer Regelsysteme – Erfassung komplexer Beziehungen zwischen Wortbedeutungen – Interpretation von Funktionsverbgefügen und bildhaften Ausdrücken – mehrere tausend Axiome Automatische Erzeugung von Wissensbasen aus Texten – z.B. Wikipedia (60 Millionen Sätze) Entwicklung von Werkzeugen zur Wissensakquisition – Unterstützung des Wissensingenieurs beim semi-automatischen Wissenserwerb Erfahrung im Aufbau und Nutzung großer Wissensbestände SEMPRIA, 2013-11-29
  • 7. SEMPRIA Kompetenz: Computerlexika Kennzahlen 35.000 semantisch umfassende Einträge (alle linguistischen Beschreibungsebenen inkl. semantische Rollen und Komplemente) 50.000 unterstützende Einträge (nur Morphologie und Syntax) 800.000 Eigennamen in circa 50 Klassen 1.500.000 Komposita mit Analysen, z.B. ((Erbschafts (steuer)) reform) SEMPRIA-Search verwendet eines der größten semantischen Computerlexika 6/ 12 SEMPRIA, 2013-11-29
  • 8. SEMPRIA-Search Beispiel Nutzeranfrage: Import von Öl Zusätzliche richtige Treffer gegenüber Stichwortsuche ( Vollständigkeit): importierten Öls Öl importen aus . . . Import von Erdgas und . . . Erdöl führte 2011 . . . Öl ein Vermiedene falsche Treffer der Stichwortsuche ( Genauigkeit durch semantische Filter): um den Import mit Öl zu bezahlen 7/ 12 SEMPRIA, 2013-11-29
  • 9. SEMPRIA-Search Einsatzbereiche Suchfunktion (im Web oder in-house) für Textarchive von: – Zeitungen, Zeitschriften – Radio, Fernsehen – Enzyklopädien, Akten, Dokumentation . . . Alternatives Suchmodul für Content-Management-Systeme (CMS) Typo3, WordPress, . . . Unternehmensweite Suche (enterprise search) Archivierungsunterstützung – Verschlagwortung, Verstichwortung, Themenseiten – Verlinkung, ähnliche Artikel – Duplikatserkennung . . . Sentimentanalyse (opinion mining, issue management, Öffentlichkeitsarbeit) in Vorbereitung 8/ 12 SEMPRIA, 2013-11-29
  • 10. SEMPRIA-Search Merkmale 1 Traditionelle Suchmaschinen beherrschen nur: Flexion, Derivation, Komposita (teils unvollständig) Nutzung von Metadaten facettierte Suche für einige Namensklassen SEMPRIA-Search beherrscht zusätzlich: Mehrwortausdrücke Rio de Janeiro stets als Einheit Zahlen, Maße 10 km 10000 Meter 10.000 m . . . Idiome, Metonymie * Handtuch werfen aufgeben Funktionsverbgefüge * Antrag stellen beantragen Mehrdeutigkeiten (lexikalische, strukturelle) * Lincoln: Mensch, Auto, Stadt . . . absolute Zeitangaben 31. Juli 13 31.07.2013 relative Zeitangaben vorgestern (am Mittwoch) + Metadaten 31.07.2013 facettierte Suche mittels voller Semantik * abhängig vom verfügbaren Hintergrundwissen 9/ 12 SEMPRIA, 2013-11-29
  • 11. SEMPRIA-Search Merkmale 2 Bezüge von Pronomen * Die X1 kritisierte den Y. Sie1 antwortete . . . Beziehungen zwischen Objekten Was hat Firma X mit Kriegswaffen zu tun? Rolle von Beteiligten in Ereignissen Kauf der Dresdner Bank vs. Kauf durch Dresdner Bank Bedeutung aus mehreren Sätzen/Dokumenten Wer exportiert seltene Erden? Dokument 1: seltene Erde Neodym + Dokument 2: X führt Neodym aus semantische Suchvorschläge aus den Dokumenten Fehlerrobustheit (Rechtschreibung, Zusammenschreibung) Fussball WM Fußball-WM * abhängig vom verfügbaren Hintergrundwissen 10/ 12 SEMPRIA, 2013-11-29
  • 12. Produkt: SEMPRIA-Search ASP Gehostete Suchlösung: flexibel keine Hardwarekosten, kein Installations-Aufwand, kein Update-Aufwand hochverfügbare Lösung in deutschem Rechenzentrum preiswerte Monatsgebühren (Einstiegsversion: SEMPRIA-Search Webstarter) automatische Software-Updates nach Vereinbarung Randbedingungen: 11/ 12 Vereinbarung der Formate für die zu durchsuchenden Archive Festlegung der Internet-Schnittstelle zur Einrichtung und Aktualisierung des Suchindexes SEMPRIA, 2013-11-29
  • 13. Produkt: SEMPRIA-Search Server Eine individuelle Installation beim Archiv-Anbieter. Randbedingungen: 12/ 12 Vereinbarung der Formate für die zu durchsuchenden Archive (wie bei SEMPRIA-Search ASP) Betriebssystem: Linux oder verwandtes Betriebssystem Software: keine weiteren Anforderungen Plattenplatz: Größe des Archivs (als reiner Text) mal Faktor 30 bis 60 Server: 4–8 CPU-Kerne, 3 GHz (empfohlen), 4–8 GB RAM SEMPRIA, 2013-11-29
  • 14. Impressum SEMPRIA GmbH Grafenberger Allee 277–287 40237 Düsseldorf Telefon: 0211/566693-57 Fax: 0211/566693-58 Web: http://www.sempria.de/ E-Mail: info@sempria.de Geschäftsführer: Dr. Sven Hartrumpf Handelsregister: Amtsgericht Düsseldorf, HRB 62168 UStID-Nr: DE268248179