Career Days 2012 @ Sofia University

Семантични технологии за
интелигентно интегриране,
управление и търсене на
информация
Марин Димитров (Ontotext)

Career Days 2012 @ Sofia University

За Онтотекст

• Основана през 2000г. като част от Сирма Груп
– Независима компания от 2009
– Офиси в София и Варна, USA и UK
• Решения за интелигентно управление на данни
• Основни клиенти
– Медии (BBC, Press Association)
– Фармацевтични компании (AstraZeneca)
– Музеи и правителствени организации (The British
Museum, The National Archives, Polish Digital National
Museum)

Career Days 2012 @ Sofia University Юни 2012 #2

Съдържание

• Въведение в Семантичните Технологии и
Свързани Данни (Linked Data)
• Приложение на Семантичните Технологии за
интелигентно управление на информация
• Продукти и проекти на Онтотекст
• Работа в Онтотекст


ВЪВЕДЕНИЕ В СЕМАНТИЧНИТЕ
ТЕХНОЛОГИИ


Основни понятия

• Семантичен Уеб (Semantic Web)
• Онтологии
• Resource Description Framework (RDF)
• Свързани данни (Linked Data)


Принципи на Семантичния Уеб (Semantic Web)

• Разширение на сегашния WWW
– От уеб от страници до уеб от данни (data web)
• Данните са достъпни посредством съществуващите уеб
архитектури и протоколи
• Данните са свързани помежду си
– така както сегашните уеб документи са свързани
• Целта е създаване на платформа за
– Лесно споделяне на данни между интелигентни приложения
– Данните да могат да бъдат обработвани автоматично
– Нови данни и релации да могат да бъдат извеждани автоматично


Онтологии

• Модели за данни в Семантичния Уеб
• Онтологията е формална спецификация на
някакъв домейн
– Концепции (класове) и техните атрибути
– Релациите между концепциите
– Конкретни обекти (индивиди)
• Прилики и разлики с други подходи за
моделиране на данни
– Таксономии, речници, схеми, UML модели, ...


Resource Description Framework (RDF)

• Модел за данни с формална семантика
• Entity-Attribute-Value базиран модел
• Subject (E), Predicate (A), Object (V)
• Обектите се наричат ресурси, а релациите между тях са
предикати
• всеки ресурс или релация има уникален
идентификатор (URI)
predicate
subject object

• Формални правила за логически извод (RDFS)


RDFS правила за логически извод


Resource Description Framework (RDF) пример

USA

partOf locatedIn LA

presidentOf locatedIn
Hawaii
Barack attended Occidental
Obama College

hasChild hasChild

Sasha
hasChild
Michelle Malia
hasChild
Obama
hasParent


Свързани Данни (Linked Data)

• Подход за публикуване, търсене и интегриране на
разпределени RDF* данни
• Принципи на Свързаните Данни
– Всички ресурси имат уникални идентификатори (URI)
– Използва се структурата на WWW (HTTP URIs)
– Лесно намиране и достъпване на на информация за
даден ресурс
– Ресурсите са свързани пожеду си


Свързани Отворени Данни (Linked Open Data)

(c) Cyganiak & Jentzsch

Еволюцията на Семантичния Уеб
RDF RDF 2
DAML+OIL OWL OWL 2
SPARQL SPARQL 1.1
RIF
RDFa
SAWSDL
LOD
SKOS
HCLS
RDB2RDF
GLD

PIL

1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011


ПРИЛОЖЕНИЕ НА
СЕМАНТИЧНИТЕ ТЕХНОЛОГИИ


Проблеми с управлението на информацията (EIM)

• Много и различни източници на информация в
отделите на една организация
• Твърде много точки на интеграция между
различните бази данни и приложения
• Сложни и бавни процеси на интеграция на


Проблеми с управлението на информацията (2)

• Непълна, дублирана и/или неконсистентна
• Имплицитна информация в неструктурирани
(текстови) източници на информация
• Трудности с интегрирането на структурирани,
неструктурирани и полу-структурирани източници
на информация


Ползи от прилагане на Семантичните Технологии за
управление на информация

• Опростяване на процесите на интегриране на
– Лесен и гъвкав подход за моделиране на данни
– Инкрементална интеграция на информация “отдолу-
нагоре”
– “Свързване“ на дублираната информация
• Унифициран слой с мета-данни (enterprise
metadata layer)
– Подобряване на споделянето и използване на
информация в организацията
– Интегриране на различни източници на информация
(data silos)

управление на информация (2)

• Обогатяване на информация
– Обогатяване на неструктурираната информация с
анотации
– Откриване на имплицитни факти и релации
• Унифициран достъп до информацията
– Ефикасно интегриране на структурирана и
неструктурирана информация
– Опростена инфраструктура базирана на отворени
стандарти


управление на информация (3)

• Улеснен обмен на информация между
организациите
– Лесно публикуване и използване на Свързани Данни
(Linked Data)
• Допълнение към сегашните ИТ
– Не е необходимо замяна на вече използваните
технологии и приложения, а само надграждане


Интегриране на информация посредством
Семантични Технологии

(c) W3C


Типични видове приложения на Семантични
Технологии и Свързани Данни

• Публикуване и използване на Свързани Данни
(Linked Data)
– Улеснява обмена на информация в различните вериги
на добавена стойност (value chain)
• Интегриране на информация в организацията
– Интегриране и свързване на различните източници на
информация / Enterprise metadata layer
• Управление на знания и семантично търсене
– Интегриране на структурирана и неструктурирана
– Откриване на имплицитни факти и релации


ПРОДУКТИ И ПРОЕКТИ НА
ОНТОТЕКСТ


OWLIM

• http://www.ontotext.com/owlim
• Семантична СУБД (RDF)
• Съвместима с W3C стандартите за RDF, OWL и
SPARQL
• Разширена функционалност за пространствено
(geo-spatial) и пълно-текстово (full-text) търсене
• Работа в клъстер
• Основни предимства
– Производителност при добавяне/премахване на факти
– Мащабируемост (scalability)

KIM и Semantic Biomedical Tagger

• http://www.ontotext.com/kim
• Платформи за обработка на текст (text mining) и
семантично анотиране (semantic annotation)
– Автоматично генериране на метаданни и свързани
данни (Linked Data)
• Базирани на GATE
• Извличането на информация и обработката на
текст е базирана на онтологии и бази знания
• Адаптирана за различни домейни
– HCLS, Publishing & Media, Cultural Heritage


KIM и Semantic Biomedical Tagger (2)


Web Mining Framework

• http://www.ontotext.com/wmf
• Платформа за извличане на информация от уеб
страници (web mining)
• Базирана на GATE
• Адаптирана за различни домейни
– Jobs intelligence, vehicle trading, hotel bookings, recipe
collection


Web Mining Framework (2)


Семантично интегриране на информация


Динамично публикуване на новини за BBC

• BBC World Cup 2010 и BBC London Olympics 2012
• Приложени технологии от Онтотекст: OWLIM и
CES/KIM

(c) BBC

(c) BBC

Динамично публикуване на новини за BBC (2)

(c) BBC


The UK National Archive

• Изграждане на семантична база от знания от
дигитален архив, семантично търсене на
информация, интегриране и публикуване на
Свързани Данни
• Извличане на информация (text mining) от 700
млн. документа (40ТБ текст)
• Изграждане на база знания от 5 милиарда факта
(RDF triples)


Linked Life Data

• Семантична база от знания (semantic warehouse),
интегрираща 25+ източници на медицински
данни
• Описани са повече от 1 милиард обекта
• Семантично търсене и открване на данни


EDAMAM

• Изграждане на семантична база от знания за
рецепти и храни
• WMF се използва за фокусирано извличане на
информация от WWW; онтология за храни;
обработка на текст; интегриране на информация


Европейски изследователски проекти (FP7)

• AnnoMarket – SaaS/PaaS за ресурси за анализ на
текст (text mining)
• Trend Miner – автоматично резюмиране на текст
(text summarization) и анализ на мнения
(sentiment mining)
• CUBIST – интегриране на структурирани и
неструктурирани данни за бизнес анализи
(Business Intelligence)


Европейски изследователски проекти (FP7)

• MOLTO – машинен превод в реално време между
официалните езици в ЕС
• Khreshmoi – интегриране на структурирани и
неструктурирани източници на медицинска
информация и публикуване на свързани данни
(Linked Data)
• RENDER – нови подходи за търсене на


РАБОТА В ОНТОТЕКСТ


Работа в Онтотекст

• http://www.ontotext.com/jobs
• Възможности за
– Работа в иновативна компания
– Опит с нови технологии
– Участие в международни изследователски или
индустриални проекти
• Също и опции за стажанти


THANK YOU!


Ontology specification example
class Person
property hasParent
class Woman domain #Person
subClassOf #Person range #Person
maxCardinality 2
class Man
subClassOf #Person
property hasChild
complementOf #Woman
inverseOf #hasParent

individual John
property hasSpouce
instanceOf #Man
domain #Person
range #Person
individual Mary
maxCardinality 1
instanceOf #Woman
symmetric
hasSpouce #John

individual Jane
instance Of #Woman
hasParent #John
hasParent #Mary

Career Days 2012 @ Sofia University

Recomendados

Recomendados

Más contenido relacionado

Más de Marin Dimitrov

Más de Marin Dimitrov (20)

Career Days 2012 @ Sofia University