2. За Онтотекст
• Основана през 2000г. като част от Сирма Груп
– Независима компания от 2009
– Офиси в София и Варна, USA и UK
• Решения за интелигентно управление на данни
• Основни клиенти
– Медии (BBC, Press Association)
– Фармацевтични компании (AstraZeneca)
– Музеи и правителствени организации (The British
Museum, The National Archives, Polish Digital National
Museum)
Career Days 2012 @ Sofia University Юни 2012 #2
3. Съдържание
• Въведение в Семантичните Технологии и
Свързани Данни (Linked Data)
• Приложение на Семантичните Технологии за
интелигентно управление на информация
• Продукти и проекти на Онтотекст
• Работа в Онтотекст
Career Days 2012 @ Sofia University Юни 2012 #3
5. Основни понятия
• Семантичен Уеб (Semantic Web)
• Онтологии
• Resource Description Framework (RDF)
• Свързани данни (Linked Data)
Career Days 2012 @ Sofia University Юни 2012 #5
6. Принципи на Семантичния Уеб (Semantic Web)
• Разширение на сегашния WWW
– От уеб от страници до уеб от данни (data web)
• Данните са достъпни посредством съществуващите уеб
архитектури и протоколи
• Данните са свързани помежду си
– така както сегашните уеб документи са свързани
• Целта е създаване на платформа за
– Лесно споделяне на данни между интелигентни приложения
– Данните да могат да бъдат обработвани автоматично
– Нови данни и релации да могат да бъдат извеждани автоматично
Career Days 2012 @ Sofia University Юни 2012 #6
7. Онтологии
• Модели за данни в Семантичния Уеб
• Онтологията е формална спецификация на
някакъв домейн
– Концепции (класове) и техните атрибути
– Релациите между концепциите
– Конкретни обекти (индивиди)
• Прилики и разлики с други подходи за
моделиране на данни
– Таксономии, речници, схеми, UML модели, ...
Career Days 2012 @ Sofia University Юни 2012 #7
8. Resource Description Framework (RDF)
• Модел за данни с формална семантика
• Entity-Attribute-Value базиран модел
• Subject (E), Predicate (A), Object (V)
• Обектите се наричат ресурси, а релациите между тях са
предикати
• всеки ресурс или релация има уникален
идентификатор (URI)
predicate
subject object
• Формални правила за логически извод (RDFS)
Career Days 2012 @ Sofia University Юни 2012 #8
9. RDFS правила за логически извод
Career Days 2012 @ Sofia University Юни 2012 #9
10. Resource Description Framework (RDF) пример
USA
partOf locatedIn LA
presidentOf locatedIn
Hawaii
Barack attended Occidental
Obama College
hasChild hasChild
Sasha
hasChild
Michelle Malia
hasChild
Obama
hasParent
Career Days 2012 @ Sofia University Юни 2012 #10
11. Свързани Данни (Linked Data)
• Подход за публикуване, търсене и интегриране на
разпределени RDF* данни
• Принципи на Свързаните Данни
– Всички ресурси имат уникални идентификатори (URI)
– Използва се структурата на WWW (HTTP URIs)
– Лесно намиране и достъпване на на информация за
даден ресурс
– Ресурсите са свързани пожеду си
Career Days 2012 @ Sofia University Юни 2012 #11
12. Свързани Отворени Данни (Linked Open Data)
(c) Cyganiak & Jentzsch
Career Days 2012 @ Sofia University Юни 2012 #12
13. Еволюцията на Семантичния Уеб
RDF RDF 2
DAML+OIL OWL OWL 2
SPARQL SPARQL 1.1
RIF
RDFa
SAWSDL
LOD
SKOS
HCLS
RDB2RDF
GLD
PIL
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
Career Days 2012 @ Sofia University Юни 2012 #13
15. Проблеми с управлението на информацията (EIM)
• Много и различни източници на информация в
отделите на една организация
• Твърде много точки на интеграция между
различните бази данни и приложения
• Сложни и бавни процеси на интеграция на
информация
Career Days 2012 @ Sofia University Юни 2012 #15
16. Проблеми с управлението на информацията (2)
• Непълна, дублирана и/или неконсистентна
информация
• Имплицитна информация в неструктурирани
(текстови) източници на информация
• Трудности с интегрирането на структурирани,
неструктурирани и полу-структурирани източници
на информация
Career Days 2012 @ Sofia University Юни 2012 #16
17. Ползи от прилагане на Семантичните Технологии за
управление на информация
• Опростяване на процесите на интегриране на
информация
– Лесен и гъвкав подход за моделиране на данни
– Инкрементална интеграция на информация “отдолу-
нагоре”
– “Свързване“ на дублираната информация
• Унифициран слой с мета-данни (enterprise
metadata layer)
– Подобряване на споделянето и използване на
информация в организацията
– Интегриране на различни източници на информация
(data silos)
Career Days 2012 @ Sofia University Юни 2012 #17
18. Ползи от прилагане на Семантичните Технологии за
управление на информация (2)
• Обогатяване на информация
– Обогатяване на неструктурираната информация с
анотации
– Откриване на имплицитни факти и релации
• Унифициран достъп до информацията
– Ефикасно интегриране на структурирана и
неструктурирана информация
– Опростена инфраструктура базирана на отворени
стандарти
Career Days 2012 @ Sofia University Юни 2012 #18
19. Ползи от прилагане на Семантичните Технологии за
управление на информация (3)
• Улеснен обмен на информация между
организациите
– Лесно публикуване и използване на Свързани Данни
(Linked Data)
• Допълнение към сегашните ИТ
– Не е необходимо замяна на вече използваните
технологии и приложения, а само надграждане
Career Days 2012 @ Sofia University Юни 2012 #19
20. Интегриране на информация посредством
Семантични Технологии
(c) W3C
Career Days 2012 @ Sofia University Юни 2012 #20
21. Типични видове приложения на Семантични
Технологии и Свързани Данни
• Публикуване и използване на Свързани Данни
(Linked Data)
– Улеснява обмена на информация в различните вериги
на добавена стойност (value chain)
• Интегриране на информация в организацията
– Интегриране и свързване на различните източници на
информация / Enterprise metadata layer
• Управление на знания и семантично търсене
– Интегриране на структурирана и неструктурирана
информация
– Откриване на имплицитни факти и релации
Career Days 2012 @ Sofia University Юни 2012 #21
22. ПРОДУКТИ И ПРОЕКТИ НА
ОНТОТЕКСТ
Career Days 2012 @ Sofia University Юни 2012 #22
23. OWLIM
• http://www.ontotext.com/owlim
• Семантична СУБД (RDF)
• Съвместима с W3C стандартите за RDF, OWL и
SPARQL
• Разширена функционалност за пространствено
(geo-spatial) и пълно-текстово (full-text) търсене
• Работа в клъстер
• Основни предимства
– Производителност при добавяне/премахване на факти
– Мащабируемост (scalability)
Career Days 2012 @ Sofia University Юни 2012 #23
24. KIM и Semantic Biomedical Tagger
• http://www.ontotext.com/kim
• Платформи за обработка на текст (text mining) и
семантично анотиране (semantic annotation)
– Автоматично генериране на метаданни и свързани
данни (Linked Data)
• Базирани на GATE
• Извличането на информация и обработката на
текст е базирана на онтологии и бази знания
• Адаптирана за различни домейни
– HCLS, Publishing & Media, Cultural Heritage
Career Days 2012 @ Sofia University Юни 2012 #24
25. KIM и Semantic Biomedical Tagger (2)
Career Days 2012 @ Sofia University Юни 2012 #25
26. Web Mining Framework
• http://www.ontotext.com/wmf
• Платформа за извличане на информация от уеб
страници (web mining)
• Базирана на GATE
• Адаптирана за различни домейни
– Jobs intelligence, vehicle trading, hotel bookings, recipe
collection
Career Days 2012 @ Sofia University Юни 2012 #26
29. Динамично публикуване на новини за BBC
• BBC World Cup 2010 и BBC London Olympics 2012
• Приложени технологии от Онтотекст: OWLIM и
CES/KIM
(c) BBC
Career Days 2012 @ Sofia University Юни 2012 #29
(c) BBC
30. Динамично публикуване на новини за BBC (2)
(c) BBC
Career Days 2012 @ Sofia University Юни 2012 #30
31. The UK National Archive
• Изграждане на семантична база от знания от
дигитален архив, семантично търсене на
информация, интегриране и публикуване на
Свързани Данни
• Извличане на информация (text mining) от 700
млн. документа (40ТБ текст)
• Изграждане на база знания от 5 милиарда факта
(RDF triples)
Career Days 2012 @ Sofia University Юни 2012 #31
32. Linked Life Data
• Семантична база от знания (semantic warehouse),
интегрираща 25+ източници на медицински
данни
• Описани са повече от 1 милиард обекта
• Семантично търсене и открване на данни
Career Days 2012 @ Sofia University Юни 2012 #32
33. EDAMAM
• Изграждане на семантична база от знания за
рецепти и храни
• WMF се използва за фокусирано извличане на
информация от WWW; онтология за храни;
обработка на текст; интегриране на информация
Career Days 2012 @ Sofia University Юни 2012 #33
34. Европейски изследователски проекти (FP7)
• AnnoMarket – SaaS/PaaS за ресурси за анализ на
текст (text mining)
• Trend Miner – автоматично резюмиране на текст
(text summarization) и анализ на мнения
(sentiment mining)
• CUBIST – интегриране на структурирани и
неструктурирани данни за бизнес анализи
(Business Intelligence)
Career Days 2012 @ Sofia University Юни 2012 #34
35. Европейски изследователски проекти (FP7)
• MOLTO – машинен превод в реално време между
официалните езици в ЕС
• Khreshmoi – интегриране на структурирани и
неструктурирани източници на медицинска
информация и публикуване на свързани данни
(Linked Data)
• RENDER – нови подходи за търсене на
информация
Career Days 2012 @ Sofia University Юни 2012 #35
37. Работа в Онтотекст
• http://www.ontotext.com/jobs
• Възможности за
– Работа в иновативна компания
– Опит с нови технологии
– Участие в международни изследователски или
индустриални проекти
• Също и опции за стажанти
Career Days 2012 @ Sofia University Юни 2012 #37
38. THANK YOU!
Career Days 2012 @ Sofia University Юни 2012 #38
39. Ontology specification example
class Person
property hasParent
class Woman domain #Person
subClassOf #Person range #Person
maxCardinality 2
class Man
subClassOf #Person
property hasChild
complementOf #Woman
inverseOf #hasParent
individual John
property hasSpouce
instanceOf #Man
domain #Person
range #Person
individual Mary
maxCardinality 1
instanceOf #Woman
symmetric
hasSpouce #John
individual Jane
instance Of #Woman
hasParent #John
hasParent #Mary
Career Days 2012 @ Sofia University Юни 2012 #39