SlideShare una empresa de Scribd logo
1 de 39
Descargar para leer sin conexión
Семантични технологии за
интелигентно интегриране,
 управление и търсене на
      информация
    Марин Димитров (Ontotext)

    Career Days 2012 @ Sofia University
За Онтотекст

• Основана през 2000г. като част от Сирма Груп
  – Независима компания от 2009
  – Офиси в София и Варна, USA и UK
• Решения за интелигентно управление на данни
• Основни клиенти
  – Медии (BBC, Press Association)
  – Фармацевтични компании (AstraZeneca)
  – Музеи и правителствени организации (The British
    Museum, The National Archives, Polish Digital National
    Museum)


                  Career Days 2012 @ Sofia University   Юни 2012   #2
Съдържание

• Въведение в Семантичните Технологии и
  Свързани Данни (Linked Data)
• Приложение на Семантичните Технологии за
  интелигентно управление на информация
• Продукти и проекти на Онтотекст
• Работа в Онтотекст




                Career Days 2012 @ Sofia University   Юни 2012   #3
ВЪВЕДЕНИЕ В СЕМАНТИЧНИТЕ
ТЕХНОЛОГИИ



        Career Days 2012 @ Sofia University   Юни 2012   #4
Основни понятия

• Семантичен Уеб (Semantic Web)
• Онтологии
• Resource Description Framework (RDF)
• Свързани данни (Linked Data)




                Career Days 2012 @ Sofia University   Юни 2012   #5
Принципи на Семантичния Уеб (Semantic Web)

• Разширение на сегашния WWW
   – От уеб от страници до уеб от данни (data web)
• Данните са достъпни посредством съществуващите уеб
  архитектури и протоколи
• Данните са свързани помежду си
   – така както сегашните уеб документи са свързани
• Целта е създаване на платформа за
   – Лесно споделяне на данни между интелигентни приложения
   – Данните да могат да бъдат обработвани автоматично
   – Нови данни и релации да могат да бъдат извеждани автоматично




                      Career Days 2012 @ Sofia University   Юни 2012   #6
Онтологии

• Модели за данни в Семантичния Уеб
• Онтологията е формална                          спецификация       на
  някакъв домейн
  – Концепции (класове) и техните атрибути
  – Релациите между концепциите
  – Конкретни обекти (индивиди)
• Прилики и разлики                   с      други     подходи       за
  моделиране на данни
  – Таксономии, речници, схеми, UML модели, ...



                 Career Days 2012 @ Sofia University      Юни 2012        #7
Resource Description Framework (RDF)

• Модел за данни с формална семантика
• Entity-Attribute-Value базиран модел
  • Subject (E), Predicate (A), Object (V)
  • Обектите се наричат ресурси, а релациите между тях са
    предикати
  • всеки   ресурс   или                    релация             има    уникален
    идентификатор (URI)
                                predicate
             subject                                   object


  • Формални правила за логически извод (RDFS)

                       Career Days 2012 @ Sofia University            Юни 2012    #8
RDFS правила за логически извод




       Career Days 2012 @ Sofia University   Юни 2012   #9
Resource Description Framework (RDF) пример

                                  USA

            partOf                               locatedIn     LA

                                presidentOf                     locatedIn
Hawaii
                             Barack                attended         Occidental
                             Obama                                   College

                               hasChild          hasChild


                      Sasha
           hasChild
Michelle                                               Malia
                               hasChild
Obama
                          hasParent

                      Career Days 2012 @ Sofia University            Юни 2012    #10
Свързани Данни (Linked Data)

• Подход за публикуване, търсене и интегриране на
  разпределени RDF* данни
• Принципи на Свързаните Данни
  – Всички ресурси имат уникални идентификатори (URI)
  – Използва се структурата на WWW (HTTP URIs)
  – Лесно намиране и достъпване на на информация за
    даден ресурс
  – Ресурсите са свързани пожеду си




                Career Days 2012 @ Sofia University   Юни 2012   #11
Свързани Отворени Данни (Linked Open Data)




                                                  (c) Cyganiak & Jentzsch
            Career Days 2012 @ Sofia University          Юни 2012           #12
Еволюцията на Семантичния Уеб
                 RDF                                                                                RDF 2
        DAML+OIL                OWL                                                OWL 2
                                                   SPARQL                                   SPARQL 1.1
                                                                      RIF
                                                              RDFa
                                                        SAWSDL
                                                                                    LOD
                                                                             SKOS
                                                                                           HCLS
                                                                                            RDB2RDF
                                                                                                    GLD

                                                                                                    PIL

1999   2000   2001     2002   2003    2004    2005     2006     2007        2008     2009    2010   2011


                                Career Days 2012 @ Sofia University                   Юни 2012        #13
ПРИЛОЖЕНИЕ НА
СЕМАНТИЧНИТЕ ТЕХНОЛОГИИ



        Career Days 2012 @ Sofia University   Юни 2012   #14
Проблеми с управлението на информацията (EIM)

• Много и различни източници на информация в
  отделите на една организация
• Твърде много точки на интеграция между
  различните бази данни и приложения
• Сложни и бавни процеси на интеграция на
  информация




              Career Days 2012 @ Sofia University   Юни 2012   #15
Проблеми с управлението на информацията (2)

• Непълна, дублирана                и/или            неконсистентна
  информация
• Имплицитна информация в неструктурирани
  (текстови) източници на информация
• Трудности с интегрирането на структурирани,
  неструктурирани и полу-структурирани източници
  на информация




               Career Days 2012 @ Sofia University        Юни 2012   #16
Ползи от прилагане на Семантичните Технологии за
           управление на информация

• Опростяване на процесите на интегриране на
  информация
  – Лесен и гъвкав подход за моделиране на данни
  – Инкрементална интеграция на информация “отдолу-
    нагоре”
  – “Свързване“ на дублираната информация
• Унифициран слой             с      мета-данни       (enterprise
  metadata layer)
  – Подобряване на споделянето и използване на
    информация в организацията
  – Интегриране на различни източници на информация
    (data silos)
                Career Days 2012 @ Sofia University    Юни 2012   #17
Ползи от прилагане на Семантичните Технологии за
          управление на информация (2)

• Обогатяване на информация
  – Обогатяване на неструктурираната информация с
    анотации
  – Откриване на имплицитни факти и релации
• Унифициран достъп до информацията
  – Ефикасно    интегриране    на структурирана и
    неструктурирана информация
  – Опростена инфраструктура базирана на отворени
    стандарти




               Career Days 2012 @ Sofia University   Юни 2012   #18
Ползи от прилагане на Семантичните Технологии за
          управление на информация (3)

• Улеснен   обмен            на          информация      между
  организациите
  – Лесно публикуване и използване на Свързани Данни
    (Linked Data)
• Допълнение към сегашните ИТ
  – Не е необходимо замяна на вече използваните
    технологии и приложения, а само надграждане




                Career Days 2012 @ Sofia University   Юни 2012   #19
Интегриране на информация посредством
        Семантични Технологии




                                                (c) W3C



          Career Days 2012 @ Sofia University     Юни 2012   #20
Типични видове приложения на Семантични
         Технологии и Свързани Данни

• Публикуване и използване на Свързани Данни
  (Linked Data)
  – Улеснява обмена на информация в различните вериги
    на добавена стойност (value chain)
• Интегриране на информация в организацията
  – Интегриране и свързване на различните източници на
    информация / Enterprise metadata layer
• Управление на знания и семантично търсене
  – Интегриране на структурирана и неструктурирана
    информация
  – Откриване на имплицитни факти и релации

                 Career Days 2012 @ Sofia University   Юни 2012   #21
ПРОДУКТИ И ПРОЕКТИ НА
ОНТОТЕКСТ



         Career Days 2012 @ Sofia University   Юни 2012   #22
OWLIM

• http://www.ontotext.com/owlim
• Семантична СУБД (RDF)
• Съвместима с W3C стандартите за RDF, OWL и
  SPARQL
• Разширена функционалност за пространствено
  (geo-spatial) и пълно-текстово (full-text) търсене
• Работа в клъстер
• Основни предимства
  – Производителност при добавяне/премахване на факти
  – Мащабируемост (scalability)
                 Career Days 2012 @ Sofia University   Юни 2012   #23
KIM и Semantic Biomedical Tagger

• http://www.ontotext.com/kim
• Платформи за обработка на текст (text mining) и
  семантично анотиране (semantic annotation)
  – Автоматично генериране на метаданни и свързани
    данни (Linked Data)
• Базирани на GATE
• Извличането на информация и обработката на
  текст е базирана на онтологии и бази знания
• Адаптирана за различни домейни
  – HCLS, Publishing & Media, Cultural Heritage

                   Career Days 2012 @ Sofia University   Юни 2012   #24
KIM и Semantic Biomedical Tagger (2)




         Career Days 2012 @ Sofia University   Юни 2012   #25
Web Mining Framework

• http://www.ontotext.com/wmf
• Платформа за извличане на информация от уеб
  страници (web mining)
• Базирана на GATE
• Адаптирана за различни домейни
  – Jobs intelligence, vehicle trading, hotel bookings, recipe
    collection




                   Career Days 2012 @ Sofia University   Юни 2012   #26
Web Mining Framework (2)




    Career Days 2012 @ Sofia University   Юни 2012   #27
Семантично интегриране на информация




          Career Days 2012 @ Sofia University   Юни 2012   #28
Динамично публикуване на новини за BBC

• BBC World Cup 2010 и BBC London Olympics 2012
• Приложени технологии от Онтотекст: OWLIM и
  CES/KIM




                         (c) BBC




                Career Days 2012 @ Sofia University   Юни 2012       #29
                                                                 (c) BBC
Динамично публикуване на новини за BBC (2)




                                                   (c) BBC



             Career Days 2012 @ Sofia University             Юни 2012   #30
The UK National Archive

• Изграждане на семантична база от знания от
  дигитален архив, семантично търсене на
  информация, интегриране и публикуване на
  Свързани Данни
• Извличане на информация (text mining) от 700
  млн. документа (40ТБ текст)
• Изграждане на база знания от 5 милиарда факта
  (RDF triples)



               Career Days 2012 @ Sofia University   Юни 2012   #31
Linked Life Data

• Семантична база от знания (semantic warehouse),
  интегрираща 25+ източници на медицински
  данни
• Описани са повече от 1 милиард обекта
• Семантично търсене и открване на данни




                Career Days 2012 @ Sofia University   Юни 2012   #32
EDAMAM

• Изграждане на семантична база от знания за
  рецепти и храни
• WMF се използва за фокусирано извличане на
  информация от WWW; онтология за храни;
  обработка на текст; интегриране на информация




               Career Days 2012 @ Sofia University   Юни 2012   #33
Европейски изследователски проекти (FP7)

• AnnoMarket – SaaS/PaaS за ресурси за анализ на
  текст (text mining)
• Trend Miner – автоматично резюмиране на текст
  (text summarization) и анализ на мнения
  (sentiment mining)
• CUBIST – интегриране на структурирани и
  неструктурирани данни за бизнес анализи
  (Business Intelligence)



               Career Days 2012 @ Sofia University   Юни 2012   #34
Европейски изследователски проекти (FP7)

• MOLTO – машинен превод в реално време между
  официалните езици в ЕС
• Khreshmoi – интегриране на структурирани и
  неструктурирани източници на медицинска
  информация и публикуване на свързани данни
  (Linked Data)
• RENDER – нови            подходи                  за   търсене       на
  информация



              Career Days 2012 @ Sofia University           Юни 2012    #35
РАБОТА В ОНТОТЕКСТ




         Career Days 2012 @ Sofia University   Юни 2012   #36
Работа в Онтотекст

• http://www.ontotext.com/jobs
• Възможности за
  – Работа в иновативна компания
  – Опит с нови технологии
  – Участие в международни изследователски                       или
    индустриални проекти
• Също и опции за стажанти




                Career Days 2012 @ Sofia University   Юни 2012     #37
THANK YOU!




         Career Days 2012 @ Sofia University   Юни 2012   #38
Ontology specification example
class Person
                                                                      property hasParent
class Woman                                                               domain      #Person
   subClassOf         #Person                                             range       #Person
                                                                          maxCardinality     2
class Man
   subClassOf         #Person
                                                                      property hasChild
   complementOf       #Woman
                                                                          inverseOf   #hasParent

                  individual John
                                                                      property hasSpouce
                     instanceOf     #Man
                                                                          domain      #Person
                                                                          range       #Person
                  individual Mary
                                                                          maxCardinality     1
                     instanceOf     #Woman
                                                                          symmetric
                     hasSpouce      #John


                  individual Jane
                     instance Of #Woman
                     hasParent      #John
                     hasParent      #Mary
                                    Career Days 2012 @ Sofia University                    Юни 2012   #39

Más contenido relacionado

Más de Marin Dimitrov

Measuring the Productivity of Your Engineering Organisation - the Good, the B...
Measuring the Productivity of Your Engineering Organisation - the Good, the B...Measuring the Productivity of Your Engineering Organisation - the Good, the B...
Measuring the Productivity of Your Engineering Organisation - the Good, the B...Marin Dimitrov
 
Mapping Your Career Journey
Mapping Your Career JourneyMapping Your Career Journey
Mapping Your Career JourneyMarin Dimitrov
 
Trust - the Key Success Factor for Teams & Organisations
Trust - the Key Success Factor for Teams & OrganisationsTrust - the Key Success Factor for Teams & Organisations
Trust - the Key Success Factor for Teams & OrganisationsMarin Dimitrov
 
Uber @ Telerik Academy 2018
Uber @ Telerik Academy 2018Uber @ Telerik Academy 2018
Uber @ Telerik Academy 2018Marin Dimitrov
 
Machine Learning @ Uber
Machine Learning @ UberMachine Learning @ Uber
Machine Learning @ UberMarin Dimitrov
 
Career Advice for My Younger Self
Career Advice for My Younger SelfCareer Advice for My Younger Self
Career Advice for My Younger SelfMarin Dimitrov
 
Scaling Your Engineering Organization with Distributed Sites
Scaling Your Engineering Organization with Distributed SitesScaling Your Engineering Organization with Distributed Sites
Scaling Your Engineering Organization with Distributed SitesMarin Dimitrov
 
Building, Scaling and Leading High-Performance Teams
Building, Scaling and Leading High-Performance TeamsBuilding, Scaling and Leading High-Performance Teams
Building, Scaling and Leading High-Performance TeamsMarin Dimitrov
 
Uber @ Career Days 2017 (Sofia University)
Uber @ Career Days 2017 (Sofia University)Uber @ Career Days 2017 (Sofia University)
Uber @ Career Days 2017 (Sofia University)Marin Dimitrov
 
GraphDB Connectors – Powering Complex SPARQL Queries
GraphDB Connectors – Powering Complex SPARQL QueriesGraphDB Connectors – Powering Complex SPARQL Queries
GraphDB Connectors – Powering Complex SPARQL QueriesMarin Dimitrov
 
DataGraft Platform: RDF Database-as-a-Service
DataGraft Platform: RDF Database-as-a-ServiceDataGraft Platform: RDF Database-as-a-Service
DataGraft Platform: RDF Database-as-a-ServiceMarin Dimitrov
 
On-Demand RDF Graph Databases in the Cloud
On-Demand RDF Graph Databases in the CloudOn-Demand RDF Graph Databases in the Cloud
On-Demand RDF Graph Databases in the CloudMarin Dimitrov
 
Low-cost Open Data As-a-Service
Low-cost Open Data As-a-ServiceLow-cost Open Data As-a-Service
Low-cost Open Data As-a-ServiceMarin Dimitrov
 
Text Analytics & Linked Data Management As-a-Service
Text Analytics & Linked Data Management As-a-ServiceText Analytics & Linked Data Management As-a-Service
Text Analytics & Linked Data Management As-a-ServiceMarin Dimitrov
 
RDF Database-as-a-Service with S4
RDF Database-as-a-Service with S4RDF Database-as-a-Service with S4
RDF Database-as-a-Service with S4Marin Dimitrov
 
Scaling up Linked Data
Scaling up Linked DataScaling up Linked Data
Scaling up Linked DataMarin Dimitrov
 
Enabling Low-cost Open Data Publishing and Reuse
Enabling Low-cost Open Data Publishing and ReuseEnabling Low-cost Open Data Publishing and Reuse
Enabling Low-cost Open Data Publishing and ReuseMarin Dimitrov
 
S4: The Self-Service Semantic Suite
S4: The Self-Service Semantic SuiteS4: The Self-Service Semantic Suite
S4: The Self-Service Semantic SuiteMarin Dimitrov
 
Scaling to Millions of Concurrent SPARQL Queries on the Cloud
Scaling to Millions of Concurrent SPARQL Queries on the CloudScaling to Millions of Concurrent SPARQL Queries on the Cloud
Scaling to Millions of Concurrent SPARQL Queries on the CloudMarin Dimitrov
 

Más de Marin Dimitrov (20)

Measuring the Productivity of Your Engineering Organisation - the Good, the B...
Measuring the Productivity of Your Engineering Organisation - the Good, the B...Measuring the Productivity of Your Engineering Organisation - the Good, the B...
Measuring the Productivity of Your Engineering Organisation - the Good, the B...
 
Mapping Your Career Journey
Mapping Your Career JourneyMapping Your Career Journey
Mapping Your Career Journey
 
Open Source @ Uber
Open Source @ Uber Open Source @ Uber
Open Source @ Uber
 
Trust - the Key Success Factor for Teams & Organisations
Trust - the Key Success Factor for Teams & OrganisationsTrust - the Key Success Factor for Teams & Organisations
Trust - the Key Success Factor for Teams & Organisations
 
Uber @ Telerik Academy 2018
Uber @ Telerik Academy 2018Uber @ Telerik Academy 2018
Uber @ Telerik Academy 2018
 
Machine Learning @ Uber
Machine Learning @ UberMachine Learning @ Uber
Machine Learning @ Uber
 
Career Advice for My Younger Self
Career Advice for My Younger SelfCareer Advice for My Younger Self
Career Advice for My Younger Self
 
Scaling Your Engineering Organization with Distributed Sites
Scaling Your Engineering Organization with Distributed SitesScaling Your Engineering Organization with Distributed Sites
Scaling Your Engineering Organization with Distributed Sites
 
Building, Scaling and Leading High-Performance Teams
Building, Scaling and Leading High-Performance TeamsBuilding, Scaling and Leading High-Performance Teams
Building, Scaling and Leading High-Performance Teams
 
Uber @ Career Days 2017 (Sofia University)
Uber @ Career Days 2017 (Sofia University)Uber @ Career Days 2017 (Sofia University)
Uber @ Career Days 2017 (Sofia University)
 
GraphDB Connectors – Powering Complex SPARQL Queries
GraphDB Connectors – Powering Complex SPARQL QueriesGraphDB Connectors – Powering Complex SPARQL Queries
GraphDB Connectors – Powering Complex SPARQL Queries
 
DataGraft Platform: RDF Database-as-a-Service
DataGraft Platform: RDF Database-as-a-ServiceDataGraft Platform: RDF Database-as-a-Service
DataGraft Platform: RDF Database-as-a-Service
 
On-Demand RDF Graph Databases in the Cloud
On-Demand RDF Graph Databases in the CloudOn-Demand RDF Graph Databases in the Cloud
On-Demand RDF Graph Databases in the Cloud
 
Low-cost Open Data As-a-Service
Low-cost Open Data As-a-ServiceLow-cost Open Data As-a-Service
Low-cost Open Data As-a-Service
 
Text Analytics & Linked Data Management As-a-Service
Text Analytics & Linked Data Management As-a-ServiceText Analytics & Linked Data Management As-a-Service
Text Analytics & Linked Data Management As-a-Service
 
RDF Database-as-a-Service with S4
RDF Database-as-a-Service with S4RDF Database-as-a-Service with S4
RDF Database-as-a-Service with S4
 
Scaling up Linked Data
Scaling up Linked DataScaling up Linked Data
Scaling up Linked Data
 
Enabling Low-cost Open Data Publishing and Reuse
Enabling Low-cost Open Data Publishing and ReuseEnabling Low-cost Open Data Publishing and Reuse
Enabling Low-cost Open Data Publishing and Reuse
 
S4: The Self-Service Semantic Suite
S4: The Self-Service Semantic SuiteS4: The Self-Service Semantic Suite
S4: The Self-Service Semantic Suite
 
Scaling to Millions of Concurrent SPARQL Queries on the Cloud
Scaling to Millions of Concurrent SPARQL Queries on the CloudScaling to Millions of Concurrent SPARQL Queries on the Cloud
Scaling to Millions of Concurrent SPARQL Queries on the Cloud
 

Career Days 2012 @ Sofia University

  • 1. Семантични технологии за интелигентно интегриране, управление и търсене на информация Марин Димитров (Ontotext) Career Days 2012 @ Sofia University
  • 2. За Онтотекст • Основана през 2000г. като част от Сирма Груп – Независима компания от 2009 – Офиси в София и Варна, USA и UK • Решения за интелигентно управление на данни • Основни клиенти – Медии (BBC, Press Association) – Фармацевтични компании (AstraZeneca) – Музеи и правителствени организации (The British Museum, The National Archives, Polish Digital National Museum) Career Days 2012 @ Sofia University Юни 2012 #2
  • 3. Съдържание • Въведение в Семантичните Технологии и Свързани Данни (Linked Data) • Приложение на Семантичните Технологии за интелигентно управление на информация • Продукти и проекти на Онтотекст • Работа в Онтотекст Career Days 2012 @ Sofia University Юни 2012 #3
  • 4. ВЪВЕДЕНИЕ В СЕМАНТИЧНИТЕ ТЕХНОЛОГИИ Career Days 2012 @ Sofia University Юни 2012 #4
  • 5. Основни понятия • Семантичен Уеб (Semantic Web) • Онтологии • Resource Description Framework (RDF) • Свързани данни (Linked Data) Career Days 2012 @ Sofia University Юни 2012 #5
  • 6. Принципи на Семантичния Уеб (Semantic Web) • Разширение на сегашния WWW – От уеб от страници до уеб от данни (data web) • Данните са достъпни посредством съществуващите уеб архитектури и протоколи • Данните са свързани помежду си – така както сегашните уеб документи са свързани • Целта е създаване на платформа за – Лесно споделяне на данни между интелигентни приложения – Данните да могат да бъдат обработвани автоматично – Нови данни и релации да могат да бъдат извеждани автоматично Career Days 2012 @ Sofia University Юни 2012 #6
  • 7. Онтологии • Модели за данни в Семантичния Уеб • Онтологията е формална спецификация на някакъв домейн – Концепции (класове) и техните атрибути – Релациите между концепциите – Конкретни обекти (индивиди) • Прилики и разлики с други подходи за моделиране на данни – Таксономии, речници, схеми, UML модели, ... Career Days 2012 @ Sofia University Юни 2012 #7
  • 8. Resource Description Framework (RDF) • Модел за данни с формална семантика • Entity-Attribute-Value базиран модел • Subject (E), Predicate (A), Object (V) • Обектите се наричат ресурси, а релациите между тях са предикати • всеки ресурс или релация има уникален идентификатор (URI) predicate subject object • Формални правила за логически извод (RDFS) Career Days 2012 @ Sofia University Юни 2012 #8
  • 9. RDFS правила за логически извод Career Days 2012 @ Sofia University Юни 2012 #9
  • 10. Resource Description Framework (RDF) пример USA partOf locatedIn LA presidentOf locatedIn Hawaii Barack attended Occidental Obama College hasChild hasChild Sasha hasChild Michelle Malia hasChild Obama hasParent Career Days 2012 @ Sofia University Юни 2012 #10
  • 11. Свързани Данни (Linked Data) • Подход за публикуване, търсене и интегриране на разпределени RDF* данни • Принципи на Свързаните Данни – Всички ресурси имат уникални идентификатори (URI) – Използва се структурата на WWW (HTTP URIs) – Лесно намиране и достъпване на на информация за даден ресурс – Ресурсите са свързани пожеду си Career Days 2012 @ Sofia University Юни 2012 #11
  • 12. Свързани Отворени Данни (Linked Open Data) (c) Cyganiak & Jentzsch Career Days 2012 @ Sofia University Юни 2012 #12
  • 13. Еволюцията на Семантичния Уеб RDF RDF 2 DAML+OIL OWL OWL 2 SPARQL SPARQL 1.1 RIF RDFa SAWSDL LOD SKOS HCLS RDB2RDF GLD PIL 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Career Days 2012 @ Sofia University Юни 2012 #13
  • 14. ПРИЛОЖЕНИЕ НА СЕМАНТИЧНИТЕ ТЕХНОЛОГИИ Career Days 2012 @ Sofia University Юни 2012 #14
  • 15. Проблеми с управлението на информацията (EIM) • Много и различни източници на информация в отделите на една организация • Твърде много точки на интеграция между различните бази данни и приложения • Сложни и бавни процеси на интеграция на информация Career Days 2012 @ Sofia University Юни 2012 #15
  • 16. Проблеми с управлението на информацията (2) • Непълна, дублирана и/или неконсистентна информация • Имплицитна информация в неструктурирани (текстови) източници на информация • Трудности с интегрирането на структурирани, неструктурирани и полу-структурирани източници на информация Career Days 2012 @ Sofia University Юни 2012 #16
  • 17. Ползи от прилагане на Семантичните Технологии за управление на информация • Опростяване на процесите на интегриране на информация – Лесен и гъвкав подход за моделиране на данни – Инкрементална интеграция на информация “отдолу- нагоре” – “Свързване“ на дублираната информация • Унифициран слой с мета-данни (enterprise metadata layer) – Подобряване на споделянето и използване на информация в организацията – Интегриране на различни източници на информация (data silos) Career Days 2012 @ Sofia University Юни 2012 #17
  • 18. Ползи от прилагане на Семантичните Технологии за управление на информация (2) • Обогатяване на информация – Обогатяване на неструктурираната информация с анотации – Откриване на имплицитни факти и релации • Унифициран достъп до информацията – Ефикасно интегриране на структурирана и неструктурирана информация – Опростена инфраструктура базирана на отворени стандарти Career Days 2012 @ Sofia University Юни 2012 #18
  • 19. Ползи от прилагане на Семантичните Технологии за управление на информация (3) • Улеснен обмен на информация между организациите – Лесно публикуване и използване на Свързани Данни (Linked Data) • Допълнение към сегашните ИТ – Не е необходимо замяна на вече използваните технологии и приложения, а само надграждане Career Days 2012 @ Sofia University Юни 2012 #19
  • 20. Интегриране на информация посредством Семантични Технологии (c) W3C Career Days 2012 @ Sofia University Юни 2012 #20
  • 21. Типични видове приложения на Семантични Технологии и Свързани Данни • Публикуване и използване на Свързани Данни (Linked Data) – Улеснява обмена на информация в различните вериги на добавена стойност (value chain) • Интегриране на информация в организацията – Интегриране и свързване на различните източници на информация / Enterprise metadata layer • Управление на знания и семантично търсене – Интегриране на структурирана и неструктурирана информация – Откриване на имплицитни факти и релации Career Days 2012 @ Sofia University Юни 2012 #21
  • 22. ПРОДУКТИ И ПРОЕКТИ НА ОНТОТЕКСТ Career Days 2012 @ Sofia University Юни 2012 #22
  • 23. OWLIM • http://www.ontotext.com/owlim • Семантична СУБД (RDF) • Съвместима с W3C стандартите за RDF, OWL и SPARQL • Разширена функционалност за пространствено (geo-spatial) и пълно-текстово (full-text) търсене • Работа в клъстер • Основни предимства – Производителност при добавяне/премахване на факти – Мащабируемост (scalability) Career Days 2012 @ Sofia University Юни 2012 #23
  • 24. KIM и Semantic Biomedical Tagger • http://www.ontotext.com/kim • Платформи за обработка на текст (text mining) и семантично анотиране (semantic annotation) – Автоматично генериране на метаданни и свързани данни (Linked Data) • Базирани на GATE • Извличането на информация и обработката на текст е базирана на онтологии и бази знания • Адаптирана за различни домейни – HCLS, Publishing & Media, Cultural Heritage Career Days 2012 @ Sofia University Юни 2012 #24
  • 25. KIM и Semantic Biomedical Tagger (2) Career Days 2012 @ Sofia University Юни 2012 #25
  • 26. Web Mining Framework • http://www.ontotext.com/wmf • Платформа за извличане на информация от уеб страници (web mining) • Базирана на GATE • Адаптирана за различни домейни – Jobs intelligence, vehicle trading, hotel bookings, recipe collection Career Days 2012 @ Sofia University Юни 2012 #26
  • 27. Web Mining Framework (2) Career Days 2012 @ Sofia University Юни 2012 #27
  • 28. Семантично интегриране на информация Career Days 2012 @ Sofia University Юни 2012 #28
  • 29. Динамично публикуване на новини за BBC • BBC World Cup 2010 и BBC London Olympics 2012 • Приложени технологии от Онтотекст: OWLIM и CES/KIM (c) BBC Career Days 2012 @ Sofia University Юни 2012 #29 (c) BBC
  • 30. Динамично публикуване на новини за BBC (2) (c) BBC Career Days 2012 @ Sofia University Юни 2012 #30
  • 31. The UK National Archive • Изграждане на семантична база от знания от дигитален архив, семантично търсене на информация, интегриране и публикуване на Свързани Данни • Извличане на информация (text mining) от 700 млн. документа (40ТБ текст) • Изграждане на база знания от 5 милиарда факта (RDF triples) Career Days 2012 @ Sofia University Юни 2012 #31
  • 32. Linked Life Data • Семантична база от знания (semantic warehouse), интегрираща 25+ източници на медицински данни • Описани са повече от 1 милиард обекта • Семантично търсене и открване на данни Career Days 2012 @ Sofia University Юни 2012 #32
  • 33. EDAMAM • Изграждане на семантична база от знания за рецепти и храни • WMF се използва за фокусирано извличане на информация от WWW; онтология за храни; обработка на текст; интегриране на информация Career Days 2012 @ Sofia University Юни 2012 #33
  • 34. Европейски изследователски проекти (FP7) • AnnoMarket – SaaS/PaaS за ресурси за анализ на текст (text mining) • Trend Miner – автоматично резюмиране на текст (text summarization) и анализ на мнения (sentiment mining) • CUBIST – интегриране на структурирани и неструктурирани данни за бизнес анализи (Business Intelligence) Career Days 2012 @ Sofia University Юни 2012 #34
  • 35. Европейски изследователски проекти (FP7) • MOLTO – машинен превод в реално време между официалните езици в ЕС • Khreshmoi – интегриране на структурирани и неструктурирани източници на медицинска информация и публикуване на свързани данни (Linked Data) • RENDER – нови подходи за търсене на информация Career Days 2012 @ Sofia University Юни 2012 #35
  • 36. РАБОТА В ОНТОТЕКСТ Career Days 2012 @ Sofia University Юни 2012 #36
  • 37. Работа в Онтотекст • http://www.ontotext.com/jobs • Възможности за – Работа в иновативна компания – Опит с нови технологии – Участие в международни изследователски или индустриални проекти • Също и опции за стажанти Career Days 2012 @ Sofia University Юни 2012 #37
  • 38. THANK YOU! Career Days 2012 @ Sofia University Юни 2012 #38
  • 39. Ontology specification example class Person property hasParent class Woman domain #Person subClassOf #Person range #Person maxCardinality 2 class Man subClassOf #Person property hasChild complementOf #Woman inverseOf #hasParent individual John property hasSpouce instanceOf #Man domain #Person range #Person individual Mary maxCardinality 1 instanceOf #Woman symmetric hasSpouce #John individual Jane instance Of #Woman hasParent #John hasParent #Mary Career Days 2012 @ Sofia University Юни 2012 #39