SlideShare a Scribd company logo
1 of 49
Download to read offline
Извлечение из текстов
объектов и фактов
(Text mining)

Татьяна Ландо
Менеджер лингвистических проектов
Natural Language Processing
•  Автоматическая
обработка
естественного
языка
•  Искусственный
интеллект
•  Тест Тьюринга
3
4
Natural Language Processing

• 
• 
• 
• 
• 
• 
• 
5

Поиск (текстовый) / Information Retrieval (IR)
Извлечение фактов / Information Extraction (IE)
Диалоговые системы и Question Answering
Синтез и распознавание речи
Оценка тональности отзывов
Кластеризация и классификация текстов
…
Text Mining

6

•  Извлечение структурированной информации
из неструктурированного текста
•  Основная часть посвящена объектам, их
отношениям и свойствам в текстах
•  Состоит из:
–  Named Entity Recognition (NER)
извлечение именованных сущностей /
объектов
–  Co-reference resolution
Разрешение кореференции
–  Information Extraction (IE)
Извлечение фактов
Named Entity Recognition (NER)
•  Извлечение именованных сущностей
Ранее "Коммерсантъ" и "Интерфакс"
удалили со своих сайтов высказывание
Пескова, где он объясняет, что Путин
публично не произносит имени Алексея
Навального, так как боится отдать ему
часть своей популярности, сообщает
justmedia.ru.
7
Кореференция: анафора
•  Разрешение анафоры: поиск разных
выражений указывающих на одну сущность
Ранее "Коммерсантъ" и "Интерфакс"
удалили со своих сайтов высказывание
Пескова, где ОН объясняет, что Путин
публично не произносит имени Алексея
Навального, так как боится отдать ЕМУ
часть СВОЕЙ популярности, сообщает
justmedia.ru.
8
Кореференция: “синонимы”
Разнообразные способы называния одного и
того же
•  Транслитерация: Yandex – Яндекс
•  Аббревиация: ВТБ – Внешторгбанк – Банк
Внешней Торговли
•  Синонимы: больница – госпиталь
•  Словообразование: Москва – московский
•  Графические: авто кредит - автокредит
9
Information Extraction
•  Извлечение информации об отношениях между
объектами или о значениях параметров.
Популярный блогер и основатель
антикоррупционного проекта "РосПил" Алексей
Навальный фигурирует в уголовном деле как
советник губернатора Кировской области Никиты
Белых.
person

org

Алексей Навальный

основатель

РосПил

Никита Белых
10

position

губернатор

Кировская область
Что извлекают?
Объекты:
•  даты
•  адреса
•  телефоны
•  ФИО
•  название товара
•  компании
•  …
Факты:
11

- 
- 
- 
- 
- 

События
Мнения и отзывы
Контактные данные
Объявления
…
Теперь поговорим о
технологиях

12
Первичная обработка текста
На входе: текст на естественном языке
Текст анализируется на всех лингвистических
уровнях:
•  лексическом
•  морфологическом
•  синтаксическом
•  Семантическом
Различные уровни участвуют в разных процедурах
анализа текста, которые входят в системы
извлечения фактов.
13
Первичная обработка текста
текст

Определение словарной формы
слов и нормализация других
объектов (числа, даты)

токенизация /
графематика

частичный
синтаксический
разбор
14

Снятие омонимии

лемматизация/
нормализация

Разбиение текста на абзацы,
предложения, слова.
Выявление связей между
словами, объединение слов в
неразрывные группы
Графематика

Разбиение текста на слова и предложения
Яндекс.Маркет — сервис сравнения
характеристик товаров и их цен
Скоро начнется осенняя серия игр "Что?
Где? Когда?".
15
Морфология
•  Бывает словарная и автоматическая
•  Еще бывает:
–  Part-of-Speech Tagging
–  Стемминг

стекло:
Стекло – существительное в ед.ч, им.п./вин.п
Стекать – глагол в прош. вр., ед.ч, сред. род
16
Синтаксис

•  Бывает полный
или частичный
•  Они оба
ошибаются,
полный чаще

17
Снятие омонимии
•  Снятие разнообразных неоднозначностей:
•  Морфологическая:
Молоко стекло со стола
•  Синтаксическая:
Он видел их семью своими глазами
•  «Объектная»:
Михаил Задорнов: «20% российских семей
могут себе позволить ипотеку»
18
Information Extraction
Выделение объектов и определение типов
(NER):
• 

Иван Петров –> ФИО

• 

3 апреля 1975 года –> дата

• 

директор по маркетингу –> должность

• 

ООО «Рога и копыта» -> компания

Установление связей между объектами (Factes)
Директор по маркетингу компании «Рога и копыта»
Иван Петров родился ровно 35 лет назад.
19
Пример
post	
  

geo	
  

Вице-губернатор Новосибирской области date	
  
FIO	
  
Владимир Анисимов объявил, что в 2009 году в
области планируется ввести в строй 979 тыс. кв. м
number	
  
жилья. В ответ на вопрос председателя
строительного комитета облсовета Александра
FIO	
   Савельева, занимающего пост генерального
post	
  
директора компании «КПД-Газстрой», comp	
  
post	
   руководитель профильного департамента
comp	
  
обладминистрации сообщил, что за
государственный счет будет построено около 10 %
number	
  
заявленных площадей.
20
Как извлекают?

•  по онтологиям
•  опираясь на правила (Rule-based)
•  опираясь на машинное обучение (ML )

21
Наверное, сначала нужно
поговорить про онтологии…
Онтологии
•  «концептуальные словари»
•  структуры в которых
описываются некоторые
понятия и/или объекты,
отношения между ними,
их характеристики
•  вообще-то это философский термин
23
Онтологии
Бывают:
•  универсальные, описывают вообще все
•  отраслевые, по предметным областям
•  узкоспециализированные, под конкретную
задачу
•  онтологии объектов (база данных)
•  онтологии концептов (понятий)

24
Онтологии
Примеры:
•  Wikipedia, Dbpedia
•  Imdb, Кинопоиск
•  CrunchBase
•  SUMO
•  DOLCE

25
IE с помощью онтологий
•  Используют онтологии объектов
•  Используют открытые источники, сливают
их в одну онтологию объектов с типами и
свойствами.
Например, «препарируют» википедию
•  по тексту готовят гипотезы, опираясь на
контексты и имеющиеся списки объектов
(т.е. свою онтологию)
•  разрешают неоднозначность опираясь на
связи между объектами сразу по всему
тексту
26
Разметим предложение Википедией

27

Президент РФ
Владимир Путин
считает, что
высказывания в ЕС
по поводу решения
Киева
приостановить
процесс интеграции
с Евросоюзом
оказывают
давление на
Украину

http://ru.wikipedia.org/wiki/Президент
…/wiki/Президент_Российской_Федерации
…/wiki/Россия
…/wiki/Владимир
…/wiki/Владимир_Путин
.../wiki/Высказывание
…/wiki/В
…/wiki/Европейский_союз
…/wiki/По
…wiki/Решение
…wiki/Киев
…/wiki/Процесс
…/wiki/Интеграция
…/wiki/С
…/wiki/Европейский_союз
…/wiki/Давление
…/wiki/На
…/wiki/Украина
IE с помощью онтологий
•  получается высокая точность NER, нет
случайных NE
•  снятие омонимии тоже происходит с
высокой точностью
•  низкая полнота: извлекается только то, что
есть в онтологии
•  странная обновляемость, нужно либо
добавлять объекты руками, либо строить
процедуру автоматического обновления
28
IE с помощью онтологий

29

•  зависит от наличия внешних ресурсов,
поэтому подход используется только для
английского
•  хорошо использовать для закрытых
классов, например географические
названия
•  хорошо использовать в областях, где
оперативно пополняются источники,
например кинобазы
•  может использовать или не использовать
лингвистическую информацию, т.е.
подходить для любого «стиля» текста
Машинное обучение:
•  Методы построения алгоритмов, способных
обучаться
•  Дается обучающая выборка – набор
данных, где объектам приписаны свойства.
Характеристики, классы и т.п.
•  Нужно определить зависимость, т.е.
написать алгоритм, который для каждого
нового объекта выдаст максимально точный
ответ
30
Машинное обучение: пример
Девочки:
•  Мария Иванова
•  Дарья Петрова
•  Екатерина Сидорова

Мальчики:
•  Иван Пупкин
•  Алексей Уткин
•  Егор Иванов

Надо определить мальчик или девочка:
•  Олег Бойко
•  Ангелина Алексеева
31
Машинное обучение:

•  извлекается как можно больше
лингвистической информации о словах
•  размечается обучающее множество, на нем
обучается система
•  запускается на корпусе, получаются
результаты

32
Машинное обучение:
•  не требует большого количества ручного труда по
написанию правил
•  не требует заранее подготовленной онтологии
•  систему легко перенастроить под другие «стили»
языка, например перейти от СМИ-текстов к
сообщениям в твиттере
•  не требует детального описания каждого контекста
(т.е. правил не только меньше, но они имеют более
общий вид)
•  процедуры можно делать итеративными: простые
правила -> факты –> более сложные правила
т.е. правила можно извлекать автоматически
33
Машинное обучение:
•  Недостаточно развиты инструменты для
автоматической обработки, трудно получить
лингвистические фичи
(хорошо применимо для английского)
•  Требуется большой обучающий корпус, правильно
и полностью размеченный
•  Сложно отследить в каком именно месте возникла
ошибка и ее исправить «точечно»

34
Rule-based подход
•  использует полный или частичный
синтаксический анализ
•  онтология категорий, т.е. указывается какие
сущности могут обладать какими
параметрами, например: компания –
стоимость
•  NER основанный на контекстах и
внутренних структурах, контексты
(шаблоны) составляются руками лингвистов
35
Rule-based NER
•  для фио: есть словарь имен, правила
согласования имен, отчеств, фамилий,
типовые окончания для отчеств и фамилий
•  для дат: словарь названий месяцев,
шаблоны построения дат
•  для компаний: стоят в специфических
контекстах, иногда упоминаются в
кавычках, имеют специфические части
(ООО, ЗАО,… )
36
Rule-based IE
•  шаблоны поверх NER
•  в шаблонах записываются отношения, в
которых могут находиться разные объекты,
лингвистическая информация, которая
может указывать на связь, конкретные
слова, которые обозначают конкретные
связи.
Владимир Ресин назначен и.о. мэра Москвы
person (им.п.) назначен post(тв.п.) org(р.п.)
37
Что же выбрать?

•  Начиналось все с шаблонов
•  Сейчас в моде онтологии и машинное
обучение
•  Выбор подхода определяется конкретной
задачей
•  А будущее все равно за гибридными
системами.
38
Зачем все это?
•  Тэгирование новостных сообщений или сообщений
в блогах. (NER)
•  Мониторинг новостей по персоне, компании,
продукту (NER)
•  Мониторинг отношения прессы/блоггеров к
событию, продукту (Facts)
•  Автоматическое составление календаря будущих
событий с заполнением полей когда, где… (Facts)
•  Фильтры для поиска, использование в
кластеризации, и в других задачах
•  Придумайте сами ;)
39
Тенденции

•  много систем для английского языка
•  много онтологий, много лингв. инструментов
•  простая морфология – проще настраивать
машинное обучение
•  большой рынок
•  NER гораздо больше чем NER + Facts
•  крупные новостные сайты, тематические блоги
•  Мнения по твиттеру, блогам… тоже на английском

40
Компании

•  OpenCalais – самый известный англоязычный
ресурс
•  Сотни стартапов по всему миру делают IE для
английского языка
•  Яндекс :)
•  Google
•  Ашманов, RCO и пр делают это с русским

41
Как мы делаем это в Яндексе?

•  Машинное обучение
•  Онтологии
•  Инструмент для Rule-based подхода:
Томита-парсер

42
Извлечение фактов в почте
Карты

Ул. Юных
Ленинцев	

Чулочно-носочные
изделия
Новости
Поиск
Поиск
Яндекс.Работа
Татьяна Ландо
Менеджер проектов

Отдел лингвистических
технологий

Спасибо!

More Related Content

What's hot

20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 
DOC Использование особенностей языка запросов поиска Яндекса для исследований...
DOC Использование особенностей языка запросов поиска Яндекса для исследований...DOC Использование особенностей языка запросов поиска Яндекса для исследований...
DOC Использование особенностей языка запросов поиска Яндекса для исследований...Eugene Trofimenko
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...
[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...
[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...Skolkovo Robotics Center
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.Denis Samoylov
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information ExtractionLidia Pivovarova
 
NLTK и Python для работы с текстами
NLTK и Python для работы с текстами  NLTK и Python для работы с текстами
NLTK и Python для работы с текстами NLProc.by
 
#3 Global AI Meetup (NLP) - Олег Шляжко, Chatfuel
#3 Global AI Meetup (NLP) - Олег Шляжко, Chatfuel#3 Global AI Meetup (NLP) - Олег Шляжко, Chatfuel
#3 Global AI Meetup (NLP) - Олег Шляжко, Chatfuelchatbotscommunity
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросыLidia Pivovarova
 
Беглый обзор "внутренностей" Python
Беглый обзор "внутренностей" PythonБеглый обзор "внутренностей" Python
Беглый обзор "внутренностей" PythonMaxim Kulsha
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 

What's hot (20)

Rule b platf
Rule b platfRule b platf
Rule b platf
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
DOC Использование особенностей языка запросов поиска Яндекса для исследований...
DOC Использование особенностей языка запросов поиска Яндекса для исследований...DOC Использование особенностей языка запросов поиска Яндекса для исследований...
DOC Использование особенностей языка запросов поиска Яндекса для исследований...
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...
[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...
[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
NLTK и Python для работы с текстами
NLTK и Python для работы с текстами  NLTK и Python для работы с текстами
NLTK и Python для работы с текстами
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
#3 Global AI Meetup (NLP) - Олег Шляжко, Chatfuel
#3 Global AI Meetup (NLP) - Олег Шляжко, Chatfuel#3 Global AI Meetup (NLP) - Олег Шляжко, Chatfuel
#3 Global AI Meetup (NLP) - Олег Шляжко, Chatfuel
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросы
 
Беглый обзор "внутренностей" Python
Беглый обзор "внутренностей" PythonБеглый обзор "внутренностей" Python
Беглый обзор "внутренностей" Python
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 

Viewers also liked

Анализ текста на естественном языке, управляемый вариантами разбора
Анализ текста на естественном языке, управляемый вариантами разбораАнализ текста на естественном языке, управляемый вариантами разбора
Анализ текста на естественном языке, управляемый вариантами разбораAlexey Noskov
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Technosphere1
 
Открытый код Томита-парсера. Виктор Бочаров
 Открытый код Томита-парсера. Виктор Бочаров Открытый код Томита-парсера. Виктор Бочаров
Открытый код Томита-парсера. Виктор БочаровYandex
 
Emacs: многофункциональный комбайн
Emacs: многофункциональный комбайнEmacs: многофункциональный комбайн
Emacs: многофункциональный комбайнAlex Ott
 
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...Tanya Denisyuk
 
Rambler.iOS #5: VIPER и Swift
Rambler.iOS #5: VIPER и SwiftRambler.iOS #5: VIPER и Swift
Rambler.iOS #5: VIPER и SwiftRAMBLER&Co
 
SMM-бюро ДругМедиа, Казань
SMM-бюро ДругМедиа, КазаньSMM-бюро ДругМедиа, Казань
SMM-бюро ДругМедиа, КазаньAllAdvertising.ru
 
20. Object-Oriented Programming Fundamental Principles
20. Object-Oriented Programming Fundamental Principles20. Object-Oriented Programming Fundamental Principles
20. Object-Oriented Programming Fundamental PrinciplesIntro C# Book
 
Презентация консалтинговой компании Цыгоды Владислава
Презентация консалтинговой компании Цыгоды ВладиславаПрезентация консалтинговой компании Цыгоды Владислава
Презентация консалтинговой компании Цыгоды ВладиславаВладислав Цигода
 
Одноразовые убийцы
Одноразовые убийцыОдноразовые убийцы
Одноразовые убийцыKOR Россия
 
КРИ 2013. "Базы данных в онлайн играх. От Аллодов до Skyforge". Андрей Фролов
КРИ 2013. "Базы данных в онлайн играх. От Аллодов до Skyforge". Андрей ФроловКРИ 2013. "Базы данных в онлайн играх. От Аллодов до Skyforge". Андрей Фролов
КРИ 2013. "Базы данных в онлайн играх. От Аллодов до Skyforge". Андрей ФроловАндрей Фролов
 
презентация Posm
презентация Posmпрезентация Posm
презентация PosmTata Donets
 
Сколько слайдов в самый раз?
Сколько слайдов в самый раз?Сколько слайдов в самый раз?
Сколько слайдов в самый раз?ProstoPreza.ru
 

Viewers also liked (20)

Объектная модель многофункциональных словарей
Объектная модель многофункциональных словарейОбъектная модель многофункциональных словарей
Объектная модель многофункциональных словарей
 
Анализ текста на естественном языке, управляемый вариантами разбора
Анализ текста на естественном языке, управляемый вариантами разбораАнализ текста на естественном языке, управляемый вариантами разбора
Анализ текста на естественном языке, управляемый вариантами разбора
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
Открытый код Томита-парсера. Виктор Бочаров
 Открытый код Томита-парсера. Виктор Бочаров Открытый код Томита-парсера. Виктор Бочаров
Открытый код Томита-парсера. Виктор Бочаров
 
Emacs: многофункциональный комбайн
Emacs: многофункциональный комбайнEmacs: многофункциональный комбайн
Emacs: многофункциональный комбайн
 
Rutorika
RutorikaRutorika
Rutorika
 
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
 
Rambler.iOS #5: VIPER и Swift
Rambler.iOS #5: VIPER и SwiftRambler.iOS #5: VIPER и Swift
Rambler.iOS #5: VIPER и Swift
 
Кендиз
КендизКендиз
Кендиз
 
SMM-бюро ДругМедиа, Казань
SMM-бюро ДругМедиа, КазаньSMM-бюро ДругМедиа, Казань
SMM-бюро ДругМедиа, Казань
 
MCJ Edward Tufte Notes
MCJ Edward Tufte NotesMCJ Edward Tufte Notes
MCJ Edward Tufte Notes
 
20. Object-Oriented Programming Fundamental Principles
20. Object-Oriented Programming Fundamental Principles20. Object-Oriented Programming Fundamental Principles
20. Object-Oriented Programming Fundamental Principles
 
Презентация
ПрезентацияПрезентация
Презентация
 
Что нового в 14.0?
Что нового в 14.0?Что нового в 14.0?
Что нового в 14.0?
 
Презентация консалтинговой компании Цыгоды Владислава
Презентация консалтинговой компании Цыгоды ВладиславаПрезентация консалтинговой компании Цыгоды Владислава
Презентация консалтинговой компании Цыгоды Владислава
 
Одноразовые убийцы
Одноразовые убийцыОдноразовые убийцы
Одноразовые убийцы
 
презентация
презентацияпрезентация
презентация
 
КРИ 2013. "Базы данных в онлайн играх. От Аллодов до Skyforge". Андрей Фролов
КРИ 2013. "Базы данных в онлайн играх. От Аллодов до Skyforge". Андрей ФроловКРИ 2013. "Базы данных в онлайн играх. От Аллодов до Skyforge". Андрей Фролов
КРИ 2013. "Базы данных в онлайн играх. От Аллодов до Skyforge". Андрей Фролов
 
презентация Posm
презентация Posmпрезентация Posm
презентация Posm
 
Сколько слайдов в самый раз?
Сколько слайдов в самый раз?Сколько слайдов в самый раз?
Сколько слайдов в самый раз?
 

Similar to извлечение объектов и фактов из текстов

Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)Smolensk Computer Science Club
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукAlexander Panchenko
 
Ai lab
Ai labAi lab
Ai labaaa
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
принципы написания и разметки новостей в интернет
принципы написания и разметки новостей в интернетпринципы написания и разметки новостей в интернет
принципы написания и разметки новостей в интернетOleg Khomenok
 
Работа с текстом для дистанционного курса Часть 2. Гавриков Дмитрий 02.12.10
Работа с текстом для дистанционного курса Часть 2. Гавриков Дмитрий 02.12.10Работа с текстом для дистанционного курса Часть 2. Гавриков Дмитрий 02.12.10
Работа с текстом для дистанционного курса Часть 2. Гавриков Дмитрий 02.12.10Сообщество eLearning PRO
 
Логический анализ текстов на противоречия
Логический анализ текстов на противоречияЛогический анализ текстов на противоречия
Логический анализ текстов на противоречияVladimir Lapshin
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...Елена Смутнева
 
разработка бизнес приложений (6)
разработка бизнес приложений (6)разработка бизнес приложений (6)
разработка бизнес приложений (6)Alexander Gornik
 
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29Natural Language Processing (NLP) with .NET for #dotnetby meetup-29
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29Sergey Tihon
 
функциональное чтение
функциональное чтениефункциональное чтение
функциональное чтениеprokofyevatm
 
Software engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требованияSoftware engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требованияPavel Egorov
 

Similar to извлечение объектов и фактов из текстов (20)

Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети Фейсбук
 
Ai lab
Ai labAi lab
Ai lab
 
Query expansion
Query expansionQuery expansion
Query expansion
 
Text2011elaz
Text2011elazText2011elaz
Text2011elaz
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
3 nlp
3 nlp3 nlp
3 nlp
 
принципы написания и разметки новостей в интернет
принципы написания и разметки новостей в интернетпринципы написания и разметки новостей в интернет
принципы написания и разметки новостей в интернет
 
Работа с текстом для дистанционного курса Часть 2. Гавриков Дмитрий 02.12.10
Работа с текстом для дистанционного курса Часть 2. Гавриков Дмитрий 02.12.10Работа с текстом для дистанционного курса Часть 2. Гавриков Дмитрий 02.12.10
Работа с текстом для дистанционного курса Часть 2. Гавриков Дмитрий 02.12.10
 
Логический анализ текстов на противоречия
Логический анализ текстов на противоречияЛогический анализ текстов на противоречия
Логический анализ текстов на противоречия
 
OntoEd
OntoEdOntoEd
OntoEd
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
 
разработка бизнес приложений (6)
разработка бизнес приложений (6)разработка бизнес приложений (6)
разработка бизнес приложений (6)
 
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29Natural Language Processing (NLP) with .NET for #dotnetby meetup-29
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29
 
функциональное чтение
функциональное чтениефункциональное чтение
функциональное чтение
 
Dialog
DialogDialog
Dialog
 
Software engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требованияSoftware engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требования
 

More from Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 

More from Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

извлечение объектов и фактов из текстов

  • 1.
  • 2. Извлечение из текстов объектов и фактов (Text mining) Татьяна Ландо Менеджер лингвистических проектов
  • 3. Natural Language Processing •  Автоматическая обработка естественного языка •  Искусственный интеллект •  Тест Тьюринга 3
  • 4. 4
  • 5. Natural Language Processing •  •  •  •  •  •  •  5 Поиск (текстовый) / Information Retrieval (IR) Извлечение фактов / Information Extraction (IE) Диалоговые системы и Question Answering Синтез и распознавание речи Оценка тональности отзывов Кластеризация и классификация текстов …
  • 6. Text Mining 6 •  Извлечение структурированной информации из неструктурированного текста •  Основная часть посвящена объектам, их отношениям и свойствам в текстах •  Состоит из: –  Named Entity Recognition (NER) извлечение именованных сущностей / объектов –  Co-reference resolution Разрешение кореференции –  Information Extraction (IE) Извлечение фактов
  • 7. Named Entity Recognition (NER) •  Извлечение именованных сущностей Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где он объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ему часть своей популярности, сообщает justmedia.ru. 7
  • 8. Кореференция: анафора •  Разрешение анафоры: поиск разных выражений указывающих на одну сущность Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где ОН объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ЕМУ часть СВОЕЙ популярности, сообщает justmedia.ru. 8
  • 9. Кореференция: “синонимы” Разнообразные способы называния одного и того же •  Транслитерация: Yandex – Яндекс •  Аббревиация: ВТБ – Внешторгбанк – Банк Внешней Торговли •  Синонимы: больница – госпиталь •  Словообразование: Москва – московский •  Графические: авто кредит - автокредит 9
  • 10. Information Extraction •  Извлечение информации об отношениях между объектами или о значениях параметров. Популярный блогер и основатель антикоррупционного проекта "РосПил" Алексей Навальный фигурирует в уголовном деле как советник губернатора Кировской области Никиты Белых. person org Алексей Навальный основатель РосПил Никита Белых 10 position губернатор Кировская область
  • 11. Что извлекают? Объекты: •  даты •  адреса •  телефоны •  ФИО •  название товара •  компании •  … Факты: 11 -  -  -  -  -  События Мнения и отзывы Контактные данные Объявления …
  • 13. Первичная обработка текста На входе: текст на естественном языке Текст анализируется на всех лингвистических уровнях: •  лексическом •  морфологическом •  синтаксическом •  Семантическом Различные уровни участвуют в разных процедурах анализа текста, которые входят в системы извлечения фактов. 13
  • 14. Первичная обработка текста текст Определение словарной формы слов и нормализация других объектов (числа, даты) токенизация / графематика частичный синтаксический разбор 14 Снятие омонимии лемматизация/ нормализация Разбиение текста на абзацы, предложения, слова. Выявление связей между словами, объединение слов в неразрывные группы
  • 15. Графематика Разбиение текста на слова и предложения Яндекс.Маркет — сервис сравнения характеристик товаров и их цен Скоро начнется осенняя серия игр "Что? Где? Когда?". 15
  • 16. Морфология •  Бывает словарная и автоматическая •  Еще бывает: –  Part-of-Speech Tagging –  Стемминг стекло: Стекло – существительное в ед.ч, им.п./вин.п Стекать – глагол в прош. вр., ед.ч, сред. род 16
  • 17. Синтаксис •  Бывает полный или частичный •  Они оба ошибаются, полный чаще 17
  • 18. Снятие омонимии •  Снятие разнообразных неоднозначностей: •  Морфологическая: Молоко стекло со стола •  Синтаксическая: Он видел их семью своими глазами •  «Объектная»: Михаил Задорнов: «20% российских семей могут себе позволить ипотеку» 18
  • 19. Information Extraction Выделение объектов и определение типов (NER): •  Иван Петров –> ФИО •  3 апреля 1975 года –> дата •  директор по маркетингу –> должность •  ООО «Рога и копыта» -> компания Установление связей между объектами (Factes) Директор по маркетингу компании «Рога и копыта» Иван Петров родился ровно 35 лет назад. 19
  • 20. Пример post   geo   Вице-губернатор Новосибирской области date   FIO   Владимир Анисимов объявил, что в 2009 году в области планируется ввести в строй 979 тыс. кв. м number   жилья. В ответ на вопрос председателя строительного комитета облсовета Александра FIO   Савельева, занимающего пост генерального post   директора компании «КПД-Газстрой», comp   post   руководитель профильного департамента comp   обладминистрации сообщил, что за государственный счет будет построено около 10 % number   заявленных площадей. 20
  • 21. Как извлекают? •  по онтологиям •  опираясь на правила (Rule-based) •  опираясь на машинное обучение (ML ) 21
  • 23. Онтологии •  «концептуальные словари» •  структуры в которых описываются некоторые понятия и/или объекты, отношения между ними, их характеристики •  вообще-то это философский термин 23
  • 24. Онтологии Бывают: •  универсальные, описывают вообще все •  отраслевые, по предметным областям •  узкоспециализированные, под конкретную задачу •  онтологии объектов (база данных) •  онтологии концептов (понятий) 24
  • 25. Онтологии Примеры: •  Wikipedia, Dbpedia •  Imdb, Кинопоиск •  CrunchBase •  SUMO •  DOLCE 25
  • 26. IE с помощью онтологий •  Используют онтологии объектов •  Используют открытые источники, сливают их в одну онтологию объектов с типами и свойствами. Например, «препарируют» википедию •  по тексту готовят гипотезы, опираясь на контексты и имеющиеся списки объектов (т.е. свою онтологию) •  разрешают неоднозначность опираясь на связи между объектами сразу по всему тексту 26
  • 27. Разметим предложение Википедией 27 Президент РФ Владимир Путин считает, что высказывания в ЕС по поводу решения Киева приостановить процесс интеграции с Евросоюзом оказывают давление на Украину http://ru.wikipedia.org/wiki/Президент …/wiki/Президент_Российской_Федерации …/wiki/Россия …/wiki/Владимир …/wiki/Владимир_Путин .../wiki/Высказывание …/wiki/В …/wiki/Европейский_союз …/wiki/По …wiki/Решение …wiki/Киев …/wiki/Процесс …/wiki/Интеграция …/wiki/С …/wiki/Европейский_союз …/wiki/Давление …/wiki/На …/wiki/Украина
  • 28. IE с помощью онтологий •  получается высокая точность NER, нет случайных NE •  снятие омонимии тоже происходит с высокой точностью •  низкая полнота: извлекается только то, что есть в онтологии •  странная обновляемость, нужно либо добавлять объекты руками, либо строить процедуру автоматического обновления 28
  • 29. IE с помощью онтологий 29 •  зависит от наличия внешних ресурсов, поэтому подход используется только для английского •  хорошо использовать для закрытых классов, например географические названия •  хорошо использовать в областях, где оперативно пополняются источники, например кинобазы •  может использовать или не использовать лингвистическую информацию, т.е. подходить для любого «стиля» текста
  • 30. Машинное обучение: •  Методы построения алгоритмов, способных обучаться •  Дается обучающая выборка – набор данных, где объектам приписаны свойства. Характеристики, классы и т.п. •  Нужно определить зависимость, т.е. написать алгоритм, который для каждого нового объекта выдаст максимально точный ответ 30
  • 31. Машинное обучение: пример Девочки: •  Мария Иванова •  Дарья Петрова •  Екатерина Сидорова Мальчики: •  Иван Пупкин •  Алексей Уткин •  Егор Иванов Надо определить мальчик или девочка: •  Олег Бойко •  Ангелина Алексеева 31
  • 32. Машинное обучение: •  извлекается как можно больше лингвистической информации о словах •  размечается обучающее множество, на нем обучается система •  запускается на корпусе, получаются результаты 32
  • 33. Машинное обучение: •  не требует большого количества ручного труда по написанию правил •  не требует заранее подготовленной онтологии •  систему легко перенастроить под другие «стили» языка, например перейти от СМИ-текстов к сообщениям в твиттере •  не требует детального описания каждого контекста (т.е. правил не только меньше, но они имеют более общий вид) •  процедуры можно делать итеративными: простые правила -> факты –> более сложные правила т.е. правила можно извлекать автоматически 33
  • 34. Машинное обучение: •  Недостаточно развиты инструменты для автоматической обработки, трудно получить лингвистические фичи (хорошо применимо для английского) •  Требуется большой обучающий корпус, правильно и полностью размеченный •  Сложно отследить в каком именно месте возникла ошибка и ее исправить «точечно» 34
  • 35. Rule-based подход •  использует полный или частичный синтаксический анализ •  онтология категорий, т.е. указывается какие сущности могут обладать какими параметрами, например: компания – стоимость •  NER основанный на контекстах и внутренних структурах, контексты (шаблоны) составляются руками лингвистов 35
  • 36. Rule-based NER •  для фио: есть словарь имен, правила согласования имен, отчеств, фамилий, типовые окончания для отчеств и фамилий •  для дат: словарь названий месяцев, шаблоны построения дат •  для компаний: стоят в специфических контекстах, иногда упоминаются в кавычках, имеют специфические части (ООО, ЗАО,… ) 36
  • 37. Rule-based IE •  шаблоны поверх NER •  в шаблонах записываются отношения, в которых могут находиться разные объекты, лингвистическая информация, которая может указывать на связь, конкретные слова, которые обозначают конкретные связи. Владимир Ресин назначен и.о. мэра Москвы person (им.п.) назначен post(тв.п.) org(р.п.) 37
  • 38. Что же выбрать? •  Начиналось все с шаблонов •  Сейчас в моде онтологии и машинное обучение •  Выбор подхода определяется конкретной задачей •  А будущее все равно за гибридными системами. 38
  • 39. Зачем все это? •  Тэгирование новостных сообщений или сообщений в блогах. (NER) •  Мониторинг новостей по персоне, компании, продукту (NER) •  Мониторинг отношения прессы/блоггеров к событию, продукту (Facts) •  Автоматическое составление календаря будущих событий с заполнением полей когда, где… (Facts) •  Фильтры для поиска, использование в кластеризации, и в других задачах •  Придумайте сами ;) 39
  • 40. Тенденции •  много систем для английского языка •  много онтологий, много лингв. инструментов •  простая морфология – проще настраивать машинное обучение •  большой рынок •  NER гораздо больше чем NER + Facts •  крупные новостные сайты, тематические блоги •  Мнения по твиттеру, блогам… тоже на английском 40
  • 41. Компании •  OpenCalais – самый известный англоязычный ресурс •  Сотни стартапов по всему миру делают IE для английского языка •  Яндекс :) •  Google •  Ашманов, RCO и пр делают это с русским 41
  • 42. Как мы делаем это в Яндексе? •  Машинное обучение •  Онтологии •  Инструмент для Rule-based подхода: Томита-парсер 42
  • 49. Татьяна Ландо Менеджер проектов Отдел лингвистических технологий Спасибо!