Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многовариантности
1. Московский Государственный Университет им М.В Ломоносова
Факультет Вычислительной Математики и Кибернетики
Анализ текста на основе
лексико-синтаксичеких
шаблонов c сокращением
многовариантности
Большакова Е.И., Носков А. А.
2. Автоматическое выделение
конструкций в ЕЯ-текстах
Задача автоматического извлечения информации
из текстов на естественном языке
Анализ ЕЯ-текста
Выделение конструкций Морфологический
– Именные группы (синее небо) Синтаксический
– Глагольные группы (быстро шел) Семантический
– Характерные для стиля
Область применения
– Терминологический анализ
– Поверхностно-синтаксический анализ
– Анализ подмножеств естественного языка
2
3. Средства описания и автоматического
выделения конструкций
Языковые и программные средства:
– Система Alex (лексические шаблоны) нет средств задания
грамматического
– Системы GATE, RCO, Ellogon (правила) согласования
• Правила выделения конструкций
– Язык LSPL (лексико-синтаксические шаблоны)
• Декларативное описание выделяемых конструкций
• Средства для задания грамматического согласования
• Возможность повторного использования шаблонов
Назначение языка шаблонов LSPL:
– Формализация языковых конструкций
– Язык запросов для поиска в тексте (путем наложения
шаблонов на текст)
3
4. Язык LSPL
Основные элементы шаблонов
Морфологические характеристики слов
падеж Тяжелый шаг
A N<c=nom> Красные листья
Черного дерева
прилагательное существительное Первого снег
Условия грамматического согласования
условие согласования Тяжелый шаг
Красные листья
A N <A=N> Черного дерева
прилагательное существительное Первого снег
4
Большакова Е.И. и др. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов
// Труды межд. конф. Диалог '2007 – М.: Издательский центр РГГУ, 2007, с. 70-75.
5. Язык LSPL
Сложные элементы шаблонов
Альтернативные варианты конструкций
Идти полем
V N<c=ins>|Av V Внимательно смотрел
первая альтернатива вторая альтернатива
Повторение и опциональное вхождение элементов
Сон
N1{«,» N2}[«и» N3] Ели, сосны, березы
повторение опциональное вхождение Море, солнце и горы
5
6. Язык LSPL
Вложенные шаблоны
Именование и экземпляры шаблонов
– Позволяют использовать в описании шаблонов уже
определенные шаблоны
имя шаблона
Белый снег падал
NG = A N <A=N> Черный кот спала
экземпляр шаблона NG V Яркого солнце светило
Параметры шаблонов
– Указывают доступные (для согласования) элементы шаблона
параметры
Белый снег падал
NG = A N <A=N>(N) Черный кот спала
NG V <NG=V> Яркого солнце светило
Шаблоны могут описывать промежуточные 6
конструкции, используемые внутри других шаблонов
7. Метод наложения шаблонов
Внутреннее представление текста
Текст разбивается на отрезки
– Значимые – слова, возможно, пунктуация
– Незначимые – пробелы, возможно, пунктуация
Незначимые отрезки образуют вершины графа
Синтаксические интерпретации значимых отрезков
образуют ребра графа
Процесс наложения шаблона – поиск в графе 7
8. Метод наложения шаблонов
Ключевые моменты
При наложении шаблона на один отрезок может
возникнуть несколько различных вариантов
Варианты наложения шаблонов также представляются
ребрами графа
Ребра графа индексируются (по частям речи, шаблона,
лексемам)
8
9. Сокращение многовариантности
Проблема
Количество различных вариантов наложений
шаблона пропорционально произведению
количества вариантов входящих в него элементов
– Количество наложений быстро растет при увеличении
длины шаблона
– И еще быстрее при увеличении глубины вложенности
шаблонов
Часть наложений отбрасывается условиями
согласования, но все равно их может остаться
достаточно много
– Многие из оставшихся наложений отличаются только
интерпретациями входящих элементов
Два пути сокращения многовариантности
– Группировка вариантов наложения
– Группировка повторений 9
10. Сокращение многовариантности
Группировка вариантов наложения
Шаблоны могут иметь параметры
Синтаксис языка не позволяет “видеть” элементы, не
указанные в параметрах
в параметрах только существительное
NG = A N <A=N>(N)
прилагательное существительное
То есть, наложения с одинаковыми значениями
параметров, неразличимы с точки зрения LSPL
Всегда порождают дубликаты при дальнейшем
наложении
Могут быть сгруппированы 10
11. Сокращение многовариантности
Группировка повторений
Повторения элементов могут приводить к длинным
вариантам наложения и быстрому росту их числа
повторение
P = NG1 {NG2<c=gen>}(NG1)
элемент не участвующий в согласованиях и параметрах
Некоторые элементы повторений не участвуют в
согласованиях и параметрах
Именно они в первую очередь и увеличивают число
наложений
Повторения могут быть сгруппированы по таким
элементам 11
12. Сокращение многовариантности
Плюсы и минусы
+Уменьшение числа наложений
+Рост числа наложений управляется
параметрами шаблона
+Увеличение скорости работы
+Уменьшение потребления памяти
−Невозможно однозначное восстановление
дерева разбора варианта наложения
−Меньше информации доступно на следующем
этапе анализа
12
13. Сокращение многовариантности
Сохранение дерева разбора
После группировки невозможно однозначное
восстановление дерева разбора варианта
наложения
Но оно может быть необходимо для
дальнейшей обработки вариантов
наложения
Можно сохранять все варианты в группе
– Получающаяся структура описывает
множество вариантов наложения
– Доступна в API для дальнейшей обработки
13
14. Сохранение дерева разбора
После проведения группировки с сохранением
дерева разбора вариант наложения описывает
некоторое множество схожих вариантов
конструкции
NG 1 N
Вариант 1 A N Вариант 1 A N
Вариант 2 A N Вариант 2 A N
Вариант 3 A N NG 2 N
Вариант 4 A N Вариант 3 A N
Вариант 4 A N
Выбор конкретного варианта для дальнейшего
анализа осуществляется через API
14
15. Сохранение дерева разбора
Плюсы и минусы
+Не приводит к дополнительным действиям,
те же характеристики роста числа наложений
и скорости работы
+Информация о структуре наложений
доступна для дальнейшего анализа
−Потребление памяти несколько больше, чем
без сохранения информации
15
16. Сокращение многовариантности
Направления работы
Упорядочивание группируемых вариантов
– Подсчет весов на основе синтаксических
признаков
– Внешние функции оценки
Фильтрация группируемых вариантов
– Ограничение количества
– Внешние функции фильтрации
16