SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
Московский Государственный Университет им М.В Ломоносова
   Факультет Вычислительной Математики и Кибернетики




    Анализ текста на основе
     лексико-синтаксичеких
    шаблонов c сокращением
       многовариантности

        Большакова Е.И., Носков А. А.
Автоматическое выделение
          конструкций в ЕЯ-текстах


    Задача автоматического извлечения информации
    из текстов на естественном языке
                                          Анализ ЕЯ-текста

    Выделение конструкций                    Морфологический
       – Именные группы (синее небо)          Синтаксический
       – Глагольные группы (быстро шел)       Семантический
       – Характерные для стиля

    Область применения
       – Терминологический анализ
       – Поверхностно-синтаксический анализ
       – Анализ подмножеств естественного языка
                                                               2
Средства описания и автоматического
      выделения конструкций

    Языковые и программные средства:
     –   Система Alex (лексические шаблоны)          нет средств задания
                                                     грамматического
     –   Системы GATE, RCO, Ellogon (правила)        согласования
           •   Правила выделения конструкций
     –   Язык LSPL (лексико-синтаксические шаблоны)
           •   Декларативное описание выделяемых конструкций
           •   Средства для задания грамматического согласования
           •   Возможность повторного использования шаблонов



    Назначение языка шаблонов LSPL:
     –   Формализация языковых конструкций
     –   Язык запросов для поиска в тексте (путем наложения
         шаблонов на текст)
                                                                    3
Язык LSPL
                    Основные элементы шаблонов
    
        Морфологические характеристики слов

                                                             падеж             Тяжелый шаг
                                       A N<c=nom>                              Красные листья
                                                                               Черного дерева
                   прилагательное             существительное                  Первого снег


    
        Условия грамматического согласования

                                      условие согласования                     Тяжелый шаг
                                                                               Красные листья
                                        A N <A=N>                              Черного дерева
                   прилагательное              существительное                 Первого снег


                                                                                                  4
Большакова Е.И. и др. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов
// Труды межд. конф. Диалог '2007 – М.: Издательский центр РГГУ, 2007, с. 70-75.
Язык LSPL
          Сложные элементы шаблонов

    Альтернативные варианты конструкций

                                                    Идти полем
        V N<c=ins>|Av V                             Внимательно смотрел
       первая альтернатива    вторая альтернатива





    Повторение и опциональное вхождение элементов


                                                    Сон
    N1{«,» N2}[«и» N3]                              Ели, сосны, березы
         повторение    опциональное вхождение       Море, солнце и горы


                                                                          5
Язык LSPL
                 Вложенные шаблоны

    Именование и экземпляры шаблонов
    – Позволяют использовать в описании шаблонов уже
      определенные шаблоны
          имя шаблона
                                          Белый снег падал
              NG = A N <A=N>              Черный кот спала
     экземпляр шаблона NG V               Яркого солнце светило


    Параметры шаблонов
    – Указывают доступные (для согласования) элементы шаблона
                              параметры
                                          Белый снег падал
      NG = A N <A=N>(N)                   Черный кот спала
         NG V <NG=V>                      Яркого солнце светило


    Шаблоны могут описывать промежуточные                         6
    конструкции, используемые внутри других шаблонов
Метод наложения шаблонов
       Внутреннее представление текста

    Текст разбивается на отрезки
       – Значимые – слова, возможно, пунктуация
       – Незначимые – пробелы, возможно, пунктуация


    Незначимые отрезки образуют вершины графа

    Синтаксические интерпретации значимых отрезков
    образуют ребра графа





    Процесс наложения шаблона – поиск в графе         7
Метод наложения шаблонов
                Ключевые моменты
   При наложении шаблона на один отрезок может
    возникнуть несколько различных вариантов
   Варианты наложения шаблонов также представляются
    ребрами графа
   Ребра графа индексируются (по частям речи, шаблона,
    лексемам)




                                                      8
Сокращение многовариантности
                        Проблема

    Количество различных вариантов наложений
    шаблона пропорционально произведению
    количества вариантов входящих в него элементов
      – Количество наложений быстро растет при увеличении
        длины шаблона
      – И еще быстрее при увеличении глубины вложенности
        шаблонов

    Часть наложений отбрасывается условиями
    согласования, но все равно их может остаться
    достаточно много
      – Многие из оставшихся наложений отличаются только
        интерпретациями входящих элементов

    Два пути сокращения многовариантности
      – Группировка вариантов наложения
      – Группировка повторений                              9
Сокращение многовариантности
       Группировка вариантов наложения


    Шаблоны могут иметь параметры

    Синтаксис языка не позволяет “видеть” элементы, не
    указанные в параметрах
                                 в параметрах только существительное

               NG = A N <A=N>(N)
             прилагательное   существительное


    То есть, наложения с одинаковыми значениями
    параметров, неразличимы с точки зрения LSPL
        Всегда порождают дубликаты при дальнейшем
        наложении


        Могут быть сгруппированы                                       10
Сокращение многовариантности
              Группировка повторений

   Повторения элементов могут приводить к длинным
    вариантам наложения и быстрому росту их числа
                                      повторение

         P = NG1 {NG2<c=gen>}(NG1)
               элемент не участвующий в согласованиях и параметрах


   Некоторые элементы повторений не участвуют в
    согласованиях и параметрах
        Именно они в первую очередь и увеличивают число
        наложений


        Повторения могут быть сгруппированы по таким
        элементам                                                    11
Сокращение многовариантности
             Плюсы и минусы

+Уменьшение числа наложений
+Рост числа наложений управляется
 параметрами шаблона
+Увеличение скорости работы
+Уменьшение потребления памяти

−Невозможно однозначное восстановление
 дерева разбора варианта наложения
−Меньше информации доступно на следующем
 этапе анализа
                                           12
Сокращение многовариантности
         Сохранение дерева разбора


    После группировки невозможно однозначное
    восстановление дерева разбора варианта
    наложения

    Но оно может быть необходимо для
    дальнейшей обработки вариантов
    наложения

    Можно сохранять все варианты в группе
      – Получающаяся структура описывает
        множество вариантов наложения
      – Доступна в API для дальнейшей обработки

                                                  13
Сохранение дерева разбора

    После проведения группировки с сохранением
    дерева разбора вариант наложения описывает
    некоторое множество схожих вариантов
    конструкции
                                      NG 1     N
       Вариант 1   A N           Вариант 1   A N

       Вариант 2   A N           Вариант 2   A N


       Вариант 3   A N                NG 2     N
       Вариант 4   A N           Вариант 3   A N

                                 Вариант 4   A N


    Выбор конкретного варианта для дальнейшего
    анализа осуществляется через API
                                                   14
Сохранение дерева разбора
            Плюсы и минусы

+Не приводит к дополнительным действиям,
 те же характеристики роста числа наложений
 и скорости работы
+Информация о структуре наложений
 доступна для дальнейшего анализа

−Потребление памяти несколько больше, чем
 без сохранения информации


                                          15
Сокращение многовариантности
             Направления работы


    Упорядочивание группируемых вариантов
      – Подсчет весов на основе синтаксических
        признаков
      – Внешние функции оценки


    Фильтрация группируемых вариантов
      – Ограничение количества
      – Внешние функции фильтрации


                                                 16
?   17

Más contenido relacionado

La actualidad más candente

АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксисeibolshakova
 
Алгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияАлгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияEvgeny Smirnov
 
элементы языка и типы данных
элементы языка и типы данныхэлементы языка и типы данных
элементы языка и типы данныхЕлена Ключева
 
Ruby: работа с массивами
Ruby: работа с массивамиRuby: работа с массивами
Ruby: работа с массивамиEvgeny Smirnov
 
Клышинский 8.12
Клышинский 8.12Клышинский 8.12
Клышинский 8.12Natalia Ostapuk
 
Speech technologies
Speech technologiesSpeech technologies
Speech technologiesNLPseminar
 
Диаграмма вариантов использования
Диаграмма вариантов использованияДиаграмма вариантов использования
Диаграмма вариантов использованияDEVTYPE
 
Управляющие структуры в Ruby: условия
Управляющие структуры в Ruby: условияУправляющие структуры в Ruby: условия
Управляющие структуры в Ruby: условияEvgeny Smirnov
 
Ruby — Паттерны программирования
Ruby — Паттерны программированияRuby — Паттерны программирования
Ruby — Паттерны программированияEvgeny Smirnov
 
Основы программирования на ruby
Основы программирования на rubyОсновы программирования на ruby
Основы программирования на rubyEvgeny Smirnov
 
Ruby статические методы
Ruby статические методыRuby статические методы
Ruby статические методыEvgeny Smirnov
 

La actualidad más candente (15)

АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
 
Ruby строки
Ruby строкиRuby строки
Ruby строки
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Алгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияАлгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсия
 
элементы языка и типы данных
элементы языка и типы данныхэлементы языка и типы данных
элементы языка и типы данных
 
Ruby: работа с массивами
Ruby: работа с массивамиRuby: работа с массивами
Ruby: работа с массивами
 
Клышинский 8.12
Клышинский 8.12Клышинский 8.12
Клышинский 8.12
 
Speech technologies
Speech technologiesSpeech technologies
Speech technologies
 
Разрешение лексической неоднозначности
Разрешение лексической неоднозначностиРазрешение лексической неоднозначности
Разрешение лексической неоднозначности
 
Диаграмма вариантов использования
Диаграмма вариантов использованияДиаграмма вариантов использования
Диаграмма вариантов использования
 
Управляющие структуры в Ruby: условия
Управляющие структуры в Ruby: условияУправляющие структуры в Ruby: условия
Управляющие структуры в Ruby: условия
 
Rule b platf
Rule b platfRule b platf
Rule b platf
 
Ruby — Паттерны программирования
Ruby — Паттерны программированияRuby — Паттерны программирования
Ruby — Паттерны программирования
 
Основы программирования на ruby
Основы программирования на rubyОсновы программирования на ruby
Основы программирования на ruby
 
Ruby статические методы
Ruby статические методыRuby статические методы
Ruby статические методы
 

Similar a Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многовариантности

AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
 
Инструментальные системы извлечения информации
Инструментальные системы извлечения информацииИнструментальные системы извлечения информации
Инструментальные системы извлечения информацииAlexey Noskov
 
Анонимные записи в Haskell. Никита Волков
Анонимные записи в Haskell. Никита ВолковАнонимные записи в Haskell. Никита Волков
Анонимные записи в Haskell. Никита ВолковЮрий Сыровецкий
 
Современные средства NLP в поисковых задач - Стачка 2017
Современные средства NLP в поисковых задач - Стачка 2017Современные средства NLP в поисковых задач - Стачка 2017
Современные средства NLP в поисковых задач - Стачка 2017Nikita Zhiltsov
 
паскаль язык структурного программирования
паскаль   язык структурного программированияпаскаль   язык структурного программирования
паскаль язык структурного программированияЕлена Ключева
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим ЛитвиновLidia Pivovarova
 
Идентификация уровня ложности текста и его адаптация
Идентификация уровня ложности текста и его адаптацияИдентификация уровня ложности текста и его адаптация
Идентификация уровня ложности текста и его адаптацияNikolay Karpov
 

Similar a Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многовариантности (20)

Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Программная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблоновПрограммная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблонов
 
Авиком
АвикомАвиком
Авиком
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
 
Инструментальные системы извлечения информации
Инструментальные системы извлечения информацииИнструментальные системы извлечения информации
Инструментальные системы извлечения информации
 
Инструментальные системы извлечения информации
Инструментальные системы извлечения информацииИнструментальные системы извлечения информации
Инструментальные системы извлечения информации
 
Анонимные записи в Haskell. Никита Волков
Анонимные записи в Haskell. Никита ВолковАнонимные записи в Haskell. Никита Волков
Анонимные записи в Haskell. Никита Волков
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Обзор Ruby
Обзор RubyОбзор Ruby
Обзор Ruby
 
Современные средства NLP в поисковых задач - Стачка 2017
Современные средства NLP в поисковых задач - Стачка 2017Современные средства NLP в поисковых задач - Стачка 2017
Современные средства NLP в поисковых задач - Стачка 2017
 
Analysis by-variants
Analysis by-variantsAnalysis by-variants
Analysis by-variants
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Rspec
RspecRspec
Rspec
 
паскаль язык структурного программирования
паскаль   язык структурного программированияпаскаль   язык структурного программирования
паскаль язык структурного программирования
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 
Рекурсия (2017)
Рекурсия (2017)Рекурсия (2017)
Рекурсия (2017)
 
Идентификация уровня ложности текста и его адаптация
Идентификация уровня ложности текста и его адаптацияИдентификация уровня ложности текста и его адаптация
Идентификация уровня ложности текста и его адаптация
 
Design Rules And Principles
Design Rules And PrinciplesDesign Rules And Principles
Design Rules And Principles
 

Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многовариантности

  • 1. Московский Государственный Университет им М.В Ломоносова Факультет Вычислительной Математики и Кибернетики Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многовариантности Большакова Е.И., Носков А. А.
  • 2. Автоматическое выделение конструкций в ЕЯ-текстах  Задача автоматического извлечения информации из текстов на естественном языке Анализ ЕЯ-текста  Выделение конструкций Морфологический – Именные группы (синее небо) Синтаксический – Глагольные группы (быстро шел) Семантический – Характерные для стиля  Область применения – Терминологический анализ – Поверхностно-синтаксический анализ – Анализ подмножеств естественного языка 2
  • 3. Средства описания и автоматического выделения конструкций  Языковые и программные средства: – Система Alex (лексические шаблоны) нет средств задания грамматического – Системы GATE, RCO, Ellogon (правила) согласования • Правила выделения конструкций – Язык LSPL (лексико-синтаксические шаблоны) • Декларативное описание выделяемых конструкций • Средства для задания грамматического согласования • Возможность повторного использования шаблонов  Назначение языка шаблонов LSPL: – Формализация языковых конструкций – Язык запросов для поиска в тексте (путем наложения шаблонов на текст) 3
  • 4. Язык LSPL Основные элементы шаблонов  Морфологические характеристики слов падеж Тяжелый шаг A N<c=nom> Красные листья Черного дерева прилагательное существительное Первого снег  Условия грамматического согласования условие согласования Тяжелый шаг Красные листья A N <A=N> Черного дерева прилагательное существительное Первого снег 4 Большакова Е.И. и др. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов // Труды межд. конф. Диалог '2007 – М.: Издательский центр РГГУ, 2007, с. 70-75.
  • 5. Язык LSPL Сложные элементы шаблонов  Альтернативные варианты конструкций Идти полем V N<c=ins>|Av V Внимательно смотрел первая альтернатива вторая альтернатива  Повторение и опциональное вхождение элементов Сон N1{«,» N2}[«и» N3] Ели, сосны, березы повторение опциональное вхождение Море, солнце и горы 5
  • 6. Язык LSPL Вложенные шаблоны  Именование и экземпляры шаблонов – Позволяют использовать в описании шаблонов уже определенные шаблоны имя шаблона Белый снег падал NG = A N <A=N> Черный кот спала экземпляр шаблона NG V Яркого солнце светило  Параметры шаблонов – Указывают доступные (для согласования) элементы шаблона параметры Белый снег падал NG = A N <A=N>(N) Черный кот спала NG V <NG=V> Яркого солнце светило  Шаблоны могут описывать промежуточные 6 конструкции, используемые внутри других шаблонов
  • 7. Метод наложения шаблонов Внутреннее представление текста  Текст разбивается на отрезки – Значимые – слова, возможно, пунктуация – Незначимые – пробелы, возможно, пунктуация  Незначимые отрезки образуют вершины графа  Синтаксические интерпретации значимых отрезков образуют ребра графа  Процесс наложения шаблона – поиск в графе 7
  • 8. Метод наложения шаблонов Ключевые моменты  При наложении шаблона на один отрезок может возникнуть несколько различных вариантов  Варианты наложения шаблонов также представляются ребрами графа  Ребра графа индексируются (по частям речи, шаблона, лексемам) 8
  • 9. Сокращение многовариантности Проблема  Количество различных вариантов наложений шаблона пропорционально произведению количества вариантов входящих в него элементов – Количество наложений быстро растет при увеличении длины шаблона – И еще быстрее при увеличении глубины вложенности шаблонов  Часть наложений отбрасывается условиями согласования, но все равно их может остаться достаточно много – Многие из оставшихся наложений отличаются только интерпретациями входящих элементов  Два пути сокращения многовариантности – Группировка вариантов наложения – Группировка повторений 9
  • 10. Сокращение многовариантности Группировка вариантов наложения  Шаблоны могут иметь параметры  Синтаксис языка не позволяет “видеть” элементы, не указанные в параметрах в параметрах только существительное NG = A N <A=N>(N) прилагательное существительное  То есть, наложения с одинаковыми значениями параметров, неразличимы с точки зрения LSPL Всегда порождают дубликаты при дальнейшем наложении Могут быть сгруппированы 10
  • 11. Сокращение многовариантности Группировка повторений  Повторения элементов могут приводить к длинным вариантам наложения и быстрому росту их числа повторение P = NG1 {NG2<c=gen>}(NG1) элемент не участвующий в согласованиях и параметрах  Некоторые элементы повторений не участвуют в согласованиях и параметрах Именно они в первую очередь и увеличивают число наложений Повторения могут быть сгруппированы по таким элементам 11
  • 12. Сокращение многовариантности Плюсы и минусы +Уменьшение числа наложений +Рост числа наложений управляется параметрами шаблона +Увеличение скорости работы +Уменьшение потребления памяти −Невозможно однозначное восстановление дерева разбора варианта наложения −Меньше информации доступно на следующем этапе анализа 12
  • 13. Сокращение многовариантности Сохранение дерева разбора  После группировки невозможно однозначное восстановление дерева разбора варианта наложения  Но оно может быть необходимо для дальнейшей обработки вариантов наложения  Можно сохранять все варианты в группе – Получающаяся структура описывает множество вариантов наложения – Доступна в API для дальнейшей обработки 13
  • 14. Сохранение дерева разбора  После проведения группировки с сохранением дерева разбора вариант наложения описывает некоторое множество схожих вариантов конструкции NG 1 N Вариант 1 A N Вариант 1 A N Вариант 2 A N Вариант 2 A N Вариант 3 A N NG 2 N Вариант 4 A N Вариант 3 A N Вариант 4 A N  Выбор конкретного варианта для дальнейшего анализа осуществляется через API 14
  • 15. Сохранение дерева разбора Плюсы и минусы +Не приводит к дополнительным действиям, те же характеристики роста числа наложений и скорости работы +Информация о структуре наложений доступна для дальнейшего анализа −Потребление памяти несколько больше, чем без сохранения информации 15
  • 16. Сокращение многовариантности Направления работы  Упорядочивание группируемых вариантов – Подсчет весов на основе синтаксических признаков – Внешние функции оценки  Фильтрация группируемых вариантов – Ограничение количества – Внешние функции фильтрации 16
  • 17. ? 17