1. Опыт использования продукционных
правил в задаче извлечения
онтологической информации из
терминологических словарей
Е.Н. Клименко
Е.Ф. Силина
Санкт-Петербургский экономико-математический
институт РАН
2. Три этапа решения задачи
1. Семантико-синтаксический анализ исходного
варианта вербальных определений. В основе
системы лежит анализатор и семантический
словарь В. А. Тузова.
2. Разработка системы правил, вычленяющих из
вербального определения онтологически
значимую информацию.
3. Применение правил к вербальным
определениям.
3. Список структурных связей между терминами
1. Это – субъект этой связи объявляется классом.
2. subClassOf – субъект этой связи объявляется
подклассом класса, заданного объектом.
3. этоПараметр – субъект этой связи является
параметром некоторого далее конкретизируемого
свойства класса, заданного объектом связи.
4. с_Параметром – объект этой связи является
параметром субъекта.
4. Продукционные правила
Продукционное правило - правило вида
"УСЛОВИЕ – ДЕЙСТВИЕ".
Структура правил состоит из двух частей:
– условие, которому должен удовлетворять
фрагмент дерева синтаксического разбора;
– действие, выполняемое над заданным
фрагментом дерева, если правило оказалось
применимым к этому фрагменту.
5. Основные приемы определения правил
УСЛОВИЕ содержит:
– указание опорного узла дерева разбора, к
которому применимо данное правило;
– указание, если это необходимо, контекста этого
опорного узла,
– указание, если это необходимо, свойств
(морфологических и семантических) которым
должны удовлетворять узлы (все или некоторые)
из заданного контекста.
ДЕЙСТВИЕ содержит инструкции о вставке,
уничтожении или преобразовании триплетов и
узлов.
6. Синтаксически правило оформляется в виде
именованного блока информации, атрибутом
которого определяется T- или N-тип этого
правила:
<имя_правила ТИП={T|N} >
условие => действие
</ имя_правила>
7.
8.
9.
10.
11.
12.
13. Склонение - одна из двух координат
экваториальной системы координат.
{СКЛОНЕНИЕ - Это - Class
СКЛОНЕНИЕ - этоПараметр -
ЭКВАТОРИАЛЬНЫЙ_СИСТЕМА_КООРДИНАТА
СКЛОНЕНИЕ - subClassOf - КООРДИНАТА}
14. Правило РодЗн
<РодЗн ТИП = "T">
#W1 Род #W2 & ЗНАЧАЩИЙ (#W1) != 0 &
ЗНАЧАЩИЙ (#W2) != 0 =>
ВСТАВИТЬ (#W1 этоПараметр #W2);
УДАЛИТЬ (#W1 Род #W2)
</РодЗн>
15. Правило РодНезн
<РодНезн ТИП = "T">
#W1 Род #W2 & ЧАСТЬРЕЧИ (#W1) = Сущ &
ЧАСТЬРЕЧИ (#W2) = Сущ &
ЗНАЧАЩИЙ (#W2) = 0 =>
УДАЛИТЬ (#W1 Род #W2)
</РодНезн>
16. Правило РодПар2
<РодПар2 ТИП = "T">
#W1 Род #W2 & (КЛАСС(#W1) = Параметры &
ЗНАЧАЩИЙ(#W2) != 0) =>
ЗАМЕНИТЬ (#W1 Род #W2,
#W1 этоПараметр #W2)
</РодПар2>
17. Результаты эксперимента
• Всего в определениях терминологического
словаря использовано 237 различных слов.
Указание класса потребовалось для 48 слов.
Общее количество востребованных классов
равно 16.
• В определениях терминологического словаря
(после применения программы унификации
связей) используется 38 различных типов связей.
• Для построения онтологии по исходному
терминологическому словарю пришлось
определить 123 правила. Из них 51 правило
использовано два и более раз; 72 правила были
18. Общее количество связей в «эталонной
онтологии» - 93:
связи вида класс/подкласс - 62,
связи вида свойства классов - 31.
Общее количество выявленных связей - 61:
связи класс/подкласс – 29,
связи свойства классов - 32.
Конечным результатом этой работы является
формальный текст онтологии, связывающей
исходный набор терминов в сеть отношений
между терминами.
19. • Подтвердилась зависимость семантической
интерпретации синтаксических связей от
контекста на дереве разбора.
• Важной характеристикой является степень
общности правил и возможность их
многократного использования.
• Все правила, будучи ориентированными на
задачу онтологического анализа
терминологических словарей, вместе с тем
имеют достаточно общий характер и не зависят
от специфики конкретной предметной области (в
нашем случае это задача межзвездного
поглощения).