Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

морфология

730 visualizaciones

Publicado el

  • Sé el primero en comentar

  • Sé el primero en recomendar esto

морфология

  1. 1. К ВОПРОСУ СНЯТИЯ ЛЕКСИЧЕСКОЙ И МОРФОЛОГИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург
  2. 2. Словоформа БОРОВ БОР м1 Мн. Род. $1213136(!Род,!Для) – инструмент БОР м1В Мн. Род. $122412(!Род) – лес БОР м1о Мн. Род. Вин. $12413/03000() – фамилия БОРЫ м1+ Мн. Род. $1214023(!Род,!наВин) – налог БОРОВ м1о Ед. Им. $124224114(!Род) – свинья БОРОВ м1|1 Ед. Им. Вин. $1563(!Род) – часть дымохода 9 элементов типа “Очередь”, каждый хранит до 7 лексем. Всего используется 33 процедуры трех типов: первый тип – начало разбора (левый контекст), второй тип – конец разбора (правый контекст), третий тип – оба случая (и левый, и правый контексты).
  3. 3. Морфологический разбор •Есть культура богатых и культура бедных. •бедных БЕДНЫЙ п1 Мн. Род. Вин. Пред. $1241/161(!A1,!Тв) БЕДНЫЙ м12о Мн. Род. Пред. Вин. $1241/161() •Есть ЕСТЬ ПК $1241/416($124~!Дат,!Инфин) +$11101(!Им) ЕСТЬ г16н Инфинитив $101/1($124~!Им,$101/1~!Вин) •культура КУЛЬТУРА ж1 Ед. Им. $1223($1223~!Род)+$1241/15(!Род) •богатых БОГАТЫЙ п1@ Мн. Род. Вин. Пред. $1241/161(!A1,!Тв) БОГАТЫЙ м12о Мн. Род. Пред. Вин. $1241/161() •и И СЗ $712() •культура КУЛЬТУРА ж1 Ед. Им. $1223($1223~!Род)+$1241/15(!Род)
  4. 4. Процедура Defis Процедура осуществляет сборку отсутствующих в словаре сущ., прилаг., наречий и междометий, пишущихся через дефис (кроме ТО, КА, ДЕ, КО, ТА, ТЕ, С, ЛИБО и НИБУДЬ).‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ Вначале выполняется разделение лексем на две половины (по 2-м буквам для коротких слов или 3-м для длинных). Рассмотрим это на примере анализа слова Царю-освободителю. После морфологического разбора получим три лексемы: ЦАРИТЬ г4нН Наст. 1-ое Ед. $124134021(!Им) ЦАРЬ м2о Ед. Дат. $124134021(!Над!Род) ОСВОБОДИТЕЛЬ м2о Ед. Дат. $124/1(!Род,!Ото) Запускается поиск лексем в порядке частей речи, указанных выше, затем две последние объединяются в одну: Царю-освободителю ЦАРЬ-ОСВОБОДИТЕЛЬS anim,m,sg,dat
  5. 5. Процедура BigLetter Профессор Вильфредо Парето из университета Лозанны... •После морфологического разбора имеем: ПРОФЕССОР м1о|1 Ед. Им. $12413202(!Род) ВИЛЬФРЕДО м0о $12413/01000() ПАРЕТО м0о $12413/03000() •Находим слева “сопутствующее” слово – профессор и однозначно определяем все падежи. На выходе имеем: Профессор ПРОФЕССОР S anim,m,sg,nom Вильфредо ВИЛЬФРЕДОS anim,m,sg,nom Парето ПАРЕТО S anim,m,sg,nom * Исключения: «наследник", «последователь" или «преемник"
  6. 6. Процедура OrdinalNum • Порядковые числительные представлены в виде набора цифр с буквенным окончанием: • "ОЙ" – п1 Муж.-Сред. Ед. Им. Вин. Жен. Ед. Род. Дат. Тв. Пред. $12/135(!A1) • "ГО" – п1 Муж.-Сред. Ед. Род. Вин. $12/135(!A1) • "Е" – п1 Сред. Ед. Им. Вин. Мн. Им. Вин. $12/135(!A1) • "Й" – п1 Муж. Ед. Им. Вин. Жен. Ед. Род. Дат. Тв. Пред. $12/135(!A1) • "М" – п1 Муж.-Сред. Ед. Тв. Пред. Мн. Дат. $12/135(!A1) • "Х" – п1 Мн. Род. Вин. Пред. $12/135(!A1) • "Ю" – п1 Жен. Ед. Вин. Тв. $12/135(!A1) • "Я" – п1 Жен. Ед. Им. $12/135(!A1)
  7. 7. В 19-м году откопали и привезли в Москву… •После срабатывания процедуры OrdinalNum получим: В ПР $711(!Вин!Пред) 19-М п1 Муж.-Сред. Ед. Тв. Пред. Мн. Дат. $12/135(!A1) ГОД м1|3В@ Ед. Дат. МестВ $1605($151$12413205$11101$124/1~!Род) •Процедура Prepos согласует падежи предлога со следующим за ним прилагательным (в 19-м), в результате чего в прилагательном остается только предложный падеж: В ПР $711(!Вин!Пред) 19-М п1 Муж.-Сред. Ед. Пред. $12/135(!A1) ГОД м1|3В@ Ед. Дат. МестВ $1605($151$12413205$11101$124/1~!Род)
  8. 8. В 19-м году откопали и привезли в Москву… Процедура TwoNoun, согласует падежи прилагательного (19-м году) со следующим за ним существительным В ПР $711(!Вин!Пред) 19-М п1 Муж.-Сред. Ед. Пред. $12/135(!A1) ГОД м1|3В@ Ед. Пред. $1605($151$12413205$11101$124/1~!Род) После срабатывания процедуры OutMorf_Eng получаем разбор в окончательном виде: В В PR 19-м 19-М A-NUM m,sg,loc году ГОД S inan,m,sg,loc2
  9. 9. Снятие неоднозначностей 0 20% 40% 60% 80% 100% Неоднозначностей Согласование с предлогом слева К любой власти… ЛЮБА ЛЮБОЙ Управление по классам и падежам политическая система создана средствами массовой информации… СРЕДСТВА СРЕДСТВО Подлежащее – сказуемое в самых разных СМИ обычными стали фразы типа… СТАТЬ СТАЛЬ Согласование существительных – прилагательных – причастий криминальная хроника… ХРОНИК ХРОНИКА Выбор имен собственных … как народный герой. ГЕРА ГЕРОЙ Вводные слова …если, конечно, цели власти совпадают с ее декларациями КОНЕЧНО КОНЕЧНЫЙ Редкие словоформы Были у картин и различия. БЫТЬ БЫЛЬ
  10. 10. Сводные результаты • Текст политической направленности общим объемом 116 тысяч словоформ. Анализатор не разобрал 759 различных слов (1329 словоформ). Из них 11% чисел ($12-20, 10-15), 30% иностранных слов (Arctic, web-сайт, web-страница ) и 59% русских (в том числе, около 24% ФИО). • Из разобранных словоформ около 20% имели две и более лексемы. В результате работы анализатора неоднозначность по лексемам уменьшилась в 12 раз и составила около 1.5%. • Если Диалинг обеспечивает разбор текста с морфологический неоднозначностью около 50%, то мы снизили ее до 10%. • Из разобранных слов текста около 80% слов определены семантически однозначно, т. е. каждому из них приписан только один класс по классификатору Тузова.
  11. 11. Наиболее значимые процедуры 4443 Subj_Pred (1) подлежащее-сказуемое 4004 JoinEqual (2) объединение одинаковых лексем 3636 Fraze_0 (*) неизменяемые фразеологизмы 3046 TwoNoun (3) выбор из нескольких сущ. 2872 BigLetter (1) имена собственные 2460 Noun_Adject (1) согласование сущ. – прилаг./причаст. 1946 Class_Padeg (1) согласование по классам и падежам 1769 Adject_Prich (2) выбор прилаг. или причаст. 1530 Prepos (1) анализ предлога слева 1352 UnUsedWord (3) выбор наиболее употребительных слов 1078 Adverb_Short (2) выбор наречия или краткого прилаг.
  12. 12. Благодарим за внимание Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург kanev@emi. nw.ru Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург boyarin9@yandex.ru

×