Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Silver standard korpuszok
tulajdonnév-felismeréshez
Simon Eszter1, Nemeskey Dávid Márk2
1MTA Nyelvtudományi Intézet
2Cliqz GmbH
2015. április 29.
NLP meetup
Simon Eszter, Nemeskey Dávid Márk MTA Nyelvtudományi Intézet Cliqz GmbH
Silver standard korpuszok tulajdonnév-felismeréshez

Tulajdonnév-felismerés
1 a tulajdonnevek azonos´ıtása strukturálatlan szövegben
2 besorolásuk el˝ore definiált névosztályokba (Person,
Location, Organization, Miscellaneous)
MTA Nyelvtudományi Intézet Cliqz GmbH

Felügyelt gépi tanulás
robusztus rendszerek ép´ıtéséhez nagyméret˝u és heterogén
tulajdonnév-annotált korpuszokra van szükség

A probléma
a gold standard adathalmazok korlátozott méret˝uek és
témaspecifikusak
a kézi annotálás rendk´ıvül költséges és er˝oforrás-igényes
az annotációs költségek csökkentése:
automatikus korpuszép´ıtés
meglév˝o korpuszok egyes´ıtése → az annotációs sémák és
c´ımkekészletek különböz˝osége
egy már meglév˝o korpuszon tan´ıtott rendszer futtatása új
szövegen → a domének közötti különbség
teljes´ıtménycsökkenést okoz
közösségi tartalmak felhasználása

Wikipédia és tulajdonnév-felismerés
a Wikipédiában:
a szócikkek nagy része entitásokról szól
a kereszthivatkozások azonos´ıtják a tulajdonneveket a
szövegben
a DBpedia ontológiai osztályait képeztük le a
CoNLL-névosztályokra, majd ezeket Wikipédia-entitásokhoz
kötöttük

A módszer
1 a Wikipédia-cikkeket entitásosztályokba soroljuk → entitáslista
a DBpedia alapján → leképezés a CoNLL névosztályokra
2 a cikkeket mondatokra bontjuk
3 felc´ımkézzük a tulajdonneveket a szövegben:
szövegközi kereszthivatkozások, ha szerepelnek az
entitáslistában
nagybet˝us szavak, ha szerepelnek a már felismert nevek listáján
4 kisz˝urjük a rossz min˝oség˝u mondatokat:
amelyekben c´ımkézetlen hivatkozások vagy nagybet˝us szavak
vannak
a mondattöredékeket (pl. nincs mondatvégi ´ırásjel, nincs benne
ragozott igealak)

Kézi ellen˝orzés
a teljes korpusz 0,001%-át kézzel annotáltuk, majd
összehasonl´ıtottuk a gépi és kézi annotálás eredményét:
P (%) R (%) Fβ=1 (%) NE (#)
LOC 98.72 95.65 97.16 161
MISC 95.24 76.92 85.11 26
ORG 89.66 89.66 89.66 29
PER 88.30 89.25 88.77 93
Összes´ıtve 94.33 91.59 92.94 309
ha a gépi módszert egy annotátornak tekintjük, akkor az F-mérték
az annotátorok közötti egyetértést mutatja → közel´ıti a gold
standard sz´ınvonalat

Korpuszméret és tel´ıtettség
huwiki s˝ur´ıtett huwiki Szeged NER
token 19.108.027 3.512.249 225.963
NE 456.281 456.281 25.896
tel´ıtettség (%) 2,38 12,99 11,46
enwiki s˝ur´ıtett enwiki CoNLL
token 60.520.819 21.718.854 302.811
NE 3.169.863 3.169.863 50.758
tel´ıtettség (%) 5,23 14,59 16,76

Mérések
tan´ıtás teszt P (%) R (%) F (%)
Szeged Szeged 94,50 94,35 94,43
huwiki huwiki 90,64 88,91 89,76
huwiki Szeged 63,08 70,46 66,57
Szeged wikilisták Szeged 95,48 95,48 95,48
Szeged wikitag Szeged 95,38 94,92 95,15
A saját teszthalmazon elért eredmény arról tanúskodik, hogy a
korpusz akár önálló gold standard adathalmazként is használható.

A korpuszok le´ırása
magyar és angol nyelv˝u korpuszok, de a módszer
nyelvfüggetlen
sztenderd CoNLL-formátum: tsv, BIE1
UTF-8
CC-BY-SA 3.0 Unported licensz alatt kerültek publikálásra
szabadon letölthet˝oek a
http://hlt.sztaki.hu/resources/ honlapról
szintén elérhet˝oek a META-SHARE-en keresztül

Köszönöm a figyelmet!
e-mail:
simon.eszter@nytud.mta.hu
nemeskey.david@gmail.com
URL:
http://hlt.sztaki.hu/resources/

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (9)

Más de Zoltan Varju

Más de Zoltan Varju (20)

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez