A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.
3. Fel¨ugyelt g´epi tanul´as
robusztus rendszerek ´ep´ıt´es´ehez nagym´eret˝u ´es heterog´en
tulajdonn´ev-annot´alt korpuszokra van sz¨uks´eg
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
4. A probl´ema
a gold standard adathalmazok korl´atozott m´eret˝uek ´es
t´emaspecifikusak
a k´ezi annot´al´as rendk´ıv¨ul k¨olts´eges ´es er˝oforr´as-ig´enyes
az annot´aci´os k¨olts´egek cs¨okkent´ese:
automatikus korpusz´ep´ıt´es
megl´ev˝o korpuszok egyes´ıt´ese → az annot´aci´os s´em´ak ´es
c´ımkek´eszletek k¨ul¨onb¨oz˝os´ege
egy m´ar megl´ev˝o korpuszon tan´ıtott rendszer futtat´asa ´uj
sz¨ovegen → a dom´enek k¨oz¨otti k¨ul¨onbs´eg
teljes´ıtm´enycs¨okken´est okoz
k¨oz¨oss´egi tartalmak felhaszn´al´asa
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
5. Wikip´edia ´es tulajdonn´ev-felismer´es
a Wikip´edi´aban:
a sz´ocikkek nagy r´esze entit´asokr´ol sz´ol
a kereszthivatkoz´asok azonos´ıtj´ak a tulajdonneveket a
sz¨ovegben
a DBpedia ontol´ogiai oszt´alyait k´epezt¨uk le a
CoNLL-n´evoszt´alyokra, majd ezeket Wikip´edia-entit´asokhoz
k¨ot¨ott¨uk
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
6. A m´odszer
1 a Wikip´edia-cikkeket entit´asoszt´alyokba soroljuk → entit´aslista
a DBpedia alapj´an → lek´epez´es a CoNLL n´evoszt´alyokra
2 a cikkeket mondatokra bontjuk
3 felc´ımk´ezz¨uk a tulajdonneveket a sz¨ovegben:
sz¨ovegk¨ozi kereszthivatkoz´asok, ha szerepelnek az
entit´aslist´aban
nagybet˝us szavak, ha szerepelnek a m´ar felismert nevek list´aj´an
4 kisz˝urj¨uk a rossz min˝os´eg˝u mondatokat:
amelyekben c´ımk´ezetlen hivatkoz´asok vagy nagybet˝us szavak
vannak
a mondatt¨ored´ekeket (pl. nincs mondatv´egi ´ır´asjel, nincs benne
ragozott igealak)
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
7. K´ezi ellen˝orz´es
a teljes korpusz 0,001%-´at k´ezzel annot´altuk, majd
¨osszehasonl´ıtottuk a g´epi ´es k´ezi annot´al´as eredm´eny´et:
P (%) R (%) Fβ=1 (%) NE (#)
LOC 98.72 95.65 97.16 161
MISC 95.24 76.92 85.11 26
ORG 89.66 89.66 89.66 29
PER 88.30 89.25 88.77 93
¨Osszes´ıtve 94.33 91.59 92.94 309
ha a g´epi m´odszert egy annot´atornak tekintj¨uk, akkor az F-m´ert´ek
az annot´atorok k¨oz¨otti egyet´ert´est mutatja → k¨ozel´ıti a gold
standard sz´ınvonalat
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
9. M´er´esek
tan´ıt´as teszt P (%) R (%) F (%)
Szeged Szeged 94,50 94,35 94,43
huwiki huwiki 90,64 88,91 89,76
huwiki Szeged 63,08 70,46 66,57
Szeged wikilist´ak Szeged 95,48 95,48 95,48
Szeged wikitag Szeged 95,38 94,92 95,15
A saj´at teszthalmazon el´ert eredm´eny arr´ol tan´uskodik, hogy a
korpusz ak´ar ¨on´all´o gold standard adathalmazk´ent is haszn´alhat´o.
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
10. A korpuszok le´ır´asa
magyar ´es angol nyelv˝u korpuszok, de a m´odszer
nyelvf¨uggetlen
sztenderd CoNLL-form´atum: tsv, BIE1
UTF-8
CC-BY-SA 3.0 Unported licensz alatt ker¨ultek publik´al´asra
szabadon let¨olthet˝oek a
http://hlt.sztaki.hu/resources/ honlapr´ol
szint´en el´erhet˝oek a META-SHARE-en kereszt¨ul
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH