SlideShare una empresa de Scribd logo
1 de 11
Descargar para leer sin conexión
Silver standard korpuszok
tulajdonn´ev-felismer´eshez
Simon Eszter1, Nemeskey D´avid M´ark2
1MTA Nyelvtudom´anyi Int´ezet
2Cliqz GmbH
2015. ´aprilis 29.
NLP meetup
Simon Eszter, Nemeskey D´avid M´ark MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
Silver standard korpuszok tulajdonn´ev-felismer´eshez
Tulajdonn´ev-felismer´es
1 a tulajdonnevek azonos´ıt´asa struktur´alatlan sz¨ovegben
2 besorol´asuk el˝ore defini´alt n´evoszt´alyokba (Person,
Location, Organization, Miscellaneous)
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
Fel¨ugyelt g´epi tanul´as
robusztus rendszerek ´ep´ıt´es´ehez nagym´eret˝u ´es heterog´en
tulajdonn´ev-annot´alt korpuszokra van sz¨uks´eg
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
A probl´ema
a gold standard adathalmazok korl´atozott m´eret˝uek ´es
t´emaspecifikusak
a k´ezi annot´al´as rendk´ıv¨ul k¨olts´eges ´es er˝oforr´as-ig´enyes
az annot´aci´os k¨olts´egek cs¨okkent´ese:
automatikus korpusz´ep´ıt´es
megl´ev˝o korpuszok egyes´ıt´ese → az annot´aci´os s´em´ak ´es
c´ımkek´eszletek k¨ul¨onb¨oz˝os´ege
egy m´ar megl´ev˝o korpuszon tan´ıtott rendszer futtat´asa ´uj
sz¨ovegen → a dom´enek k¨oz¨otti k¨ul¨onbs´eg
teljes´ıtm´enycs¨okken´est okoz
k¨oz¨oss´egi tartalmak felhaszn´al´asa
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
Wikip´edia ´es tulajdonn´ev-felismer´es
a Wikip´edi´aban:
a sz´ocikkek nagy r´esze entit´asokr´ol sz´ol
a kereszthivatkoz´asok azonos´ıtj´ak a tulajdonneveket a
sz¨ovegben
a DBpedia ontol´ogiai oszt´alyait k´epezt¨uk le a
CoNLL-n´evoszt´alyokra, majd ezeket Wikip´edia-entit´asokhoz
k¨ot¨ott¨uk
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
A m´odszer
1 a Wikip´edia-cikkeket entit´asoszt´alyokba soroljuk → entit´aslista
a DBpedia alapj´an → lek´epez´es a CoNLL n´evoszt´alyokra
2 a cikkeket mondatokra bontjuk
3 felc´ımk´ezz¨uk a tulajdonneveket a sz¨ovegben:
sz¨ovegk¨ozi kereszthivatkoz´asok, ha szerepelnek az
entit´aslist´aban
nagybet˝us szavak, ha szerepelnek a m´ar felismert nevek list´aj´an
4 kisz˝urj¨uk a rossz min˝os´eg˝u mondatokat:
amelyekben c´ımk´ezetlen hivatkoz´asok vagy nagybet˝us szavak
vannak
a mondatt¨ored´ekeket (pl. nincs mondatv´egi ´ır´asjel, nincs benne
ragozott igealak)
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
K´ezi ellen˝orz´es
a teljes korpusz 0,001%-´at k´ezzel annot´altuk, majd
¨osszehasonl´ıtottuk a g´epi ´es k´ezi annot´al´as eredm´eny´et:
P (%) R (%) Fβ=1 (%) NE (#)
LOC 98.72 95.65 97.16 161
MISC 95.24 76.92 85.11 26
ORG 89.66 89.66 89.66 29
PER 88.30 89.25 88.77 93
¨Osszes´ıtve 94.33 91.59 92.94 309
ha a g´epi m´odszert egy annot´atornak tekintj¨uk, akkor az F-m´ert´ek
az annot´atorok k¨oz¨otti egyet´ert´est mutatja → k¨ozel´ıti a gold
standard sz´ınvonalat
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
Korpuszm´eret ´es tel´ıtetts´eg
huwiki s˝ur´ıtett huwiki Szeged NER
token 19.108.027 3.512.249 225.963
NE 456.281 456.281 25.896
tel´ıtetts´eg (%) 2,38 12,99 11,46
enwiki s˝ur´ıtett enwiki CoNLL
token 60.520.819 21.718.854 302.811
NE 3.169.863 3.169.863 50.758
tel´ıtetts´eg (%) 5,23 14,59 16,76
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
M´er´esek
tan´ıt´as teszt P (%) R (%) F (%)
Szeged Szeged 94,50 94,35 94,43
huwiki huwiki 90,64 88,91 89,76
huwiki Szeged 63,08 70,46 66,57
Szeged wikilist´ak Szeged 95,48 95,48 95,48
Szeged wikitag Szeged 95,38 94,92 95,15
A saj´at teszthalmazon el´ert eredm´eny arr´ol tan´uskodik, hogy a
korpusz ak´ar ¨on´all´o gold standard adathalmazk´ent is haszn´alhat´o.
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
A korpuszok le´ır´asa
magyar ´es angol nyelv˝u korpuszok, de a m´odszer
nyelvf¨uggetlen
sztenderd CoNLL-form´atum: tsv, BIE1
UTF-8
CC-BY-SA 3.0 Unported licensz alatt ker¨ultek publik´al´asra
szabadon let¨olthet˝oek a
http://hlt.sztaki.hu/resources/ honlapr´ol
szint´en el´erhet˝oek a META-SHARE-en kereszt¨ul
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
K¨osz¨on¨om a figyelmet!
e-mail:
simon.eszter@nytud.mta.hu
nemeskey.david@gmail.com
URL:
http://hlt.sztaki.hu/resources/
MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH

Más contenido relacionado

Destacado

Culture Code @ Arbunize
Culture Code @ ArbunizeCulture Code @ Arbunize
Culture Code @ ArbunizeArbunize
 
Kotlinで関数拡張しちゃうぞ![修正版]
Kotlinで関数拡張しちゃうぞ![修正版]Kotlinで関数拡張しちゃうぞ![修正版]
Kotlinで関数拡張しちゃうぞ![修正版]Shinichi Kozake
 
Instruction level parallelism
Instruction level parallelismInstruction level parallelism
Instruction level parallelismdeviyasharwin
 
Ims at mindtree key concepts and paradigms
Ims at mindtree   key concepts and paradigmsIms at mindtree   key concepts and paradigms
Ims at mindtree key concepts and paradigmsKoushik Ramani
 
Subject_Certificate_24_May_2016
Subject_Certificate_24_May_2016Subject_Certificate_24_May_2016
Subject_Certificate_24_May_2016Dahy Gamal
 
Natural Language Processing: L02 words
Natural Language Processing: L02 wordsNatural Language Processing: L02 words
Natural Language Processing: L02 wordsananth
 

Destacado (9)

RESUME
RESUMERESUME
RESUME
 
Culture Code @ Arbunize
Culture Code @ ArbunizeCulture Code @ Arbunize
Culture Code @ Arbunize
 
3
33
3
 
Kotlinで関数拡張しちゃうぞ![修正版]
Kotlinで関数拡張しちゃうぞ![修正版]Kotlinで関数拡張しちゃうぞ![修正版]
Kotlinで関数拡張しちゃうぞ![修正版]
 
Instruction level parallelism
Instruction level parallelismInstruction level parallelism
Instruction level parallelism
 
Ims at mindtree key concepts and paradigms
Ims at mindtree   key concepts and paradigmsIms at mindtree   key concepts and paradigms
Ims at mindtree key concepts and paradigms
 
Subject_Certificate_24_May_2016
Subject_Certificate_24_May_2016Subject_Certificate_24_May_2016
Subject_Certificate_24_May_2016
 
PARIS 2.0 SUR LE BRANDED ENTERTAINMENT #parisdeuxzero #brandedentertainment #...
PARIS 2.0 SUR LE BRANDED ENTERTAINMENT #parisdeuxzero #brandedentertainment #...PARIS 2.0 SUR LE BRANDED ENTERTAINMENT #parisdeuxzero #brandedentertainment #...
PARIS 2.0 SUR LE BRANDED ENTERTAINMENT #parisdeuxzero #brandedentertainment #...
 
Natural Language Processing: L02 words
Natural Language Processing: L02 wordsNatural Language Processing: L02 words
Natural Language Processing: L02 words
 

Más de Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidZoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxZoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleZoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesZoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanZoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
SzövegbányászatZoltan Varju
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatZoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelvZoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédZoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekZoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésZoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...Zoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 

Más de Zoltan Varju (20)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

  • 1. Silver standard korpuszok tulajdonn´ev-felismer´eshez Simon Eszter1, Nemeskey D´avid M´ark2 1MTA Nyelvtudom´anyi Int´ezet 2Cliqz GmbH 2015. ´aprilis 29. NLP meetup Simon Eszter, Nemeskey D´avid M´ark MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH Silver standard korpuszok tulajdonn´ev-felismer´eshez
  • 2. Tulajdonn´ev-felismer´es 1 a tulajdonnevek azonos´ıt´asa struktur´alatlan sz¨ovegben 2 besorol´asuk el˝ore defini´alt n´evoszt´alyokba (Person, Location, Organization, Miscellaneous) MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
  • 3. Fel¨ugyelt g´epi tanul´as robusztus rendszerek ´ep´ıt´es´ehez nagym´eret˝u ´es heterog´en tulajdonn´ev-annot´alt korpuszokra van sz¨uks´eg MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
  • 4. A probl´ema a gold standard adathalmazok korl´atozott m´eret˝uek ´es t´emaspecifikusak a k´ezi annot´al´as rendk´ıv¨ul k¨olts´eges ´es er˝oforr´as-ig´enyes az annot´aci´os k¨olts´egek cs¨okkent´ese: automatikus korpusz´ep´ıt´es megl´ev˝o korpuszok egyes´ıt´ese → az annot´aci´os s´em´ak ´es c´ımkek´eszletek k¨ul¨onb¨oz˝os´ege egy m´ar megl´ev˝o korpuszon tan´ıtott rendszer futtat´asa ´uj sz¨ovegen → a dom´enek k¨oz¨otti k¨ul¨onbs´eg teljes´ıtm´enycs¨okken´est okoz k¨oz¨oss´egi tartalmak felhaszn´al´asa MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
  • 5. Wikip´edia ´es tulajdonn´ev-felismer´es a Wikip´edi´aban: a sz´ocikkek nagy r´esze entit´asokr´ol sz´ol a kereszthivatkoz´asok azonos´ıtj´ak a tulajdonneveket a sz¨ovegben a DBpedia ontol´ogiai oszt´alyait k´epezt¨uk le a CoNLL-n´evoszt´alyokra, majd ezeket Wikip´edia-entit´asokhoz k¨ot¨ott¨uk MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
  • 6. A m´odszer 1 a Wikip´edia-cikkeket entit´asoszt´alyokba soroljuk → entit´aslista a DBpedia alapj´an → lek´epez´es a CoNLL n´evoszt´alyokra 2 a cikkeket mondatokra bontjuk 3 felc´ımk´ezz¨uk a tulajdonneveket a sz¨ovegben: sz¨ovegk¨ozi kereszthivatkoz´asok, ha szerepelnek az entit´aslist´aban nagybet˝us szavak, ha szerepelnek a m´ar felismert nevek list´aj´an 4 kisz˝urj¨uk a rossz min˝os´eg˝u mondatokat: amelyekben c´ımk´ezetlen hivatkoz´asok vagy nagybet˝us szavak vannak a mondatt¨ored´ekeket (pl. nincs mondatv´egi ´ır´asjel, nincs benne ragozott igealak) MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
  • 7. K´ezi ellen˝orz´es a teljes korpusz 0,001%-´at k´ezzel annot´altuk, majd ¨osszehasonl´ıtottuk a g´epi ´es k´ezi annot´al´as eredm´eny´et: P (%) R (%) Fβ=1 (%) NE (#) LOC 98.72 95.65 97.16 161 MISC 95.24 76.92 85.11 26 ORG 89.66 89.66 89.66 29 PER 88.30 89.25 88.77 93 ¨Osszes´ıtve 94.33 91.59 92.94 309 ha a g´epi m´odszert egy annot´atornak tekintj¨uk, akkor az F-m´ert´ek az annot´atorok k¨oz¨otti egyet´ert´est mutatja → k¨ozel´ıti a gold standard sz´ınvonalat MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
  • 8. Korpuszm´eret ´es tel´ıtetts´eg huwiki s˝ur´ıtett huwiki Szeged NER token 19.108.027 3.512.249 225.963 NE 456.281 456.281 25.896 tel´ıtetts´eg (%) 2,38 12,99 11,46 enwiki s˝ur´ıtett enwiki CoNLL token 60.520.819 21.718.854 302.811 NE 3.169.863 3.169.863 50.758 tel´ıtetts´eg (%) 5,23 14,59 16,76 MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
  • 9. M´er´esek tan´ıt´as teszt P (%) R (%) F (%) Szeged Szeged 94,50 94,35 94,43 huwiki huwiki 90,64 88,91 89,76 huwiki Szeged 63,08 70,46 66,57 Szeged wikilist´ak Szeged 95,48 95,48 95,48 Szeged wikitag Szeged 95,38 94,92 95,15 A saj´at teszthalmazon el´ert eredm´eny arr´ol tan´uskodik, hogy a korpusz ak´ar ¨on´all´o gold standard adathalmazk´ent is haszn´alhat´o. MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH
  • 10. A korpuszok le´ır´asa magyar ´es angol nyelv˝u korpuszok, de a m´odszer nyelvf¨uggetlen sztenderd CoNLL-form´atum: tsv, BIE1 UTF-8 CC-BY-SA 3.0 Unported licensz alatt ker¨ultek publik´al´asra szabadon let¨olthet˝oek a http://hlt.sztaki.hu/resources/ honlapr´ol szint´en el´erhet˝oek a META-SHARE-en kereszt¨ul MTA Nyelvtudom´anyi Int´ezet Cliqz GmbH