Computerlexica in OCR en zoekmachines by Katrien Depuydt

Computerlexica in OCR en Zoekmachines Katrien Depuydt (Instituut voor Nederlandse Lexicologie, Leiden)

Overzicht ,[object Object],[object Object],[object Object],[object Object],[object Object]

Computerlexicon vs. electronisch woordenboek (1) Een electronisch woordenboek heeft: ,[object Object],[object Object],[object Object],[object Object]

Computerlexicon vs. electronisch woordenboek (2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Het OCR-lexicon Een OCR lexicon is ,[object Object],[object Object],[object Object],[object Object]

OCR-lexicon: voorbeeld wechgerukt 5 wechgeschickt 6 wechgeven 6 wech-gevoerde 11 wechgevoerde 14 wech-gevoert 59 wechgevoert 98 wechgeworpen 21 wechghenomen 12 wechghevoert 7 wechginck 5 wechloopen 6 wechneemt 11 wechneme 6 wech-nemen 20 wechnemen 74 wechneminge 12 wech-neminge 6 wechrapen 6 wechrucken 6 wechruiming 7 wecht 7 absoluut 8 absoluyt 2 absoluyter 1 absolveren 3 absolverende 1 absorbeeren 1 absorbeert 1 absorberen 1 absorptie 3 absoute 2 abstineeren 1 abstinencie 1 abstinentie 2 abstineren 1 abstrackheyt 1 abstract 7 abstracta 1 abstracte 7 abstracten 4 abstractheid 1 abstractie 1 abstractiën 1 Van het historisch corpus van de DBNL Van het WNT attestation lexicon

Het IR-lexicon ,[object Object],[object Object],[object Object]

<?xml version='1.0'?> <!DOCTYPE lexicon SYSTEM 'NL_Structure.dtd'> <lexicon> <lexical_entry><lemma_id>219490</lemma_id> < modern_lemma > aantuilen </modern_lemma> <gloss></gloss> <POS>VRB</POS> <ne_label></ne_label> <language_id></language_id> <portmanteau_lemma_id></portmanteau_lemma_id> <wordform><form_representation> <wordform_id>850026</wordform_id> < written_form > tuyld </written_form> <attestation><id>92141</id> <token_id></token_id> < quote >Verhael ick (<I>t.w. een als vrouw verkleede man</I>) haer mijn min in Vrouwelijcker schynen: Sy acht het boertery, en tuyld daer weer op an , Vermits een Vrou niet op een Vrou verlieven kan,</quote> <derivation_id>0</derivation_id> <document_id>204</document_id> <start_pos>119</start_pos> <end_pos>124</end_pos> </attestation> </form_representation> </wordform>

Gereedschappen voor lexiconbouw en toepassing lexica

Types variatie (spelling, verbuiging…) uytterlijcste uyterlijkste d'uyterlijke uiterlyke uyterlijcke uiterlijke uyterlijck uiterlyken uiterlijkste uiterlicke wterlicke wterlijcke ulterlijk uiterlyk uiterlijk uyterlick wterlicken d'uyterlijcke uiterlijken uiterlijks wterlijck uytterlicke uitterlijke ujterlijke uytterlijk uyterlycke uyterlicken uijterlicke d'uiterlijcke wtterlijcke wterlyke wtterlijk uuterlick uuterlic uyterlijke uyterlijcken uyterlicke d'uiterlyke wterlijke vuyterlijcke uuterlycke uuterlicke wterlijken uyterlijcksten uuyterlicke uuyterlick uuyterlycke uytterlijcke uytterlycke uytterlick vuytterlicke uiterlijker uyterlyck uterliek wterlijcken uiterlijkst uitterlijk uytterlijcken uyterlyk wterlick uutterlijck uuyterlicken uyttelijck uijterlijk uytterlijck uuterlijck uiterlick uitterlyk uuyterlic uuyterlyck uuyterlijck uiterlijck uytterlyck uterlyc wterlijk I werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlyt wereldts vveerelts waereld weerelden waerelden weerlt werlt werelds sweerels zwerlys swarels swerelts werelts swerrels weirelts tsweerelds werret vverelt werlts werrelt worreld werlden wareld weirelt weireld waerelt werreld werld vvereld weerelts werlde tswerels werreldts weereldt wereldje waereldje weurlt wald weëled II (patronen om variatie te voorspellen) (een aantal voorspelbaar met patronen, andere moet je uit een lexicon halen)

Computerlexica ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Gereedschappen (Tools) ,[object Object],[object Object],[object Object],[object Object],[object Object]

Gewone woordenschat vs. Namen (NE’s) ,[object Object],[object Object],[object Object]

Een aantal resulaten voor het Nederlands

Ground truth data: Nederlands Type and genre # woorden Gold Standard Boek 300k Random Set Boeken 340k Random Set Staten Generaal 2.5M Gold Standard Staten Generaal 500k Gold Standard Kranten 1 3.4M Gold Standard Kranten 2 170k Random Set Kranten 3.2M totaal 13.1M

Lexicon dekking (1: ground truth boeken) Type coverage Token coverage Modern lexicon (e-Lex) 46% 76% Core general lexicon 56% 84% 1 + 2 63% 89% Uitbreiding met corpus-materiaal 78% 95%

Lexicon dekking (2: gt kranten 18 e -19 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 40% 83% Core general lexicon 41% 84% 1 + 2 51% 89% Uitbreiding met corpus-materiaal 62% 95%

Lexicon coverage (3: gt Staten Generaal 19 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 51% 89% Core general lexicon 47% 88% 1 + 2 58% 93% Uitbreiding met corpus-materiaal 68% 97%

Lexicon coverage (4: gt Staten Generaal 20 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 70% 93% Core general lexicon 66% 93% 1 + 2 76% 96% Uitbreiding met corpusmateriaal 81% 98%

Lexicon coverage (5: Genesis, 1637 bijbel) Type coverage Token coverage Modern lexicon (e-Lex) 31% 61% Core lexicon 62% 83% 1 + 2 65% 89% Uitbreiding met corpusmateriaal 87% 98.6%

Lexicon coverage (6: Hooft, historiën) Type coverage Token coverage Modern lexicon (e-Lex) 26% 67% Core lexicon 47% 88% 1 + 2 50% 90% Uitbreiding met corpusmateriaal 58% 96%

Evaluatie van OCR ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

OCR resultaten: word recognition rate 94.9% 94.9% 90.9% Staten Gen., 1826-27 selectie 94.4 % 90.9% 88.8% DPO35 Met het IMPACT lexicon voorhet Nederlands (case hyphenation) + lange S-probleem Met het IMPACT lexicon voorhet Nederlands (case hyphenation) Met ABBYY intern Nederlands lexicon Dataset

Een voorbeeld: A. De eerste was de gevaarlykste om de verlei- ding aan 't Hof; de tweede de stilste en veiligste; de derde de zwaarste, daar hy byna drie millioenen harde en onbeschaafde Menschen bestieren moest. A. De eerde was de gevaarlykflti om de verlei¬ ding aan 't Hof; de tweede de ftillie en veiligde ; de derde de zwaarde , daar hy byna drie millioenen harde en onbefchaafde Menfchen beftieren moest. Resultaten: OCR aan het begin van het project:

Retrieval demonstrator ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Computerlexica in OCR en zoekmachines by Katrien Depuydt

Recomendados

Recomendados

Más contenido relacionado

Más de IMPACT Centre of Competence

Más de IMPACT Centre of Competence (20)

Computerlexica in OCR en zoekmachines by Katrien Depuydt

Notas del editor