12. <?xml version='1.0'?> <!DOCTYPE lexicon SYSTEM 'NL_Structure.dtd'> <lexicon> <lexical_entry><lemma_id>219490</lemma_id> < modern_lemma > aantuilen </modern_lemma> <gloss></gloss> <POS>VRB</POS> <ne_label></ne_label> <language_id></language_id> <portmanteau_lemma_id></portmanteau_lemma_id> <wordform><form_representation> <wordform_id>850026</wordform_id> < written_form > tuyld </written_form> <attestation><id>92141</id> <token_id></token_id> < quote >Verhael ick (<I>t.w. een als vrouw verkleede man</I>) haer mijn min in Vrouwelijcker schynen: Sy acht het boertery, en tuyld daer weer op an , Vermits een Vrou niet op een Vrou verlieven kan,</quote> <derivation_id>0</derivation_id> <document_id>204</document_id> <start_pos>119</start_pos> <end_pos>124</end_pos> </attestation> </form_representation> </wordform>
19. Ground truth data: Nederlands Type and genre # woorden Gold Standard Boek 300k Random Set Boeken 340k Random Set Staten Generaal 2.5M Gold Standard Staten Generaal 500k Gold Standard Kranten 1 3.4M Gold Standard Kranten 2 170k Random Set Kranten 3.2M totaal 13.1M
20. Lexicon dekking (1: ground truth boeken) Type coverage Token coverage Modern lexicon (e-Lex) 46% 76% Core general lexicon 56% 84% 1 + 2 63% 89% Uitbreiding met corpus-materiaal 78% 95%
21. Lexicon dekking (2: gt kranten 18 e -19 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 40% 83% Core general lexicon 41% 84% 1 + 2 51% 89% Uitbreiding met corpus-materiaal 62% 95%
22. Lexicon coverage (3: gt Staten Generaal 19 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 51% 89% Core general lexicon 47% 88% 1 + 2 58% 93% Uitbreiding met corpus-materiaal 68% 97%
23. Lexicon coverage (4: gt Staten Generaal 20 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 70% 93% Core general lexicon 66% 93% 1 + 2 76% 96% Uitbreiding met corpusmateriaal 81% 98%
24. Lexicon coverage (5: Genesis, 1637 bijbel) Type coverage Token coverage Modern lexicon (e-Lex) 31% 61% Core lexicon 62% 83% 1 + 2 65% 89% Uitbreiding met corpusmateriaal 87% 98.6%
25. Lexicon coverage (6: Hooft, historiën) Type coverage Token coverage Modern lexicon (e-Lex) 26% 67% Core lexicon 47% 88% 1 + 2 50% 90% Uitbreiding met corpusmateriaal 58% 96%
26.
27. OCR resultaten: word recognition rate 94.9% 94.9% 90.9% Staten Gen., 1826-27 selectie 94.4 % 90.9% 88.8% DPO35 Met het IMPACT lexicon voorhet Nederlands (case hyphenation) + lange S-probleem Met het IMPACT lexicon voorhet Nederlands (case hyphenation) Met ABBYY intern Nederlands lexicon Dataset
28. Een voorbeeld: A. De eerste was de gevaarlykste om de verlei- ding aan 't Hof; de tweede de stilste en veiligste; de derde de zwaarste, daar hy byna drie millioenen harde en onbeschaafde Menschen bestieren moest. A. De eerde was de gevaarlykflti om de verlei¬ ding aan 't Hof; de tweede de ftillie en veiligde ; de derde de zwaarde , daar hy byna drie millioenen harde en onbefchaafde Menfchen beftieren moest. Resultaten: OCR aan het begin van het project:
29.
Notas del editor
We are a lexicological institute and this is what we do. Of course, it is not what we need for OCR and simple retrieval. I introduce it anyway because we can (and do) use our dictionaries for lexicon construction.
We will show some of the building blocks we are working on
It is impossible to extract all possible word forms from the limited amount of available reliably transcribed historical text We need mechanisms to extend the lexicon and to be able to assess the plausibility of “ hypothetical ” words without previous attestations, i.e. words we have not seen before. Supporting data for these mechanisms have to be present in the database, such as: