SlideShare una empresa de Scribd logo
1 de 29
Computerlexica in OCR en Zoekmachines Katrien Depuydt (Instituut voor Nederlandse Lexicologie, Leiden)
Overzicht ,[object Object],[object Object],[object Object],[object Object],[object Object]
Wat is een computerlexicon?
Computerlexicon vs. electronisch woordenboek (1) Een electronisch woordenboek heeft: ,[object Object],[object Object],[object Object],[object Object]
Dictionary XML (example)
Computerlexicon vs. electronisch woordenboek (2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
 
Lexica in IMPACT
Het OCR-lexicon Een OCR lexicon is   ,[object Object],[object Object],[object Object],[object Object]
OCR-lexicon: voorbeeld wechgerukt  5 wechgeschickt  6 wechgeven  6 wech-gevoerde  11 wechgevoerde  14 wech-gevoert  59 wechgevoert  98 wechgeworpen  21 wechghenomen  12 wechghevoert  7 wechginck  5 wechloopen  6 wechneemt  11 wechneme  6 wech-nemen  20 wechnemen  74 wechneminge  12 wech-neminge  6 wechrapen  6 wechrucken  6 wechruiming  7 wecht  7 absoluut  8 absoluyt  2 absoluyter  1 absolveren  3 absolverende  1 absorbeeren  1 absorbeert  1 absorberen  1 absorptie  3 absoute 2 abstineeren  1 abstinencie  1 abstinentie  2 abstineren  1 abstrackheyt  1 abstract  7 abstracta  1 abstracte  7 abstracten  4 abstractheid  1 abstractie  1 abstractiën  1 Van het historisch corpus van de DBNL Van het WNT attestation lexicon
Het IR-lexicon ,[object Object],[object Object],[object Object]
<?xml version='1.0'?> <!DOCTYPE lexicon SYSTEM 'NL_Structure.dtd'> <lexicon> <lexical_entry><lemma_id>219490</lemma_id> < modern_lemma > aantuilen </modern_lemma> <gloss></gloss> <POS>VRB</POS> <ne_label></ne_label> <language_id></language_id> <portmanteau_lemma_id></portmanteau_lemma_id> <wordform><form_representation> <wordform_id>850026</wordform_id> < written_form > tuyld </written_form> <attestation><id>92141</id> <token_id></token_id> < quote >Verhael ick (<I>t.w. een als vrouw verkleede man</I>) haer mijn min in Vrouwelijcker schynen: Sy acht het boertery, en  tuyld  daer weer op  an , Vermits een Vrou niet op een Vrou verlieven kan,</quote> <derivation_id>0</derivation_id> <document_id>204</document_id> <start_pos>119</start_pos> <end_pos>124</end_pos> </attestation> </form_representation> </wordform>
Gereedschappen voor lexiconbouw en toepassing lexica
Types variatie (spelling, verbuiging…) uytterlijcste uyterlijkste d'uyterlijke uiterlyke uyterlijcke uiterlijke uyterlijck uiterlyken uiterlijkste uiterlicke wterlicke wterlijcke ulterlijk uiterlyk uiterlijk uyterlick wterlicken d'uyterlijcke uiterlijken uiterlijks wterlijck uytterlicke uitterlijke ujterlijke uytterlijk uyterlycke uyterlicken  uijterlicke d'uiterlijcke wtterlijcke wterlyke wtterlijk  uuterlick uuterlic uyterlijke uyterlijcken uyterlicke d'uiterlyke wterlijke vuyterlijcke uuterlycke uuterlicke wterlijken uyterlijcksten uuyterlicke uuyterlick uuyterlycke uytterlijcke uytterlycke uytterlick vuytterlicke uiterlijker uyterlyck uterliek wterlijcken uiterlijkst uitterlijk uytterlijcken uyterlyk wterlick uutterlijck uuyterlicken uyttelijck uijterlijk uytterlijck uuterlijck uiterlick uitterlyk uuyterlic uuyterlyck uuyterlijck uiterlijck uytterlyck uterlyc wterlijk  I werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds  weerlyt  wereldts vveerelts waereld weerelden waerelden weerlt werlt werelds  sweerels   zwerlys   swarels   swerelts  werelts  swerrels  weirelts tsweerelds  werret  vverelt werlts werrelt  worreld  werlden  wareld   weirelt weireld  waerelt werreld werld vvereld weerelts werlde tswerels werreldts weereldt wereldje waereldje  weurlt wald weëled   II (patronen om variatie te voorspellen) (een aantal voorspelbaar met patronen, andere moet je uit een lexicon halen)
Computerlexica ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Gereedschappen (Tools) ,[object Object],[object Object],[object Object],[object Object],[object Object]
Gewone woordenschat vs. Namen (NE’s) ,[object Object],[object Object],[object Object]
Een aantal resulaten voor het Nederlands
Ground truth data: Nederlands Type and genre # woorden Gold Standard Boek 300k Random Set Boeken 340k Random Set Staten Generaal 2.5M Gold Standard Staten Generaal 500k Gold Standard Kranten 1 3.4M Gold Standard Kranten 2 170k Random Set Kranten 3.2M totaal 13.1M
Lexicon dekking (1: ground truth boeken) Type coverage Token coverage Modern lexicon (e-Lex) 46% 76% Core general lexicon 56% 84% 1 + 2 63% 89% Uitbreiding met corpus-materiaal 78% 95%
Lexicon dekking (2: gt kranten 18 e -19 e  e.) Type coverage Token coverage Modern lexicon (e-Lex) 40% 83% Core general lexicon 41% 84% 1 + 2 51% 89% Uitbreiding met corpus-materiaal 62% 95%
Lexicon coverage (3: gt Staten Generaal 19 e  e.) Type coverage Token coverage Modern lexicon (e-Lex) 51% 89% Core general lexicon 47% 88% 1 + 2 58% 93% Uitbreiding met corpus-materiaal 68% 97%
Lexicon coverage (4: gt Staten Generaal 20 e  e.) Type coverage Token coverage Modern lexicon (e-Lex) 70% 93% Core general lexicon 66% 93% 1 + 2 76% 96% Uitbreiding met corpusmateriaal 81% 98%
Lexicon coverage (5: Genesis, 1637 bijbel) Type coverage Token coverage Modern lexicon (e-Lex) 31% 61% Core lexicon 62% 83% 1 + 2 65% 89% Uitbreiding met corpusmateriaal 87% 98.6%
Lexicon coverage (6: Hooft, historiën) Type coverage Token coverage Modern lexicon (e-Lex) 26% 67% Core lexicon 47% 88% 1 + 2 50% 90% Uitbreiding met corpusmateriaal 58% 96%
Evaluatie van OCR ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
OCR resultaten: word recognition rate 94.9% 94.9% 90.9% Staten Gen., 1826-27 selectie 94.4 % 90.9% 88.8% DPO35 Met het IMPACT lexicon voorhet Nederlands  (case hyphenation) + lange S-probleem Met het IMPACT lexicon voorhet Nederlands  (case hyphenation) Met ABBYY intern Nederlands lexicon Dataset
Een voorbeeld: A. De eerste was de gevaarlykste om de verlei- ding aan 't Hof; de tweede de stilste en veiligste; de derde de zwaarste, daar hy byna drie millioenen harde en onbeschaafde Menschen bestieren moest. A. De  eerde   was de  gevaarlykflti  om de verlei¬ ding aan 't Hof; de tweede de  ftillie  en  veiligde ; de derde de  zwaarde , daar hy byna drie millioenen harde en  onbefchaafde   Menfchen   beftieren  moest. Resultaten: OCR aan het begin van het project:
Retrieval demonstrator ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Más contenido relacionado

Más de IMPACT Centre of Competence

Más de IMPACT Centre of Competence (20)

Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 
Session1 04.florian fink
Session1 04.florian finkSession1 04.florian fink
Session1 04.florian fink
 
Session1 02.anna-maria sichani
Session1 02.anna-maria sichaniSession1 02.anna-maria sichani
Session1 02.anna-maria sichani
 

Computerlexica in OCR en zoekmachines by Katrien Depuydt

  • 1. Computerlexica in OCR en Zoekmachines Katrien Depuydt (Instituut voor Nederlandse Lexicologie, Leiden)
  • 2.
  • 3. Wat is een computerlexicon?
  • 4.
  • 6.
  • 7.  
  • 9.
  • 10. OCR-lexicon: voorbeeld wechgerukt 5 wechgeschickt 6 wechgeven 6 wech-gevoerde 11 wechgevoerde 14 wech-gevoert 59 wechgevoert 98 wechgeworpen 21 wechghenomen 12 wechghevoert 7 wechginck 5 wechloopen 6 wechneemt 11 wechneme 6 wech-nemen 20 wechnemen 74 wechneminge 12 wech-neminge 6 wechrapen 6 wechrucken 6 wechruiming 7 wecht 7 absoluut 8 absoluyt 2 absoluyter 1 absolveren 3 absolverende 1 absorbeeren 1 absorbeert 1 absorberen 1 absorptie 3 absoute 2 abstineeren 1 abstinencie 1 abstinentie 2 abstineren 1 abstrackheyt 1 abstract 7 abstracta 1 abstracte 7 abstracten 4 abstractheid 1 abstractie 1 abstractiën 1 Van het historisch corpus van de DBNL Van het WNT attestation lexicon
  • 11.
  • 12. <?xml version='1.0'?> <!DOCTYPE lexicon SYSTEM 'NL_Structure.dtd'> <lexicon> <lexical_entry><lemma_id>219490</lemma_id> < modern_lemma > aantuilen </modern_lemma> <gloss></gloss> <POS>VRB</POS> <ne_label></ne_label> <language_id></language_id> <portmanteau_lemma_id></portmanteau_lemma_id> <wordform><form_representation> <wordform_id>850026</wordform_id> < written_form > tuyld </written_form> <attestation><id>92141</id> <token_id></token_id> < quote >Verhael ick (<I>t.w. een als vrouw verkleede man</I>) haer mijn min in Vrouwelijcker schynen: Sy acht het boertery, en tuyld daer weer op an , Vermits een Vrou niet op een Vrou verlieven kan,</quote> <derivation_id>0</derivation_id> <document_id>204</document_id> <start_pos>119</start_pos> <end_pos>124</end_pos> </attestation> </form_representation> </wordform>
  • 13. Gereedschappen voor lexiconbouw en toepassing lexica
  • 14. Types variatie (spelling, verbuiging…) uytterlijcste uyterlijkste d'uyterlijke uiterlyke uyterlijcke uiterlijke uyterlijck uiterlyken uiterlijkste uiterlicke wterlicke wterlijcke ulterlijk uiterlyk uiterlijk uyterlick wterlicken d'uyterlijcke uiterlijken uiterlijks wterlijck uytterlicke uitterlijke ujterlijke uytterlijk uyterlycke uyterlicken uijterlicke d'uiterlijcke wtterlijcke wterlyke wtterlijk uuterlick uuterlic uyterlijke uyterlijcken uyterlicke d'uiterlyke wterlijke vuyterlijcke uuterlycke uuterlicke wterlijken uyterlijcksten uuyterlicke uuyterlick uuyterlycke uytterlijcke uytterlycke uytterlick vuytterlicke uiterlijker uyterlyck uterliek wterlijcken uiterlijkst uitterlijk uytterlijcken uyterlyk wterlick uutterlijck uuyterlicken uyttelijck uijterlijk uytterlijck uuterlijck uiterlick uitterlyk uuyterlic uuyterlyck uuyterlijck uiterlijck uytterlyck uterlyc wterlijk I werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlyt wereldts vveerelts waereld weerelden waerelden weerlt werlt werelds sweerels zwerlys swarels swerelts werelts swerrels weirelts tsweerelds werret vverelt werlts werrelt worreld werlden wareld weirelt weireld waerelt werreld werld vvereld weerelts werlde tswerels werreldts weereldt wereldje waereldje weurlt wald weëled II (patronen om variatie te voorspellen) (een aantal voorspelbaar met patronen, andere moet je uit een lexicon halen)
  • 15.
  • 16.
  • 17.
  • 18. Een aantal resulaten voor het Nederlands
  • 19. Ground truth data: Nederlands Type and genre # woorden Gold Standard Boek 300k Random Set Boeken 340k Random Set Staten Generaal 2.5M Gold Standard Staten Generaal 500k Gold Standard Kranten 1 3.4M Gold Standard Kranten 2 170k Random Set Kranten 3.2M totaal 13.1M
  • 20. Lexicon dekking (1: ground truth boeken) Type coverage Token coverage Modern lexicon (e-Lex) 46% 76% Core general lexicon 56% 84% 1 + 2 63% 89% Uitbreiding met corpus-materiaal 78% 95%
  • 21. Lexicon dekking (2: gt kranten 18 e -19 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 40% 83% Core general lexicon 41% 84% 1 + 2 51% 89% Uitbreiding met corpus-materiaal 62% 95%
  • 22. Lexicon coverage (3: gt Staten Generaal 19 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 51% 89% Core general lexicon 47% 88% 1 + 2 58% 93% Uitbreiding met corpus-materiaal 68% 97%
  • 23. Lexicon coverage (4: gt Staten Generaal 20 e e.) Type coverage Token coverage Modern lexicon (e-Lex) 70% 93% Core general lexicon 66% 93% 1 + 2 76% 96% Uitbreiding met corpusmateriaal 81% 98%
  • 24. Lexicon coverage (5: Genesis, 1637 bijbel) Type coverage Token coverage Modern lexicon (e-Lex) 31% 61% Core lexicon 62% 83% 1 + 2 65% 89% Uitbreiding met corpusmateriaal 87% 98.6%
  • 25. Lexicon coverage (6: Hooft, historiën) Type coverage Token coverage Modern lexicon (e-Lex) 26% 67% Core lexicon 47% 88% 1 + 2 50% 90% Uitbreiding met corpusmateriaal 58% 96%
  • 26.
  • 27. OCR resultaten: word recognition rate 94.9% 94.9% 90.9% Staten Gen., 1826-27 selectie 94.4 % 90.9% 88.8% DPO35 Met het IMPACT lexicon voorhet Nederlands (case hyphenation) + lange S-probleem Met het IMPACT lexicon voorhet Nederlands (case hyphenation) Met ABBYY intern Nederlands lexicon Dataset
  • 28. Een voorbeeld: A. De eerste was de gevaarlykste om de verlei- ding aan 't Hof; de tweede de stilste en veiligste; de derde de zwaarste, daar hy byna drie millioenen harde en onbeschaafde Menschen bestieren moest. A. De eerde was de gevaarlykflti om de verlei¬ ding aan 't Hof; de tweede de ftillie en veiligde ; de derde de zwaarde , daar hy byna drie millioenen harde en onbefchaafde Menfchen beftieren moest. Resultaten: OCR aan het begin van het project:
  • 29.

Notas del editor

  1. We are a lexicological institute and this is what we do. Of course, it is not what we need for OCR and simple retrieval. I introduce it anyway because we can (and do) use our dictionaries for lexicon construction.
  2. We will show some of the building blocks we are working on
  3. It is impossible to extract all possible word forms from the limited amount of available reliably transcribed historical text We need mechanisms to extend the lexicon and to be able to assess the plausibility of “ hypothetical ” words without previous attestations, i.e. words we have not seen before. Supporting data for these mechanisms have to be present in the database, such as:
  4. The
  5. The
  6. The
  7. The
  8. The
  9. The