Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

429 visualizaciones

Publicado el

Workshop Texterfassung historischer Dokumente, 6-7 September 2016, Berlin, Germany.

Publicado en: Tecnología
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí
  • Sé el primero en recomendar esto

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

  1. 1. Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker
  2. 2. Inhalt 1. Überblick Zeitungsdigitalisierung 2. Stand der Technik 3. Qualität a) OCR / Texterkennung b) OLR / Layoutanalyse 4. Herausforderungen 5. Ausblick
  3. 3. Zeitungsdigitalisierung • EU: Europeana Newspapers (12 Mio. Seiten) – ANNO Austrian Newspapers Online (17 Mio.) – KBNL Historische Kranten (10 Mio.) • US: Chronicling America (10 Mio.) • UK: British Newspaper Archive (15 Mio.) • AU: Trove Newspapers (16,5 Mio.) • DE: DFG Pilotprojekt Zeitungsdigitalisierung Massendigitalisierung von Zeitungen ist Realität  OCR inzwischen auch bei Zeitungen Standard  Meist Retro-Digitalisierung von Mikrofilm
  4. 4. Stand der Technik • Üblicherweise: ABBYY FineReader + X – CCS docWORKS – Fraunhofer IAIS – GFaI Dacapo – P.P.S. – ZISSOR – uvm. • Open Source Alternativen?
  5. 5. Formate • Üblicherweise: METS (Struktur) + ALTO (OCR) • „In the wild“: – PDF (mit/ohne eingebetteten Volltext) – hOCR (Google Tesseract/OCRopy) – TEI (Text Encoding Initiative) – Proprietäre Formate, XML-basiert (z.B. Olive) – Plain text, keine Strukturdaten/Koordinaten – MS Word .DOC (ja, wirklich…)
  6. 6. Qualität: Texterkennung • Europeana Newspapers Evaluation: OCR Qualität von rund 80% Wortgenauigkeit 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language
  7. 7. Qualität: Layoutanalyse (I) • ICDAR Competition HNLA2013 58.3% 83.7% 83.2% 85.6% 86.4% 86.9% 85.5% 50% 60% 70% 80% 90% 100% Tesseract3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 SuccessRate Segmentation
  8. 8. Qualität: Layoutanalyse (II) • ICDAR Competition HNLA2013 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013 Fraunhofer 2011 Missclas- sification False Detection Miss/ Partial Miss Split Merge
  9. 9. Besondere Herausforderungen • Qualität der Vorlage (Original) • Qualität Mikrofilmdigitalisierung • Komplexität Layout und Struktur • Artikelsegmentierung, teilweise über mehrere Seiten • Tabellen • Werbung, Anzeigen
  10. 10. Layoutanalyse • Artikel, Überschriften, Abbildungen, …
  11. 11. Artikelsegmentierung • Inhalte und Reihenfolge von Artikeln erfassen
  12. 12. Tabellen • Bsp. HEBIS Projekt „Historische Finanzdaten“
  13. 13. Werbung, Anzeigen • Vielfalt an Schriftarten, grafischen Elementen
  14. 14. Strukturanalyse (I) • Deep structuring (Mühlberger, 2016)
  15. 15. Strukturanalyse (II) • Structify (Universität Innsbruck)
  16. 16. Ausblick • Verbesserte Layoutanalysewerkzeuge speziell für (historische) Zeitungen - bevorzugt Open Source • Nachkorrekturmöglichkeiten für Layouterkennung und -klassifikation • Modelle und Werkzeuge zur inhaltlichen Tiefenstrukturierung
  17. 17. Danke für ihre Aufmerksamkeit! Fragen? Clemens Neudecker Staatsbibliothek zu Berlin @cneudecker

×