Projektziele
Hauptziel ist die Aggregation und Verbesserung 10 Millionen digitalisierter Zeitungsseiten für die Europäische Bibliothek und Europeana durch:
- Nutzung innovativer Methoden zur Erkennung der Volltexte (OCR) und der Artikel- und Layoutstruktur (OLR)
- Anreicherung von OCR-Ergebnissen mit Strukturinformationen (z.B. Erkennung von Artikelüberschriften)
- Anwendung spezieller Client-Software zur manuellen Verifizierung und Korrektur der Ergebnisse
- Automatische Indexierung von Personen- und Ortseigennamen in den Dokumenten für gezieltere Suchanfragen
- Verbesserung der Wiederauffindung und Präsentation der digitalen Objekte
- Evaluierung von OCR-Ergebnissen und Erarbeitung von Best Practice Empfehlungen
Rolle der Österreichischen Nationalbibliothek
- Auswahl und Vorbereitung der digitalisierten Tageszeitungen für die Volltexterfassung (OCR)
- Qualitätskontrolle der im Projekt erstellten OCR-Daten
- Bereitstellung der Daten im virtuellen Zeitungslesesaal ANNO und über die europäische digitale Bibliothek Europeana
Projektdauer
01.02.2012 bis 31.01.2015
Projektwebsite
Zur Zeit in Arbeit
Projektkoordinator
Staatsbibliothek zu Berlin
Projektträger
Rahmenprogramm für Wettbewerbsfähigkeit und Innovation (CIP) (2007-2013)
Projektpartner
Staatsbibliothek zu Berlin
Koninklijke Bibliotheek (Nationalbibliothek der Niederlande)
Estnische Nationalbibliothek
Österreichische Nationalbibliothek
Finnische Nationalbibliothek
Staats- und Universitätsbibliothek Hamburg
Bibliotheque nationale de France
Polnische Nationalbibliothek
Pattern Recognition and Image Analysis Laboratory, University of Salford
CCS Content Conversion Specialists GmbH
Stichting LIBER
Lettische Nationalbibliothek
Türkische Nationalbibliothek
Universitätsbibliothek Belgrad
Universitätsbibliothek Innsbruck
Landesbibliothek Dr. Friedrich Tessmann
The British Library
Forschung und Entwicklung
AbteilungsleiterMag. Max Kaiser
Josefsplatz 1
A-1015 Wien
(+43 1) 534 10 370