Projektkoordination
Staatsbibliothek zu Berlin - Preußischer Kulturbesitz
Projektpartner
Staatsbibliothek zu Berlin, Deutschland
        National Library of Estonia, Estland
        University of Helsinki, National Library of Finland, Finnland
        National Library of France, Frankreich
        CCS Content Conversion Specialists GmbH, Deutschland
        National Library of Latvia, Lettland
        University of Beograd, Serbien
        Dr. Friedrich Tessmann Bibliothek, Italien
        University of Salford, Großbritannien
        National Library of the Netherlands, Niederlande
        Österreichische Nationalbibliothek, Österreich
        Staats- und Universitätsbibliothek Hamburg, Deutschland
        National Library of Poland, Polen
        LIBER Foundation, Niederlande
        National Library of Turkey, Türkei
        Universität Innsbruck, Österreich
        The British Library, Großbritannien
        The European Library, Niederlande
Assoziierte Partner
National Library of Czech Republic, Tschechische Republik
        National and University Library Ljubljana, Slowenien
        National and University Library of Iceland, Island
        National and University Library Zagreb, Kroatien
        St. Cyril and Methodius National Library, Bulgarien
        Lucian Blaga Central University Library, Cluj-Napoca, Rumänien
        National Library of Wales, Großbritannien
        National Library of Portugal, Portugal
        National Library of Spain, Spanien
        National Library of Belgium, Belgien
        National Library of Luxembourg, Luxemburg
Ansprechpartner in der Abteilung Forschung und Entwicklung
Mag. Werner Urdl (werner.urdl@onb.ac.at )
Projektdauer
Februar 2012 bis Jänner 2015
Finanzierung
Kofinanzierung: Competitiveness and Innovation Framework Programme (CIP), ICT Policy Support Programme der Europäischen Kommission
Kurzbeschreibung
Im Rahmen des Europeana Newspapers Projekts machen siebzehn europäische Partnerinstitutionen in den nächsten drei Jahren mehr als 18 Millionen Zeitungsseiten über das Online-Portal Europeana zugänglich
Das Hauptziel des Projekts besteht darin, den NutzerInnen die Zeitungsinhalte über einen Content Browser mit spezieller Suchoberfläche direkt zugänglich zu machen. Der Content Browser wird in das Europeana Portal integriert und das Suchen nach einzelnen Wörtern oder nach Wortfolgen innerhalb der Zeitungstexte ermöglichen. Der direkte Zugriff auf die digitalisierten Zeitungsinhalte erspart den Nutzern zudem den Gang in Sonderlesesäle, in denen historische Zeitungen für gewöhnlich nur unter strengen Nutzungsbedingungen bereitgestellt werden.
Das Projekt konzentriert sich auf die spezifischen technischen Herausforderungen bei der Aufbereitung digitalisierter Zeitungen wie Optical Character Recognition (OCR), Optical Layout Recognition (OLR), Named Entity Recognition (NER), Artikelsegmentierung sowie der Klassifizierung von Seiten. OCR bezeichnet die elektronische Umwandlung gescannter Texte in maschinen-lesbare Zeichen. OLR ermöglicht die Identifizierung und Trennung einzelner Artikel auf einer gescannten Zeitungsseite mit mehreren Artikeln. Durch NER können die Zeitungstexte nach normierten Einheiten wie Personennamen, Körperschaften oder Geographika durchsucht werden.
Im Rahmen des Projekts werden außerdem die Qualität der genannten technischen Verfahren evaluiert sowie Empfehlungen für die Umwandlung lokaler Metadaten in das Europeana Data Model entwickelt, indem ein Netzwerk aus privaten und öffentlichen Einrichtung aufgebaut wird.
Rolle der Österreichischen Nationalbibliothek
Die Österreichische Nationalbibliothek liefert 1,6 Millionen digitalisierte Zeitungsseiten und Metadaten zu rund 6 Millionen Zeitungsseiten an das Online Portal der Europeana.
Projektwebsite
Forschung und Entwicklung
AbteilungsleiterMag. Max Kaiser
Josefsplatz 1
A-1015 Wien
(+43 1) 534 10 370
 
                