Projektkoordination
Staatsbibliothek zu Berlin - Preußischer Kulturbesitz
Projektpartner
Staatsbibliothek zu Berlin, Deutschland
National Library of Estonia, Estland
University of Helsinki, National Library of Finland, Finnland
National Library of France, Frankreich
CCS Content Conversion Specialists GmbH, Deutschland
National Library of Latvia, Lettland
University of Beograd, Serbien
Dr. Friedrich Tessmann Bibliothek, Italien
University of Salford, Großbritannien
National Library of the Netherlands, Niederlande
Österreichische Nationalbibliothek, Österreich
Staats- und Universitätsbibliothek Hamburg, Deutschland
National Library of Poland, Polen
LIBER Foundation, Niederlande
National Library of Turkey, Türkei
Universität Innsbruck, Österreich
The British Library, Großbritannien
The European Library, Niederlande
Assoziierte Partner
National Library of Czech Republic, Tschechische Republik
National and University Library Ljubljana, Slowenien
National and University Library of Iceland, Island
National and University Library Zagreb, Kroatien
St. Cyril and Methodius National Library, Bulgarien
Lucian Blaga Central University Library, Cluj-Napoca, Rumänien
National Library of Wales, Großbritannien
National Library of Portugal, Portugal
National Library of Spain, Spanien
National Library of Belgium, Belgien
National Library of Luxembourg, Luxemburg
Ansprechpartner in der Abteilung Forschung und Entwicklung
Mag. Werner Urdl (werner.urdl@onb.ac.at )
Projektdauer
Februar 2012 bis Jänner 2015
Finanzierung
Kofinanzierung: Competitiveness and Innovation Framework Programme (CIP), ICT Policy Support Programme der Europäischen Kommission
Kurzbeschreibung
Im Rahmen des Europeana Newspapers Projekts machen siebzehn europäische Partnerinstitutionen in den nächsten drei Jahren mehr als 18 Millionen Zeitungsseiten über das Online-Portal Europeana zugänglich
Das Hauptziel des Projekts besteht darin, den NutzerInnen die Zeitungsinhalte über einen Content Browser mit spezieller Suchoberfläche direkt zugänglich zu machen. Der Content Browser wird in das Europeana Portal integriert und das Suchen nach einzelnen Wörtern oder nach Wortfolgen innerhalb der Zeitungstexte ermöglichen. Der direkte Zugriff auf die digitalisierten Zeitungsinhalte erspart den Nutzern zudem den Gang in Sonderlesesäle, in denen historische Zeitungen für gewöhnlich nur unter strengen Nutzungsbedingungen bereitgestellt werden.
Das Projekt konzentriert sich auf die spezifischen technischen Herausforderungen bei der Aufbereitung digitalisierter Zeitungen wie Optical Character Recognition (OCR), Optical Layout Recognition (OLR), Named Entity Recognition (NER), Artikelsegmentierung sowie der Klassifizierung von Seiten. OCR bezeichnet die elektronische Umwandlung gescannter Texte in maschinen-lesbare Zeichen. OLR ermöglicht die Identifizierung und Trennung einzelner Artikel auf einer gescannten Zeitungsseite mit mehreren Artikeln. Durch NER können die Zeitungstexte nach normierten Einheiten wie Personennamen, Körperschaften oder Geographika durchsucht werden.
Im Rahmen des Projekts werden außerdem die Qualität der genannten technischen Verfahren evaluiert sowie Empfehlungen für die Umwandlung lokaler Metadaten in das Europeana Data Model entwickelt, indem ein Netzwerk aus privaten und öffentlichen Einrichtung aufgebaut wird.
Rolle der Österreichischen Nationalbibliothek
Die Österreichische Nationalbibliothek liefert 1,6 Millionen digitalisierte Zeitungsseiten und Metadaten zu rund 6 Millionen Zeitungsseiten an das Online Portal der Europeana.
Projektwebsite
Forschung und Entwicklung
AbteilungsleiterMag. Max Kaiser
Josefsplatz 1
A-1015 Wien
(+43 1) 534 10 370