Europeana Newspapers: A Gateway to European Newspapers Online

Projektkoordination

Staatsbibliothek zu Berlin - Preußischer Kulturbesitz

Projektpartner

Staatsbibliothek zu Berlin, Deutschland
National Library of Estonia, Estland
University of Helsinki, National Library of Finland, Finnland
National Library of France, Frankreich
CCS Content Conversion Specialists GmbH, Deutschland
National Library of Latvia, Lettland
University of Beograd, Serbien
Dr. Friedrich Tessmann Bibliothek, Italien
University of Salford, Großbritannien
National Library of the Netherlands, Niederlande
Österreichische Nationalbibliothek, Österreich
Staats- und Universitätsbibliothek Hamburg, Deutschland
National Library of Poland, Polen
LIBER Foundation, Niederlande
National Library of Turkey, Türkei
Universität Innsbruck, Österreich
The British Library, Großbritannien
The European Library, Niederlande

Assoziierte Partner

National Library of Czech Republic, Tschechische Republik
National and University Library Ljubljana, Slowenien
National and University Library of Iceland, Island
National and University Library Zagreb, Kroatien
St. Cyril and Methodius National Library, Bulgarien
Lucian Blaga Central University Library, Cluj-Napoca, Rumänien
National Library of Wales, Großbritannien
National Library of Portugal, Portugal
National Library of Spain, Spanien
National Library of Belgium, Belgien
National Library of Luxembourg, Luxemburg

Ansprechpartner in der Abteilung Forschung und Entwicklung

Martin Schaller (martin.schaller@onb.ac.at )

Projektdauer

Februar 2012 bis Jänner 2015

Finanzierung

Kofinanzierung: Competitiveness and Innovation Framework Programme (CIP), ICT Policy Support Programme der Europäischen Kommission

Kurzbeschreibung

Im Rahmen des Europeana Newspapers Projekts machen achtzehn europäische Partnerinstitutionen mehr als 18 Millionen Zeitungsseiten über das Online-Portal Europeana zugänglich.

Das Hauptziel des Projekts besteht darin, den NutzerInnen die Zeitungsinhalte über einen Content Browser mit spezieller Suchoberfläche direkt zugänglich zu machen. Der Content Browser wird in das Europeana Portal integriert und das Suchen nach einzelnen Wörtern oder nach Wortfolgen innerhalb der Zeitungstexte ermöglichen. Der direkte Zugriff auf die digitalisierten Zeitungsinhalte erspart den Nutzern zudem den Gang in Sonderlesesäle, in denen historische Zeitungen für gewöhnlich nur unter strengen Nutzungsbedingungen bereitgestellt werden.

Das Projekt konzentriert sich auf die spezifischen technischen Herausforderungen bei der Aufbereitung digitalisierter Zeitungen wie Optical Character Recognition (OCR), Optical Layout Recognition (OLR), Named Entity Recognition (NER), Artikelsegmentierung sowie der Klassifizierung von Seiten. OCR bezeichnet die elektronische Umwandlung gescannter Texte in maschinen-lesbare Zeichen. OLR ermöglicht die Identifizierung und Trennung einzelner Artikel auf einer gescannten Zeitungsseite mit mehreren Artikeln. Durch NER können die Zeitungstexte nach normierten Einheiten wie Personennamen, Körperschaften oder Geographika durchsucht werden.

Im Rahmen des Projekts wird außerdem die Qualität der genannten technischen Verfahren evaluiert sowie Empfehlungen für die Umwandlung lokaler Metadaten in das Europeana Data Model entwickelt, indem ein Netzwerk aus privaten und öffentlichen Einrichtung aufgebaut wird.

Rolle der Österreichischen Nationalbibliothek

Die Österreichische Nationalbibliothek liefert 1,6 Millionen digitalisierte Zeitungsseiten und Metadaten zu rund 6 Millionen Zeitungsseiten an das Online Portal der Europeana.

Projektwebsite

http://www.europeana-newspapers.eu/

Forschung und Entwicklung

Abteilungsleiter
Mag. Max Kaiser
Josefsplatz 1
A-1015 Wien
(+43 1) 534 10 370

max.kaiser@onb.ac.at

Kataloge und Datenbanken

Digitaler Lesesaal

Benützung

Digitale Bibliothek