Suchmodus

nach Urls (z.B. http://www.onb.ac.at) oder im Volltext (z.B. Buch)

nach Urls (z.B. http://www.onb.ac.at) oder im Domainnamen (z.B. onb)

im Volltext (z.B. http://www.onb.ac.at oder Buch), Resultat flach

im Volltext (z.B. http://www.onb.ac.at oder Buch), Resultat nach Domainnamen gruppiert

URL-Suche

Diese Suche	zeigt alle Versionen der Url ...
http://www.onb.ac.at	http://www.onb.ac.at
http://www.onb.ac.at/images/onb_logo.png	http://www.onb.ac.at/images/onb_logo.png

Volltextsuche

Diese Suche	findet z.B. Seiten mit ...
Österreichische Nationalbibliothek Österreichische AND Nationalbibliothek	"Österreichische Webseiten" und "in der Nationalbibliothek"
Österreichische OR Nationalbibliothek	"Österreichische Webseiten" oder "in der Nationalbibliothek"
"Österreichische Nationalbibliothek"	"Österreichische Nationalbibliothek" aber nicht "in der Nationalbibliothek"
"Österreichische Nationalbibliothek" NOT Prunksaal	"Österreichische Nationalbibliothek" aber nicht "Prunksaal"
"http://www.onb.ac.at"	"http://www.onb.ac.at"

Webarchiv Österreich

Wir archivieren Webseiten im österreichischen Webspace. Suchen Sie hier in unserem Archiv.

Die Anzeige der Archivkopien ist aufgrund des österreichischen Mediengesetzes eingeschränkt. Der Zugriff auf die gespeicherten online Medien ist nur vor Ort in der Bibliothek möglich.

Ziehen Sie die folgenden Schaltflächen in Ihre Lesezeichen-Symbolleiste und Sie können mit einem Klick nach der im Browser angezeigten Webseite suchen oder diese nominieren

Url suchen Url nominieren

Suchen Sie nach Objekten oder in Texten

Für die Suche werden archivierte Webseiten im Zeitraum von berücksichtigt.

Versionen

Andere Webarchive

Als Seeds werden Webseitenadressen bezeichnet, die als Ausgangspunkte für Crawls dienen. Sie werden zu speziellen Themen oder Ereignissen von Kurator*innen zusammengestellt und können hier im Volltext abgefragt werden.

Alle

Laufende Crawls

Event Crawls

Diese Gruppen von Webseiten wurden zum Thema Frau/Gender von Kurator*innen zusammengestellt.

Das Team der Webarchivierung sammelt seit März 2009 österreichische Webseiten. Da das World Wide Web als Teil unseres kulturellen Erbes gilt, wollen wir online Medien erhalten, auch wenn sie bereits aus dem Live Web verschwunden sind. Wir archivieren die gesamte .at Domäne und ausgewählte Webseiten mit Österreich-Bezug.

Im österreichischen Mediengesetz ist geregelt, was wir sammeln und anzeigen dürfen. Der online Zugriff auf Archivkopien ist aufgrund des Gesetzes eingeschränkt. Sie können die gespeicherten Webseiten vor Ort in der Bibliothek ansehen.

Statistik

Meilensteine

Vier Milliarden Objekte im Webarchiv November 2020
10 Jahre Webarchiv März 2019
Online Zugriff auf das Webarchiv Herbst 2016
Eine Milliarde Objekte im Webarchiv November 2012
Zugriff auf das Webarchiv in der Bibliothek Juli 2010
Erster Domain Crawl Herbst 2009
Mediengesetznovelle Mediengesetznovelle März 2009
Projektstart Februar 2008

Browsertrix-Crawling-Profile

04.07.2024 Forschungsblog

Autor: Antares Reich

Wie funktionieren Webcrawls bei passwortgeschützten Inhalten, z.B. Medienportalen oder Social Media?

Abbildung 1: Abbildung, die einen Anmeldeprozess beschreibt.

Durch aktuelle Umbrüche in der allgemeinen Kommunikation und im Publikationswesen werden Online-Inhalte verstärkt in passwortgeschützte Bereiche von Websites verlagert. Dies betrifft vor allem Social Media und Medienportale, die ihre Inhalte vermehrt kostenpflichtig hinter sogenannten Paywalls anbieten. Webarchive müssen auf diese Veränderungen reagieren, indem sie neue Crawlertechnologien einsetzen.

Dieser Artikel ist die Fortsetzung des letzten Blogbeitrags aus dem Webarchiv: "Browserbasiertes Crawling. Die Evolution des Webs"¹, in dem der Browsertrix Crawler und die Browsertrix Profile vorgestellt werden. Ein Browsertrix Profile ist ein Startpunkt für einen Crawl, es speichert Sitzungsinformationen wie Cookies und kann verwendet werden, um eine Website als eingeloggte*r Benutzer*in zu archivieren. Auf vielen Websites wird der Inhalt nur für eingeloggte Benutzer*innen vollständig angezeigt. Daher ist es für ein Webarchiv sehr wichtig, dass man während des Archivierungsprozesses eingeloggt ist, um an den gesamten Inhalt zu gelangen. In einem Webarchiv laufen sehr viele Crawler parallel und deswegen war es erforderlich, das Profil-Handling zu automatisieren.

Das Titelbild zeigt den Ablauf, um die im Browser gespeicherten Nutzer*innen-Daten (Name und Passwort) für einen Login zu verwenden. Voraussetzung dafür ist, dass die Login-Informationen zuvor im Browser gespeichert wurden. Wenn auf einer Website mit hinterlegten Login-Informationen das E-Mail-Feld angeklickt wird, zeigt der Browser ein Drop-Down mit dem, mit einem einzigen Klick, die Login-Informationen in dem Formular eingetragen werden. Genau diese Schritte – von Website aufrufen, das Login Feld anklicken, die gespeicherten Login Daten aufrufen und schließlich den Login Button zu klicken – sollten von einem Programm automatisch durchgeführt werden.

Beschränkungen für Browsertrix-Crawling-Profile

Vor Betrachtung der gesamten Prozesskette ist es wichtig, auch die Einschränkungen und Probleme für eingeloggte Profile zu kennen:

1. Sitzungen/Cookies haben ein Enddatum und werden automatisch beendet, wenn dieses Datum überschritten ist.

2. Websites werden laufend überarbeitet bzw. aktualisiert und Sessions können dadurch ungültig werden.

3. Bot-Detektion-Tools können den Zugriff auf Websites automatisiert beschränken.

Automatisierung für Browsertrix-Crawling-Profile

Es gibt viele Ansätze, wie die Erstellung von Browsertrix-Profilen automatisiert werden kann, einer wird sogar vom Browsertrix-Crawler selbst geliefert: Die Automatisierte Profilerstellung für die Benutzeranmeldung².

Aber aus einigen Gründen, z.B. wenn Websites durch Cookie-Consent-Boxen blockiert werden, haben wir uns dazu entschlossen, unser eigenes automatisiertes System zu entwickeln und verwenden dafür die folgenden Technologien:

Selenium - Ein Testautomatisierungs-Framework³
Sikuli API - Ein Framework zur Bilderkennung⁴
Xvfb - Bildschirmvirtualisierungsanwendung für Headless-Anwendungen

Menschliche Interaktion

Um besser verstehen zu können, was die Automatisierung genau bringt, wollen wir die Interaktionen nachvollziehen, die für die Wartung der Browser-Profile bisher notwendig waren. Das Profile-Validierungsprogramm ist schon seit Mitte 2023 im Einsatz und hatte bereits ursprünglich die Aufgabe, zu erkennen, wenn ein Profil invalide wurde und anschließend eine Benachrichtigung per E-Mail zu senden, welches Profil invalide wurde. Dieses Programm startet nun stattdessen ein eigenes Software-Programm (Reinit, siehe unten Automatisierungskette, Schritt 3). Zum neuen Initialisieren des Profils mussten bisher zahlreiche aufwändige manuelle Schritte ausgeführt werden.

Headless Mode – ohne Kopf? Ohne Bildschirm!

Da ein Crawler auf einem Server läuft, hat er in der Regel keine Bildschirme angeschlossen. Das gleiche gilt für andere Ein-/Ausgabegeräte wie Maus oder Tastatur. In der IT wird ein solches Gerät “Headless” genannt. Dies ist normalerweise nicht erwähnenswert, aber in unserem Fall, wenn die menschliche Interaktion mit einer Webapplikation durch ein Programm ersetzt wird, muss diese Interaktion auf dem nicht vorhandenen Bildschirm gelöst werden. Es muss also ein virtueller Bildschirm gestartet werden, bevor die anderen Komponenten so arbeiten können, wie sie sollen. Dazu mussten auf den jeweiligen Websites Bildbereiche, mit denen interagiert werden soll, mit einem Screenshot Tool ausgeschnitten werden, wie zum Beispiel das Login-Feld oder ein Akzeptieren-Button. Diese kleinen Bildausschnitte müssen von Sikuli auf dem virtuellen Monitor gefunden, quasi “gesehen”, werden können.

Erwähnenswert ist, dass auch auf einem virtualisierten Bildschirm die Bildschirmauflösung und die Farbtiefe eine gravierende Rolle spielen und es wichtig ist, die gleiche Farbtiefe auf dem (realen) Bildschirm zu verwenden, auf dem die Bilder vorbereitet werden, wie auf dem virtuellen Bildschirm, auf dem diese Bilder gesucht und angeklickt werden.

Die Automatisierungskette

Die gesamte Automatisierungskette reicht von der Profilvalidierung bis zur Neuinitialisierung des Profils und wird in der folgenden Abbildung mit allen notwendigen Schritten beschrieben.

Abbildung 2: Prozess-Kette von automatisierter Re-Initialisierung der Browsertrix-Profile

Schritt 0: Profil wird invalide

Dieser Schritt ist passiv und passiert nicht zwingend zur Laufzeit eines Crawls; er wird nur durch die Session und Cookie Definitionen der Website, die archiviert werden soll, gesteuert.

Schritt 1: Profilvalidierung

Diese Aufgabe hat nur ein Ziel: zu überprüfen, ob das Profil noch angemeldet ist. Dazu wird eine tiefenlose Archivierung (siehe Crawling – Scope letzter Beitrag, Tiefe 0 in diesem Fall) einer Seite hinter dem Login durchgeführt. Wenn die Seite archiviert wurde, wird der Inhalt des WARC-Files analysiert und wenn der Crawler z.B. zum Login-Formular umgeleitet wurde oder ein bestimmtes Muster wie der spezifische Benutzername oder die E-Mail-Adresse nicht erfasst wurde, wird das Profil als ungültig markiert.

Schritt 2: Vorbereitungen zur Re-Initialisierung

Auf der Crawling-Maschine, die das spezifische Browser-Profil verwendet, wird nun der virtuelle Monitor mit Xfvb und der Browsertrix-Crawler im createProfile-Modus gestartet, der eine mit einem Browser aufrufbare Schnittstelle öffnet.

Schritt 3: Starten des Reinit-Programms

Als nächstes wird das Reinit-Java-Programm gestartet. Es wird etwas verzögert gestartet, um Browsertrix Zeit zu geben, die Verbindung zu öffnen. Das Java-Programm öffnet Chrome mit Selenium (um den Browser durch das Java Programm interaktiv zu machen) und geht an die createProfile Adresse auf dem Localhost.

Schritt 4: Die Magie von Sikuli

Nach der Navigation zu einem Anmeldeformular startet Sikuli und sucht auf dem Bildschirm nach Bildern. Wenn das gesuchte Bild gefunden wird, klickt Sikuli darauf oder interagiert mit dem Formular über die Tastatur. Die Fehlerbedingung ist, dass am Ende des automatischen Anmeldevorgangs ein Verifizierungsbild hinter dem Login gefunden werden muss (meistens das eigene Profil-Bild).

Schritt 5: Prozess Abschluss – neues Profil oder Benachrichtigung

Wenn Sikuli das Verifizierungsbild nicht finden kann, wird das gesamte Java-Programm als fehlgeschlagen zurückgegeben und eine Benachrichtigung gesendet. Falls Sikuli das Verifizierungsbild im Login-Bereich einer Website finden kann, speichert das Programm den Status der Sitzung in einem neuen Browsertrix-Profil und kopiert es nach der Rückkehr des Java-Prozesses an die richtige Stelle, um es beim nächsten geplanten Crawl zu verwenden.

Unser bestehender Workflow wurde auf der IIPC-Web-Archiving-Conference 2024 in Paris im Workshop “Unlocking Access: Navigating Paywalls and Ensuring Quality in Web Crawling” vorgestellt und wird dieses Jahr auch auf dem Videoportal YouTube veröffentlicht.

Die Österreichische Nationalbibliothek bedankt sich sehr herzlich bei der Wiener Städtischen Versicherung für die Unterstützung des Webarchivs Österreich.

Über den Autor: Antares Reich ist Crawl Engineer des Webarchivs Österreich an der Österreichischen Nationalbibliothek.

Fußnoten:

¹ Reich, Antares (2023): "Browser Based Crawling. Die Evolution des Webs", [Online] https://www.onb.ac.at/mehr/blogs/detail/browser-based-crawling-die-evolution-des-webs [15.6.2024]

²Entwicklungsprojekt Browsertrix Crawler auf GitHub, [Online] https://github.com/webrecorder/browsertrix-crawler [15.6.2024]

³ Selenium automatisiert Browser, [Online] https://www.selenium.dev/ [15.6.2024]

⁴ Raimund Hocke SikuliX, [Online] https://web.archive.org/web/20240217083947/http://sikulix.com/ [15.6.2024]

Browser Based Crawling. Die Evolution des Webs

29.11.2023 Forschungsblog

Autor: Antares Reich

Das Webarchiv Österreich ist Teil einer internationalen Gemeinschaft, dem International Internet Preservation Consortium (IIPC)¹. Neben jährlichen Konferenzen, Schulungen und Diskussionen werden durch die IIPC auch Projekte finanziert. Dazu zählt etwa der Browsertrix Crawler inklusive einer Management Oberfläche der Browsertrix Cloud.²

In den letzten Jahren hat sich eine neue Generation an Programmen zum Archivieren des Webs etabliert und damit auch ein neuer Begriff: "Browser Based Crawling". Wobei "Crawling" das automatisierte "Ernten" von Webseiten bezeichnet, also das Sichern von Websiten in einem Archivformat (ARC, WARC, WACZ)³. Archivformate können durch andere Software wieder gelesen und in einem Webbrowser zur Darstellung gebracht werden. Im österreichischen Webarchiv sichern wir aktuell im WARC-Format, zum Darstellen unserer Archiv Dateien benutzen wir die Wayback Machine⁴des Internet-Archives. Um Websites korrekt archivieren zu können ist es von fundamentaler Bedeutung, dass die Erntesoftware, der sogenannte Crawler, mit der zu archivierende Website erfolgreich interagieren kann. Auch der Mensch muss mit einer Website in Interaktion treten, um an die gesuchten Inhalte zu gelangen. Jede*r von uns macht dies alltäglich und nutzt dazu eine spezielle Software: einen Webbrowser. Dies ist seit Beginn des Webs so, doch wurden damals noch (meist) pure HTML/CSS/Javascript Dateien durch den Browser interpretiert. Moderne Websites, aber auch die Browser selbst, wurden seither immer komplexer. Zum einen werden Seiten dynamisch generiert, also große Teile der Inhalte aus Datenbanken erstellt. Zum anderen werden die HTML-Elemente der Websites immer rudimentärer und die tatsächlich sichtbare Seite durch interaktive Veränderung der Inhalte durch Skripte erstellt. Sowohl die Interpretation, als auch die Ausführung dieser Skripte findet im Browser statt.

Browser Based Crawler - Browsertrix

Es existiert bereits eine Vielzahl an Archivierungssoftware die sich selbst als "Browser Based" bezeichnet. Für das österreichische Web hat sich Browsertrix als Crawler der Wahl herausgestellt, der im Folgenden näher beschreiben wird.

Diese Technologie arbeitet genauso wie ein*e menschliche*r Websitennutzer*in. Der Crawler öffnet einen Browser, wie etwa Chrome oder Firefox, und besucht eine Website. Dann beginnt er weitere Links zu extrahieren, um anschließend auf den gesamten Inhalt der geladenen Seite, wie Text, Bilder, Videos und Buttons zu klicken und ihn nachzuverfolgen. Dies erfolgt mit Skripten, die direkt im Browser des Crawlers ausgeführt werden: die sogenannten "Behaviour" (Verhaltensweisen). Behaviour für Browsertrix werden mittels der Puppeteer Bibliothek⁵ ausgeführt und können sowohl angepasst als auch grundsätzlich selbst geschrieben werden. Dies ermöglicht es dem Crawler für unterschiedliche Websites unterschiedliche seitenspezifische Verhaltensweisen auszuführen, wodurch eine nahezu perfekte Qualität einer archivierten Website erreicht werden könnte. Der Konjunktiv ist wichtig, weil es mit erheblichem Aufwand verbunden ist, große Websites vollständig zu analysieren, zu archivieren und die Qualitätskontrolle des Archivs durchzuführen. Deshalb wird in der Praxis kaum eine Website vollständig archiviert. Es werden zu Beginn eines Crawls immer Grenzen festgelegt, in der Webarchivierung wird dies als "Scope" bezeichnet. Diese Grenzen können entweder Speicherplatz, Anzahl der Seiten/Objekte oder die Ausführungszeit sein. Beim Erreichen eines dieser festgelegten Limits wird der Crawl beendet und Inhalte, die über diese Grenze hinausgehen, werden nicht mehr archiviert. Weiters definiert der Scope auch, wie mit Verlinkungen auf externe Websites umgegangen wird. So kann hier z.B. festgelegt werden, wie viele Ebenen der Verlinkung vom Crawler mitarchiviert werden, oder ob externe Links nach bestimmten Schlagworten durchsucht und archiviert werden sollen. Es könnte auch ein physikalischer Server als Scope angegeben werden, und so alle Ressourcen, die dort gefunden werden, archiviert werden. Zwei weitere wichtige Einstellungen gehören zum Scope: Die Anzahl an Sprüngen außerhalb der definierten Grenzen und in welche Tiefe die Seite gecrawlt wird, was der Anzahl von Klicks von der Ausgangsseite entspricht. Es wird daraus klar, dass das Einstellen eines Crawls sich schnell zu einer komplexen Angelegenheit entwickeln kann.⁶

Qualitätssteigerung durch den Einsatz von Browsertrix anhand der Website der Österreichischen Nationalbibliothek

ONB Webseite gecrawlt mit Heritrix — Abbildung 1: Archivdarstellung der Website der Österreichischen Nationalbibliothek, archiviert mit Heritrix Version 3.4.0, Wiedergabe mit Python Wayback

ONB Webseite gecrawlt mit Browsertrix — Abbildung 2: Archivdarstellung der Website der Österreichischen Nationalbibliothek, archiviert mit Browsertrix Version 0.11.1, Wiedergabe mit Python Wayback

Die Funktionsweise von Browsertrix

Ein modernder Crawler muss die folgenden drei Aufgaben erfüllen

Links auf Websites auslesen und je nach Scope ihnen folgen oder sie verwerfen.
Jeden Link der Seite in einem Browser aufrufen und in Interaktion treten.
Die Inhalte in einem Archivformat speichern.

Der letzte Punkt, das Archivieren, erfolgt aktuell im Browsertrix durch die python Wayback (pyWB). Diese wurde entwickelt, um die Open Wayback Machine des Internetarchivs zu erneuern. Im Unterschied zur Open Wayback kann die pyWB auch in einem Aufzeichnungs-Modus gestartet werden, der bewirkt, dass alle Seiten, auf die navigiert und mit denen interagiert wird, in einem Archivformat gespeichert werden. Genau dies passiert auch innerhalb der Browsertrix Applikation. Seiten werden geladen und mittels Behaviours in Interaktion gesetzt, gleichzeitig wird mittels pyWB in einem Archivformat gesichert.

Schema Browsertrix — Abbildung 3: Schematische Funktionsweise Browsertrix Crawler.

Browser Based Crawler hinter Logins und Paywalls

Einige Websites haben absichtlich zusätzliche Hindernisse eingebaut, die erst überwunden werden müssen, bevor der Inhalt der Seite zur Anzeige gebracht werden kann. Zum Beispiel müssen Benutzer*innen zunächst die Seitenrichtlinien und Cookies akzeptieren, oder es müssen Browser Plugins, die Werbung blockieren, für spezielle Websites deaktiviert werden. Manche Webinhalte sind kommerziell und werden nur zahlenden Nutzer*innen angezeigt, in diesem Fall wird von Paywalls gesprochen. Auch diese Hindernisse können mit dem Einsatz von Browsertrix, genauer gesagt mit Browsertrix Profilen, überwunden werden. Diese Profile werden vor dem Crawl seitenspezifisch erstellt, indem z.B. ein Login auf der Seite durchgeführt wird. In Profilen ist also der Ausgangspunkt des Crawls gespeichert. Wird ein Profil zum Start des Crawls geladen, fährt der Crawler an der Stelle fort, wo das Profil geendet hat, also z.B.: nach dem Login, und kann so direkt als eingeloggte*r User*in seinen Archivierungsprozess starten. Der größte Nachteil dieser Methode ist, dass die Sitzungen nur eine gewisse Gültigkeitsdauer haben und je nach Seite von Zeit zu Zeit überprüft und gegebenenfalls erneuert werden müssen.

Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.

Über den Autor: Antares Reich ist Crawl Engineer des Webarchivs Österreich an der Österreichischen Nationalbibliothek.

Fußnoten

¹ Mehr Informationen siehe IIPC Webseite [Online]: https://netpreserve.org/ [7.11.2023]

² Mehr Informationen zum Projekt bei IIPC: “BROWSER-BASED CRAWLING SYSTEM FOR ALL” [Online] https://netpreserve.org/projects/browser-based-crawling [6.11.2023] sowie dem Entwicklungsprojekt Browsertrix Crawler auf GitHub [Online] https://github.com/webrecorder/browsertrix-crawler [6.11.2023]

³ Das einzige Archivformat, dass ISO-Standardisiert wurde (ISO 28500:2017) ist das WARC-Format. Nähere Informationen siehe IIPC: ”The WARC Format 1.1” [Online] https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ [6.11.2023]

⁴ Aktive Openway Back Machine im Einsatz: Internetarchiv https://archive.org/web/ und im spezifischen für das Österreichische Webarchiv https://webarchiv.onb.ac.at/ und zu näheren Erläuterungen siehe auch Predikaka, Andreas (2020): “Wie das archivierte österreichische Web wieder auf den Bildschirm kommt”, [Online] https://www.onb.ac.at/mehr/blogs/detail/wie-das-archivierte-oesterreichische-web-wieder-auf-den-bildschirm-kommt-3 [6.11.2023]

⁵ Projektbeschreibung Puppeteer siehe https://pptr.dev/ [6.11.2023]

⁶ Vgl. Predikaka, Andreas (2020): “Wie das österreichische Web im Archiv landet”, [Online] https://www.onb.ac.at/mehr/blogs/detail/wie-das-oesterreichische-web-im-archiv-landet-3 [6.11.2023]

Vom Scannen bis zur Webarchivierung: Emulation und Migration als Schlüssel zur Langzeitarchivierung

15.06.2023 Forschungsblog

Autor*innen: Karin Heide BA, Mag. Andreas Predikaka

"‘Langzeit‘ bedeutet für die Bestandserhaltung digitaler Ressourcen nicht die Abgabe einer Garantieerklärung über fünf oder fünfzig Jahre, sondern die verantwortliche Entwicklung von Strategien, die den beständigen, vom Informationsmarkt verursachten Wandel bewältigen können.“ ¹

Digitale Langzeitarchivierung - Ein interdisziplinäres Projekt

Die Anfänge der digitalen Langzeitarchivierung (LZA) liegen nun bereits mehr als ein halbes Jahrhundert zurück^4/ und sind eng verbunden mit der Entwicklung der elektronischen Datenverarbeitung in den späten 1960er und frühen 1970er Jahren. Ab den 1980er Jahren lieferte vor allem die Raumfahrtforschung wesentliche Impulse zur Verwaltung und Bereitstellung großer Datenmengen.³

Die Entwicklung des Internets und das damit verbundene Aufkommen neuer elektronischer Publikationsstrukturen ab den 1990er Jahren führte schließlich dazu, dass sich auch die Bibliotheks- und Archivwissenschaften verstärkt mit dem Thema der digitalen LZA auseinanderzusetzen begannen. Die Entwicklung internationaler Standards und einer Terminologie für digitale Objekte und die mit ihnen assoziierten Metadaten ist eine Folge dieser interdisziplinären Zusammenarbeit. Auch die Entwicklung des Open Archival Information System (OAIS) als international anerkanntes funktionales Referenzsystem fällt in diesen Zeitraum.⁴

Weltweit setzen sich Bibliotheken, Archive, Gedächtnis- und Forschungsinstitutionen also bereits seit mehreren Jahrzehnten theoretisch und praktisch mit dem Thema der digitalen LZA auseinander. Und auch im Allgemeinverständnis ist der Begriff der Backup-Kopie längst angekommen. Es stellt sich also die Frage:

Wozu eine Begriffsklärung?

Das komplexe Feld der digitalen LZA gliedert sich in zwei große Aufgabenbereiche:

Sicherung der Daten
Erhaltung des Zugriffs und der Nutzbarkeit der Daten

Die nestor-Arbeitsgruppe Standards für Metadaten schreibt dazu, dass "Daten […] aus üblicherweise heterogenen technischen und organisatorischen Kontexten so übernommen werden [müssen], dass sie trotzdem in ganz anderen, zukünftigen Kontexten verstehbar und nutzbar sein werden.“⁵

Die hier unter Punkt 1 angeführte „Sicherung der Daten“ wird als Bitstream Preservation bezeichnet und meint das, was allgemein unter Archivkopie oder Backup verstanden wird. Für ein präziseres Verständnis der großen Herausforderung, mit der alle langzeitarchivierenden Institutionen konfrontiert sind, ist es notwendig, sich den Punkt 2 der Aufgabenbereiche näher anzusehen.

Im Sinne einer Begriffsklärung lässt sich sagen:

Digitale LZA muss sich nicht nur mit der Sicherung der Datenströme, sondern auch mit der Sicherung des Zugriffs (Access) und somit mit allen denkbaren zukünftigen Nachnutzungsszenarien auseinandersetzen.

Was ist das Problem?

Letztlich umreißt bereits der Begriff „Datenstrom“ (Bitstream) worum es in bei der Konzeption und praktischen Umsetzung eines vertrauenswürdigen digitalen Langzeitarchivs⁶ gehen muss:

Im Gegensatz zu "klassischen" Medien reicht es nicht aus, die Datenträger zu erhalten. Technische Systeme und Konzepte sind erforderlich, um die Daten zu interpretieren. Digitale Informationen veralten mit der Umgebung, in der sie erstellt wurden. Daraus ergeben sich Abhängigkeiten von

Hardware und Speichermedien
Betriebssystemen
Applikationen UND
Kontextinformationen (Metadaten)

In der digitalen LZA haben sich aus diesem Grund zwei Konzepte ergeben:

Emulation

In diesem Ansatz verhalten sich zukünftige Technologien wie die Originalumgebung des digitalen Objekts. Der Originaldatenstrom kann in ursprünglicher Form zugänglich gemacht werden. Der Nachteil: Diese Methode ist sehr aufwändig, da auch die Emulationsumgebung ständig an neue Umgebungen angepasst werden muss.

Drei Boxen übereinander, die mit Pfeilen verbunden sind. Text von oben nach unten: gegenwärtige/zukünftige Plattform, Emulator, Originalsoftware, Digitales Objekt — Abbildung 1: Vereinfachte Darstellung des Emulationsvorganges

Migration, Vertrauenswürdigkeit und Authentizität

Bei der Migration handelt es sich um die Transformation eines digitalen Objekts in anderes Format, um der sogenannten Formatobsoleszenz vorzubeugen. Dabei wird das Objekt verändert und an seine neue Umgebung angepasst, um zukünftigen (sich ebenfalls verändernden) Nutzungsansprüchen gerecht zu werden. Diese Methode ist aufgrund ihrer – im Vergleich zur Emulation – „einfacheren“ Umsetzbarkeit in der aktuellen LZA weiter verbreitet. Der Nachteil wurde bereits angesprochen: Digitale Dateien (Originale) werden im Laufe der Zeit transformiert / verändert.

Aus archivarischer Sicht müssen aus diesem Grund Fragen nach der Authentizität des digitalen Objektes sowie einer engmaschigen Qualitätskontrolle (Identifizierung / Validierung) in den Blick genommen werden.

Grafik mit vier verschiedenen Formen auf einer Zeitachse, kein Text — Abbildung 2: Vereinfachte Darstellung des Migrationsvorganges

„Prinzipiell kann man nie genug über eine archivierte Datei wissen“⁷

In der digitalen Langzeitarchivierung spielen deshalb die Formatidentifizierung und anschließende Validierung eine entscheidende Rolle. Das korrekte Identifizieren und Kategorisieren von Dateiformaten sind von großer Bedeutung, um langfristig Authentizität, eine sichere Aufbewahrung und Zugänglichkeit von digitalen Dokumenten und Daten zu gewährleisten.

Wie funktioniert die Identifizierung von Dateiformaten?

Ein erstes wichtiges Merkmal ist die Dateiendung. Eine Buchstabenkombination am Ende des Dateinamens, zum Beispiel “.jpg” für eine Bilddatei oder “.pdf” für ein PDF-Dokument. Die Dateiendung kann einen Hinweis auf das Format geben, ist aber nicht immer zuverlässig, da sie leicht geändert oder falsch angegeben werden kann.

Aus diesem Grund erfolgt die Erkennung des Dateiformates aufgrund spezifischer Merkmale und Muster die sich auf Code-Ebene in der Datei befinden. Diese eindeutigen Muster von Dateiformaten werden auch „Signaturen“ genannt und sind in einer internationalen Datenbank hinterlegt. Das Dateiformatregister PRONOM⁸wird von den National Archives in England gepflegt und kann dort mit den passenden Tools abgefragt werden.

Qualitätskontrolle und ihre Konsequenzen

So komplex die Abläufe dieser systemimmanenten Prozesse im Detail sind, so nachvollziehbar sind in vielen Workflowmodellen (Preservation plans) die Konsequenzen einer fehlerhaften Formatidentifizierung und -validierung.

Beispiele:

1) Online Bereitstellung einer digitalisierten mittelalterlichen Handschrift - Reklamation eines fehlerhaften Scans

Die Handschriftensammlung beschließt ein Schutzdigitalisat in hoher Auflösung zu erstellen, um die Originalressource in Zukunft zu schonen. Das ist oft mit hohen Kosten und Aufwand verbunden.
Ein Scan-Dienstleister wird beauftragt, unter Einhaltung konservatorischer Vorgaben und Metadatenstandards das Digitalisat zu erstellen und legt das vertraglich vereinbarte Digitalisat auf einem Server ab.
Dort wird es automatisiert abgeholt und in das LZA-System überführt (Ingest).
Durch die digitale Übermittlung ist die Datei beschädigt.
Das Dateiformat wird als fehlerhaft erkannt, der Ingest wird vom System abgebrochen.
Die Handschriftensammlung urgiert beim Dienstleister eine nochmalige Lieferung eines unbeschädigten Digitalisates.
Die Fehlerbehebung erfolgt durch den Dienstleister.

2) Pflichtablieferung Bundesgesetzblätter

Die Bundesgesetzblätter im PDF-Format mit Amtssignatur werden über eine Schnittstelle automatisiert abgeholt.
Die PDF-Dateien passieren die Qualitätskontrolle nicht, da sie in einer nicht spezifizierten PDF-Version geliefert werden.
Die Bibliothek informiert das zuständige Ministerium, der Ingest wird vorübergehend gestoppt.
Die Fehlerbehebung erfolgt durch die abliefernde Institution.

Im Webarchiv ist alles anders

Für Daten, die aus der Webarchivierung in ein Langzeitarchivierungssystem kommen, sind die eben erwähnten Abläufe nicht anwendbar, da bereits veröffentlichte Inhalte im Web, nachträglich nicht korrigiert werden können. Jede Änderung an einer Webseite führt zu einer erneuten Veröffentlichung und erzeugt im Webarchiv einen neuen Zeitschnitt. Obwohl es Empfehlungen gibt, wie Webseiten archivierungsfreundlich gestaltet werden sollten⁹, können Medieninhaber*innen nicht dazu verpflichtet werden, Standards, Richtlinien und bestimmte Formate zu verwenden.

Eine Migration eines einzelnen Dateiformates im archivierten Web hätte weitreichende Auswirkungen auf den Inhalt anderer Objekte, die dann ebenfalls migriert werden müssten. Das grundlegende Prinzip der Hyperlink-Fähigkeit des Webs würde beispielsweise bedeuten, dass bei einer Migration aller „.gif“ zu „.png“ Dateien auch alle HTML-Dateien angepasst werden müssten, die auf solche Dateien verweisen.

Es gibt jedoch Systeme, die für solche Fälle eine sogenannte „Migration on demand“ durchführen können, bei der das LZA-System ein als veraltet gekennzeichnetes Dateiformat beim Abruf in das aktuellste Format umwandelt und der Browser die Daten dieses Formates für die Anzeige der Ausgangsseite nutzt.¹⁰

Allerdings scheint angesichts der Vielzahl unterschiedlicher Dateiformate, die in Webarchiven vorhanden sind, eine Migration als keine geeignete Strategie für die Langzeitarchivierung. Im Webarchiv Österreich konnten aktuell aus allen archivierten Objekten 553 unterschiedliche Datei-Signaturen identifiziert werden. Beispielsweise ist das für das Web essentielle HTML-Format derzeit in der PRONOM-Datenbank in sieben verschiedenen Formatversionen und weiteren drei Versionen ohne Angabe einer Versionsnummer vorhanden.

Farbiges Flächendiagramm, der unterste Bereich wird mit der Zeit immer größer — Abbildung 3: Prozentuale Verteilung der unterschiedlichen HTML Formate in den letzten zehn Domain Crawls

Durch die Analyse sämtlicher identifizierbarer HTML-Seiten aus den vergangenen zehn Domain-Crawls von 2009 bis 2022¹¹wird deutlich sichtbar, wie erfolgreich sich das aktuelle HTML 5-Format etabliert hat, während die Versionen 4.0 und 3.2 in den letzten Jahren praktisch kaum noch anzutreffen sind.
In den letzten Jahren blieb aber der Prozentsatz der HTML-Seiten, die aufgrund fehlender Merkmale keiner spezifischen Version zugeordnet werden können, auch stabil.

Zwei Screenshots einer Website in verschiedenen Browsern übereinander. — Abbildung 4: Eine alte HTML 3.2 Seite von » https://webarchiv.onb.ac.at/web/20111107142549/http://www.onb.ac.at/sammlungen/siawd/archiv/erwerb/lavater.htm wird mit dem Firefox Browser 113.0.2 unter Windows 10 gleich dargestellt wie im Firefox Browser 3.6.3 unter Linux 10.04

Wenn wir einzelne archivierte Webseiten in den verschiedenen erwähnten Versionen mit einem modernen Browser betrachten, wird offensichtlich, dass moderne Browser schon eine bedeutende Aufgabe der Emulation übernehmen und in der Lage sind, verschiedene, zum Teil veraltete Formate darzustellen.

Fazit

Die Frage, ob Migration oder Emulation die bessere Lösung für die Langzeitarchivierung darstellen, bleibt nach wie vor offen. Derzeit ist es sinnvoll, die Strategie je nach Anwendungsfall zu wählen. Aufgrund der Tatsache, dass das Emulieren von Software, Betriebssystemen und Hardware wesentlich einfacher geworden ist und viele dieser Funktionen heutzutage problemlos vom Browser ausgeführt werden können, wird der Browser in Zukunft eine immer wichtigere Rolle in der Langzeitarchivierung spielen.

Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.

Über die Autor*innen: Karin Heide ist Projektverantwortliche für digitale Langzeitarchivierung an der Österreichischen Nationalbibliothek, Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.

Fußnoten:

¹ Liegmann, Hans, Nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung, Einführung, [online] » urn:nbn:de:0008-2010071949 [31.05.2023]

³ Eines der ersten bedeutenden Projekte auf dem Gebiet der digitalen Langzeitarchivierung war das "Electronic Recording Machine, Accounting" (ERMA)-System, das in den 1950er Jahren von der Bank of America entwickelt wurde. Dabei handelte es sich um ein computergestütztes System zur Verarbeitung von Scheckzahlungen.

⁴ Beispielhaft erwähnt sei hier das Projekt „Digital Sky Survey“ (DSS), das in den 1980er Jahren startete und zum Ziel hatte, die gesamte Himmelsdurchmusterung in digitaler Form zu erfassen und zu archivieren. Dabei wurden alte fotografische Platten und Dias astronomischer Aufnahmen gescannt und digitalisiert. Die DSS bildete die Grundlage für spätere digitale Himmelskarten und ermöglichte die systematische Archivierung und den einfachen Zugriff auf astronomische Beobachtungsdaten. Die erste Version des DSS wurde 1994 auf 102 CDs veröffentlicht. [online] » https://en.wikipedia.org/wiki/Digitized_Sky_Survey [31.05.2023]

⁵ "Das als ISO 14721:12 verabschiedete Referenzmodell `Open Archival Information System – OAIS` beschreibt ein digitales Langzeitarchiv als eine Organisation, in dem Menschen und Systeme mit der Aufgabenstellung zusammenwirken, digitale Informationen dauerhaft über einen langen Zeitraum zu erhalten und einer definierten Nutzerschaft verfügbar zu machen.“ Brübach, Nils, Das Referenz Modell OAIS in: Nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung, [online] urn:nbn:de:0008-2010061762 [31.05.2023]. Siehe auch: [online] » http://www.oais.info [31.05.2023]

⁶ Vlaeminck, Sven, Nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung, Organisation, [online] » urn:nbn:de:0008-20100624144 [31.05.2023]

⁷ Die Zertifizierung als vertrauenswürdiges Langzeitarchiv setzt die Implementierung des OAIS-Referenzmodells voraus. Mittlerweile haben sich drei Verfahren etabliert, die die Umsetzung des funktionalen OAIS-Modells überprüfen: CoreTrustSeal (CTS) [online] » https://www.coretrustseal.org [31.05.2023], nestor Siegel/DIN 31644 [online] https://www.langzeitarchivierung.de/Webs/nestor/DE/Arbeitsgruppen/AG_Zertifizierung/ag_zertifizierung.html [31.05.2023], ISO 31644 [online] » http://www.iso16363.org [31.05.2023]

⁸ Neubauer, Mathias, Extraktion, technische Metadaten und Tools in: Nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung, [online] » urn:nbn:de:0008-20100617150 [31.05.2023]

⁹ [online] » https://www.nationalarchives.gov.uk/aboutapps/pronom/default.htm [31.05.2023]

¹⁰ Empfehlung der Library of Congress zur Erstellung archivierungsfreundlicher Webseiten: [online] » https://web.archive.org/web/20221020184535/» https://www.loc.gov/programs/web-archiving/for-site-owners/creating-preservable-websites/ [31.05.2023]

¹¹ Vgl. Brown, Adrian (2006): Archiving websites : a practical guide for information management professionals, London: Facet Publ., 97f

¹² Für die Analyse wurden von jedem Domain-Crawl sämtliche erfolgreich identifizierten HTML-Dateien der ersten Stufe (Crawl jeder Domain bis zu einer Größe von 10 MB) herangezogen. Vgl. : Predikaka, Andreas (2020): "Wie das österreichische Web im Archiv landet", [online] » https://www.onb.ac.at/mehr/blogs/detail/wie-das-oesterreichische-web-im-archiv-landet-3 [26.07.2023]

Wie wird eine nationale Domain-Landschaft gecrawlt?

02.12.2022 Forschungsblog

Autor: Andreas Predikaka

Seit 1. März 2009 ist die Österreichische Nationalbibliothek gesetzlich ermächtigt das nationale Web zu sammeln. Während Webkurator*innen für bestimmte Themenbereiche wie Medien, Politik, usw. laufend relevante, sammlungswürdige Webseiten auswählen und diese in geeigneten Speicherintervallen im Rahmen von Selektiven Crawls für die nachfolgenden Generationen archivieren lassen, werden zusätzlich regelmäßig alle bekannten Domains des österreichischen Webs automatisiert gespeichert. Diese Art der Archivierung wird „Domain Crawl“ genannt und dient dazu ein einmaliges, oberflächliches Abbild des gesamten nationalen Webs zu schaffen. Paragraph 43b des Mediengesetzes definiert den österreichischen Webspace wie folgt:

"§ 43b. (1) Die Österreichische Nationalbibliothek ist höchstens viermal jährlich zur generellen automatisierten Sammlung von Medieninhalten periodischer elektronischer Medien [...] berechtigt, die öffentlich zugänglich und 1. unter einer ".at"-Domain abrufbar sind oder 2. einen inhaltlichen Bezug zu Österreich aufweisen."¹

Vor allem Punkt zwei bedeutet in der Praxis einen laufenden kuratorischen Aufwand, um Domains mit Österreich-Bezug ausfindig zu machen.² Aus diesem Grund ist es notwendig die Ausgangsadressen für jeden neuen Domain Crawl an aktuelle Gegebenheiten und Entwicklungen anzupassen, um dadurch mehr nationale Inhalte crawlen und den potentiellen Verlust wichtiger Inhalte verringern zu können.

Domainnamen-Listen

Viele relevante Domainnamen für diese Art des Crawls melden uns Webkurator*innen und Leser*innen³ oder sind Ergebnis von halbautomatischen Suchverfahren. Aber der Großteil der Namen wird über Listen unterschiedlicher Domain-Registrierungsstellen bezogen.

Ursprünglich wurden die ersten .at Domain-Registrierungen noch von der Universität Wien verwaltet, aber die hohe Nachfrage an Domainnamen machte es notwendig die Domainverwaltung als Dienstleistungsunternehmen zu etablieren, was im Jahr 2000 in Form der nic.at geschah, die seither die .at Domain administriert.⁴ Die Verwaltung des Namensraumes für akademische Einrichtungen .ac.at verblieb bei der Universität Wien. Neben der Namen der .at Domain, ist nic.at auch noch für die Verwaltung der für kommerziell orientierte Unternehmen vorgesehenen Subdomain .co.at, und für den Namensbereich .or.at zuständig. Die wenig bekannte Subdomain .priv.at wurde 1995 geschaffen, um eine kostengünstige Domain-Zone für Privatpersonen in Österreich zu schaffen. Die Verwaltung dieser Subdomain obliegt zur Zeit dem Verein VIBE!AT.⁵ Der weithin bekannte Namensraum .gv.at ist für Bundes- und Landesbehörden vorgesehen und wird dementsprechend vom Bundeskanzleramt verwaltet.

In Folge der Einführung der neuen generischen Domains⁶im Jahre 2013 wurden die Namen der beiden Top Level Domains .wien und .tirol aufgrund des eindeutigen inhaltlichen Bezuges zu Österreich vollständig für den Domain Crawl übernommen. Für deren Verwaltung sind die punkt.wien GmbH⁷bzw. punkt Tirol GmbH⁸verantwortlich. Alle Namen dieser beiden Top-Level-Domains werden direkt von der Internet Corporation for Assigned Names and Numbers (ICANN)⁹bezogen.

All diese gesammelten Domainnamen dienen als Datenbasis für den jährlich durchzuführenden Domain Crawl. Während der erste Crawl 2009 knapp 900.000 Domains umfasste, fanden 2022 bereits knapp 1,5 Millionen Domainnamen Verwendung.

Webseiten werden mit einem Crawler im Webarchiv gespeichert. Dabei startet ein Crawler bei einer Ausgangsadresse, folgt jedem Verweis auf der Seite und speichert alle Inhalte bis ein definiertes Limit erreicht ist^.10

Ein Domainname ist jedoch keine Webadresse. Es fehlt noch der Name des Webservers, auf dem die Webseite gehostet wird. Da diese Information für die gesammelten Domainnamen nicht bekannt ist, wird der übliche Hostname www in Verbindung mit dem Kürzel des Protokolls http jedem Domainnamen vorangestellt, um so eine für den Crawler gültige Ausgangsadresse zu erzeugen. Aus dem Domainnamen onb.ac.at wird beispielsweise die Adresse http://www.onb.ac.at. In den meisten Fällen kann so die Startseite des wichtigsten Webserver der Domain erreicht werden. Sind für eine Domain weitere Hostnamen bekannt, werden diese in einem manuellen Prozess als weitere Ausgangsadressen erfasst (z.B. http://webarchiv.onb.ac.at , http://labs.onb.ac.at usw.).

Crawl-Management

Das Archivieren von mehr als einer Million Startadressen kann nicht mit einem Crawler auf einmal durchgeführt werden. Die Ausgangsadressen müssen portionsweise an eine Vielzahl von Crawler-Instanzen übergeben werden. Die Aufteilung aller Adressen auf viele Instanzen übernimmt das Software-System NetarchiveSuite, das im Rahmen des dänischen Webarchivierungsprojektes von der Dänischen Königlichen Bibliothek entwickelt und 2007 als Open Source Software zur Verfügung gestellt wurde. Inzwischen wird das System von einem Zusammenschluss von der KB Dänemark, der Französischen, Spanischen, Schwedischen und Österreichischen Nationalbibliothek weiterentwickelt.¹¹In der aktuellen Infrastruktur der Österreichischen Nationalbibliothek stehen für den Domain Crawl neun Server mit je zwei Crawler-Instanzen zu je 50 Threads zur Verfügung. Auf diese Weise können theoretisch Objekte von bis zu 900 Domains gleichzeitig angefordert und gespeichert werden. Jeder Crawler wird mit maximal 2500 Ausgangsadressen gestartet.

Abbildung 1: Mit der aktuellen Infrastruktur können maximal 900 Domains gleichzeitig gecrawlt werden.

Die Anzahl der eingesetzten Server und Instanzen muss natürlich immer im Einklang der zugesicherten Bandbreite des Internets stehen, ansonsten könnten Serveranfragen nicht mehr schnell genug abgeholt werden, was zu unvollständigen Datenübertragungen und dadurch zu korrupten Downloaddaten führen könnte. Alle Crawler-Instanzen laufen für alle Domains mit denselben Einstellungen und speichern alle Objekte, die nach der Ausgangsadresse auf der Ausgangsdomain zu erreichen sind. Um zu verhindern, dass bei Erreichen des Gesamtspeicherlimits große Domains komplett und viele kleine Domains noch gar nicht gecrawlt wurden, wird ein Domain Crawl stufenweise durchgeführt. Alle Domains werden am Beginn bis zu einer Gesamtspeichermenge von zehn MB gecrawlt, was für 95 Prozent aller Domains bereits reicht, um sie vollständig zu archivieren. Mit dem aktuellen Speicherbudget ist es möglich alle noch nicht vollständig gecrawlten Domains, noch einmal bis zu einer neuen Grenze von 100 MB zu crawlen. Bei genügend verfügbaren Speicher könnte man mit dieser Vorgangsweise einen vollständigen Crawl der gesamten nationalen Domainlandschaft durchführen, was aus Kapazitätsgründen bisher noch nie stattfinden hat können.

Die Crawler sind so konfiguriert, dass sie sich wie im Web surfende Menschen verhalten. Nach dem Laden aller referenzierten Objekte einer Seite bzw. nach dem Erreichen einer definierten Gesamtspeichermenge macht der Crawler eine kurze Pause um einerseits den Zielserver zu entlasten und andererseits den verwendeten Crawler-Thread für Anfragen an die nächste wartende Domain freizugeben. Auch auf die Antwortzeiten der Server wird Rücksicht genommen. Benötigt ein Server für eine Antwort länger, wird der Zeitabstand bis zur nächsten Anfrage größer. Am Beginn eines sogenannten Crawl-Jobs ist eine Instanz mit der gesamten verfügbaren Thread-Anzahl ausgelastet. Die Crawl-Dauer eines Jobs wird einerseits durch die Anzahl der Threads pro Crawler-Instanz und andererseits durch die Menge der Ausgangsadressen und der maximalen Speichergrenze pro Domain bestimmt. Da alle Server unterschiedliche Antwortzeiten haben, werden nicht alle Domains eines Jobs gleich schnell gecrawlt. Das hat zur Folge, dass ein Job immer dieselbe Verlaufskurve beschreibt.

Abbildung 2: Typische Verlaufskurve eines Crawl-Jobs. Sehr gut zu erkennen ist die anfangs volle Auslastung aller Threads, die mit dem Abbau der zu speichernden Objekte in der Warteschlange immer weniger benutzt werden.

Alle Threads werden eine bestimmte Zeit vollständig benutzt und nach einer gewissen Zeit sind immer weniger in Verwendung. Am Ende wird nur mehr ein Thread für wenige noch nicht fertig gecrawlte Domains benötigt. Sobald die letzte Domain aus dem Job die Abbruchbedingung erreicht hat, ist der Crawl-Job beendet und eine weitere Crawler-Instanz mit neuen Ausgangsadressen wird automatisch gestartet. Bleibt ein Crawl-Job im Vergleich zu anderen Jobs auffällig lange aktiv und wird nicht beendet, so ist der Crawler höchstwahrscheinlich in einer sogenannten Crawler-Trap gefangen, aus der er befreit werden muss.

Crawler-Traps

Auch wenn ein Domain Crawl mit so wenig Interaktion wie möglich laufen sollte, kommt irgendwann der Zeitpunkt, an dem es notwendig ist manuell einzugreifen. Oft gelangt ein Crawler auf Webseiten in einen Kalender, bei dem über Verweise Tage, Wochen, Monate oder Jahre verändert werden können. Jedes neue Kalenderblatt generiert eine neue Seite mit neuen Links. Der Crawler bleibt in diesem Kalender "gefangen" und kann sich erst selbst befreien, wenn vordefinierte Abbruchbedingungen erreicht werden, was sehr lange dauern kann. Daher sollte zu diesem Zeitpunkt der Crawl-Engineer manuell eingreifen und die betroffenen Links aus der Crawl-Warteschlange entfernen. Die gespeicherten Daten aus dem Kalender wären zwar valide, aber die meisten wahrscheinlich nicht sehr relevant.

Abbildung 3: Auf der Seite des Haus der Geschichte würde ein Crawler erfahren, dass an den Tagen vor Weihnachten im Jahr 2743 keine Events geplant sind ... [online] https://hdgoe.at/category/Events?start=2743-12-20 , [25.11.2022]

Es gibt aber auch Werkzeuge, sogenannte "Honey-Pots" ¹², die von Webadministratoren eingesetzt werden, um bösartige, datensammelnde Crawler ins Leere oder Endlose laufen zu lassen. Das passiert häufig bei Missachtung von Ausschlussregeln, die auf jedem Webserver in der sogenannten robots.txt¹³oder in Meta-Tags¹⁴ auf HTML-Seiten definiert werden können. Diese Regeln dienen den Betreibern von Webseiten dazu, gewisse Bereiche ihrer Seite für Crawler zu sperren bzw. nur bestimmte Crawler zuzulassen. Diese Anweisungen sind allgemein anerkannt und Crawler sollten sich daranhalten, jedoch kann ein Zugriff auf damit "gesperrte" Inhalte ohne weitere Absicherungsmaßnahmen nicht verhindert werden.

Da die Webarchivierung im gesetzlichen Auftrag betrieben wird und gegenüber diesen Anweisungen Vorrang hat, können solche Fallen für Crawler der Österreichische Nationalbibliothek zum Problem werden. Gelangt ein Crawler in einen Bereich, den er eigentlich nicht betreten sollte, könnte dort ein Honey-Pot warten, der ihn so lange ins Unendliche laufen lassen würde, bis er erst durch eine Abbruchbedingung oder durch manuelle Intervention befreit würde. Leider mit dem bitteren Beigeschmack, dass dabei Daten von zufällig sinnfrei aneinandergereihten Wörtern ins Webarchiv gelangen könnten.

Abbildung 4: Folgt ein Crawler in einem Honey-Pot einem Verweis, wird eine neue Seite mit neuen Links generiert.

Für diese Fälle sind sehr knappe Speicherbudgets sogar ein Segen, weil in unentdeckten Fällen, nicht zu viel Speicherplatz verloren geht (aktuell pro Domain und Durchlauf max. zehn bzw. 100 MB).

Mit aktuellem Stand sind bisher 55 Prozent (über 120 TB) aller gesammelten Daten des österreichischen Webs über Domain Crawls ins Archiv gelangt. Auch wenn der Vorgang eines Domain Crawls nach sorgfältiger Vorbereitung automatisch ablaufen kann, ist man gut beraten, wenn man dennoch ein Auge auf ihn behält.

Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.

Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.

Fußnoten:
¹Änderung des Mediengesetzes: BGBl. I Nr. 8/2009, § 43: » https://web.archive.org/web/20151028093639/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html[25.11.2022]
² Vgl. die Kriterien zur Einstufung von sogenannten Austriaca: Mayr, Michaela / Andreas Predikaka (2016): Nationale Grenzen im World Wide Web - Erfahrungen bei der Webarchivierung in der Österreichischen Nationalbibliothek. In: BIBLIOTHEK Forschung und Praxis 40/1, 91, [online] doi.org/10.1515/bfp-2016-0007 [25.11.2022]
³Über Webformular oder Bookmarklet auf [online] » https://webarchiv.onb.ac.at/#nominierung [25.11.2022]
⁴[online] » https://web.archive.org/web/20221017080623/https://www.nic.at/de/das-unternehmen/firmengeschichte [25.11.2022]
⁵[online] » https://web.archive.org/web/20221017102027/http://www.vibe.at [25.11.2022]
⁶[online] » https://de.wikipedia.org/wiki/Neue_Top-Level-Domains [25.11.2022]
⁷[online] » https://web.archive.org/web/20221120160048/https://www.nic.wien/de/wien/projekt-wien [25.11.2022]
⁸ [online] » https://web.archive.org/web/20221120160154/http://www.nic.tirol/ueber-uns/ueber-punkt-tirol/ [25.11.2022]
⁹[online] » https://de.wikipedia.org/wiki/Internet_Corporation_for_Assigned_Names_and_Numbers [25.11.2022]
¹⁰Vgl.: Predikaka, Andreas (2020): "Wie das archivierte österreichische Web im Archiv landet", [online] » https://www.onb.ac.at/mehr/blogs/detail/wie-das-oesterreichische-web-im-archiv-landet-3 [26.07.2023]
¹¹[online] » https://github.com/netarchivesuite/netarchivesuite [25.11.2022]
¹²z.B.: [online] » https://www.projecthoneypot.org [25.11.2022]
¹³[online] » https://de.wikipedia.org/wiki/Robots_Exclusion_Standard [25.11.2022]
¹⁴ [online] » https://de.wikipedia.org/wiki/Meta-Element#Anweisungen_f%C3%BCr_Webcrawler [25.11.2022]

Datendeduplizierung. Wie das Webarchiv beim täglichen Crawlen von Webseiten Speicherplatz spart

09.07.2022 Forschungsblog

Autor: Andreas Predikaka

Durch das schnelle und stetige Anwachsen des österreichischen Webs benötigt das Webarchiv Österreich laufend weiteren Speicherplatz, um ein signifikantes Abbild des heimischen Webspaces für die Nachwelt bewahren zu können. Dabei gilt es, sorgsam mit dem bereitgestellten Speicher umzugehen und diesen optimal zu nutzen. Dafür sind zwei Vorgänge für das Webarchiv mittlerweile gängige Praxis und unverzichtbar geworden: Datenkomprimierung und Datendeduplizierung.

Datenkomprimierung

Wie in vielen anderen Bereichen kommt auch in der Webarchivierung Datenkompression zum Einsatz. Im Webarchiv Österreich wird jedes gecrawlte Web-Objekt vor dem Speichern verlustfrei mit dem quelloffenen gzip ¹ Programm komprimiert und in einer Archiv-Datei gespeichert. Das Programm verwendet den gemeinfreien Deflate-Algorithmus ² zur verlustfreien Datenkompression.

Abhängig vom jeweiligen Dateityp können dabei unterschiedliche Kompressionsraten erzielt werden. Textdateien, wie die im Web üblichen HTML-Dateien, können mit einer sehr hohen Rate komprimiert werden. Bei Bilddateien ist das hingegen oft nicht der Fall, da diese für die Verwendung im Web meist schon komprimiert wurden.
Im Webarchiv Österreich wird zurzeit für alle gecrawlten Web-Objekte (aktuell 138 Terabytes) eine Komprimierungsrate von 1,7 erreicht, was eine Speicherplatzersparnis von 42 Prozent bedeutet. Der auf den Festplatten benötigte Speicher beträgt dadurch nur mehr knapp 80 Terabytes.

Für alle erzeugten Metadaten (aktuell 19,5 Terabytes), die aus gut komprimierbaren Textdateien bestehen, kann sogar eine Komprimierungsrate von knapp 11 erreicht werden, womit eine Speicherplatzersparnis von knapp 91 Prozent erzielt wird. Nur mehr knapp zwei Terabytes an Metadaten werden dafür im Speichersystem benötigt.

Datendeduplizierung

Ausgewählte Seiten aus dem Bereich Medien und Politik werden im Webarchiv Österreich seit über zehn Jahren in eigenen Kollektionen gespeichert. Da bei diesen Seiten eine hohe Änderungsfrequenz zu erwarten ist, werden diese, immer unter Berücksichtigung des aktuellen Speicherbudgets, mindestens einmal pro Tag gecrawlt. Dabei werden unvermeidbar immer wieder die gleichen Daten, wie z.B. Parteilogos oder Bilder von Personen gespeichert, was zu einer Vielzahl an Redundanzen führt und das vorhandene Speicherbudget schneller verbrauchen lässt.

Um diese Redundanzen teilweise einzuschränken, verwendet das Webarchiv die Methode der Deduplizierung. Sie ermöglicht es, einen großen Teil der binären Objekte (Bilder, Videos, Dokumente, Skripte, usw.) dieser regelmäßig gecrawlten Seiten nur als Referenz zum Erstauftreten des jeweiligen Objektes zu speichern. Wie funktioniert das?

Für jedes Objekt, das im Webarchiv gespeichert werden soll, wird ein Hashwert ³ erzeugt, der das Objekt eindeutig identifiziert. Beim erstmaligen Auftreten eines Objektes wird dieses archiviert und der dafür errechnete Hashwert bekommt die exakte Position des Objektes im Webarchiv hinterlegt. Dadurch kann beim wiederholten Crawlen eines bereits existierenden Objektes diese Position anstelle der Daten des Objektes gespeichert werden.

Abb. 1: Vereinfachte Darstellung eines Deduplizierungsvorganges bei drei Zeitschnitten einer fiktiven Webseite.

Ist ein auf diese Weise dedupliziertes Objekt Bestandteil einer archivierten Webseite, wird beim Aufruf dieser Seite in der Waybackmachine das Objekt von der referenzierten Position im Webarchiv geladen und angezeigt. ⁴

HTML-Dateien werden von der Deduplizierung ausgenommen, weil bei diesen Dateien in regelmäßigen Crawls die häufigsten Änderungen zu erwarten sind, wodurch sie nicht mehr für eine Deduplizierung in Frage kämen. Für unveränderte HTML-Dateien wäre eine Speicherplatzersparnis minimal, weil ihre Textinhalte bereits sehr gut komprimiert werden können.

Deduplizierung ist aber auch zu einem gewissen Grad risikobehaftet. Sollte es im Webarchiv zu Datenverlusten kommen und wären Objekte, die referenziert wurden, davon betroffen, könnten die Rückverweise nicht mehr aufgelöst werden und der Datenverlust würde sich um die Anzahl der Referenzen multiplizieren. Deshalb wird bei regelmäßigen Crawls auch immer wieder ein sogenannter "Clean Crawl" durchgeführt, der auf Deduplizierung verzichtet und dadurch wieder neue Ausgangsobjekte für neue Referenzen weiterer Deduplikationen bildet. Auf diese Weise streuen sich die Originalobjekte im Webarchiv, was den Schaden bei eventuellen Datenverlusten reduzieren kann.

Abb. 2: Darstellung der archivierten Zeitschnitte einer fiktiven Webseite beim Verlust einer Archivdatei. Zeitschnitt 1 ist nicht mehr verfügbar und die referenzierte PNG-Datei rot.png kann in Zeitschnitt 2 und 3 nicht mehr angezeigt werden.

Zu den am häufigsten deduplizierten Objekten im Webarchiv Österreich zählt eine 1x1 Pixel große transparente GIF-Datei mit 43 Bytes, die vor allem auf älteren archivierten Webseiten verwendet wurde, um das Layout dieser Seiten zu beeinflussen. Über 2,3 Millionen Mal wurde dieses Objekt auf unterschiedlichen Webseiten dedupliziert. Für diese kleine Datei ist der Speicherplatzgewinn aufgrund der nur unwesentlich kleineren Information über die Referenz aber sehr gering.

Abb. 3: Die 1x1 Pixel große transparente GIF-Datei vergrößert dargestellt im Grafikprogramm GIMP.

Ganz anders beim Objekt mit der meisten Speicherplatzersparnis, einem Video über eine Pressekonferenz ⁵, das zwar nur 1225-mal dedupliziert wurde, aber dadurch knapp 170 Gigabytes an Speicher einsparen konnte.

Gesamt wurden im Webarchiv Österreich bis jetzt 882 Millionen Objekte mit einer Gesamtgröße von über 59 Terabytes dedupliziert, was 30 Prozent der unkomprimierten Speichergröße des Archivs ausmacht.

Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.

Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.

Quellen:

¹ [online] https://de.wikipedia.org/wiki/Gzip , [22.06.2022]
²[online] https://de.wikipedia.org/wiki/Deflate , [22.06.2022]
³[online] https://de.wikipedia.org/wiki/Hashfunktion , [22.06.2022]
⁴Vgl.: Predikaka, Andreas (2020): "Wie das archivierte österreichische Web wieder auf den Bildschirm kommt", [online] https://www.onb.ac.at/mehr/blogs/detail/wie-das-archivierte-oesterreichische-web-wieder-auf-den-bildschirm-kommt-3 , [26.07.2023]
⁵Alle Zeitschnitte dieses Videos können im Webarchiv Österreich angezeigt werden: https://webarchiv.onb.ac.at/?q=http://www.wien-konkret.at/fileadmin/content/Politik/Wahlrecht/video-pk-faires-wahlrecht.flv

Wie Sie Webseiten im archivierten Web suchen, finden und sich anzeigen lassen können

20.12.2021 Forschungsblog

Autor: Andreas Predikaka

Von der vorwissenschaftlichen Arbeit über die Bachelorthesis bis hin zur Dissertation haben Zitierregeln für Quellen aus dem Web eines gemein: Neben dem Titel ist zusätzlich zur Webadresse auch das Zugriffsdatum anzugeben. Die Schreibenden stellen damit klar, welcher Zeitschnitt einer bestimmten Webadresse für ihre Arbeit relevant war. Nur selten gibt es aber einen Hinweis darauf, wie das jeweilige Web-Zitat am besten zu rekonstruieren ist.¹ Die Autor*innen verlassen sich meist darauf, dass das Web nichts vergisst. Aber das Web vergisst leider viel von den Inhalten, die im Nachhinein als relevant erachtet werden.

Die Leser*innen sind meist darauf angewiesen, dass eine Webadresse zum oder rund um das Zugriffsdatum der Schreibenden von Webarchiven gespeichert wurde und sich der archivierte vom referenzierten Inhalt nicht (maßgeblich) unterscheidet.

Um ein Web-Zitat zu finden und um festzustellen, ob ein Zeitschnitt einer Adresse im archivierten Web vorhanden ist, gilt das Internet Archive²als erste Anlaufstelle für die Suche und Anzeige von archivierten Webseiten. Seit 1996 versucht die gemeinnützige Organisation aus den Vereinigten Staaten das gesamte Web zu archivieren und seit 2001 bietet sie auch den Zugriff auf die archivierten Daten über die sogenannte „Wayback-Machine“ an.³Kann man über die Eingabe einer Webadresse ein passendes Ergebnis finden und lässt sich diese archivierte Website auch noch wiederherstellen, so wird sie am Bildschirm angezeigt. Dass Inhalte aus Webarchiven öffentlich zugänglich sind, ist aber nicht selbstverständlich. Grundsätzlich unterliegen diese dem Urheberrecht und dürfen ohne Zustimmung der Medieninhaber*innen nicht angezeigt werden. Das Internet Archive nimmt für sich das sogenannte "Fair Use Prinzip”⁴ in Anspruch, das in den Vereinigten Staaten eine Nutzung von geschütztem Material zu Bildungszwecken erlaubt. Gleichzeitig gibt es für den Dienst eine Opt-Out-Möglichkeit. Wünschen Medieninhaber*innen die Entfernung ihrer Einträge aus dem Archiv, so wird dem Anliegen in der Regel nachgekommen. Es kann also durchaus passieren, dass archivierte, erfolgreich rekonstruierte Webinhalte, beim nächsten Aufruf nicht mehr verfügbar sind. Ein Dilemma.

Ab Ende der 1990er Jahre wurde die Archivierung des Webs immer mehr zu einer Aufgabe der Nationalbibliotheken. Der nationale Webspace wurde als Teil des kulturellen Erbes angesehen und dafür Umsetzungsinitiativen gestartet. Grundvoraussetzung für die Durchführung war in vielen europäischen Ländern eine gesetzliche Ermächtigung zum Sammeln des nationalen Webs. Diese Gesetze wurden nach und nach verabschiedet und ermöglichen seither den meisten Nationalbibliotheken das Sammeln ihres nationalen Webspace und regeln den Zugriff darauf. Auch wenn der Aufruf von gesuchten Webinhalten meist nur vor Ort erlaubt wird, bieten dutzende Webarchive eine öffentliche Suchmöglichkeit an. Kann man über das Internet Archive eine archivierte Webseite nicht finden, so hilft möglicherweise eine Suche in diesen Webarchiven.⁵

Auch der österreichische Gesetzgeber verbietet leider den Aufruf von archivierten Webseiten außerhalb der Räumlichkeiten der Österreichischen Nationalbibliothek und der dazu berechtigten anderen Bibliotheken.⁶ Er erlaubt jedoch die öffentliche Suche nach Webseiten über die Webadresse und im Volltext. Das folgende Beispiel zeigt, wie man eine erfolgreiche Suche im Webarchiv Österreich durchführt und sich Suchergebnisse mit Hilfe des Internet Archives, trotz der oben erwähnten Einschränkungen, anzeigen lassen kann.

Url-Suche

Als das Webarchiv Österreich vor über zehn Jahren startete, gab es eine Projektbeschreibung auf der Webseite der Österreichischen Nationalbibliothek. Einige Dokumente im Online-Web verweisen noch auf diese Adresse und den damaligen Inhalt.⁷ Aktuell wird man bei der Eingabe der damaligen Adresse "http://www.onb.ac.at/about/webarchivierung.htm" auf das aktuelle Webportal des Webarchivs Österreich "https://webarchiv.onb.ac.at "weitergeleitet und die ursprüngliche Seite wird nicht mehr angezeigt. Um zu erfahren wie die Webseite ausgesehen hat, gehen wir auf "https://webarchiv.onb.ac.at" und geben in das Sucheingabefeld die alte Webadresse ein und klicken auf "Suchen". Nach einem kurzen Moment erscheint das Suchergebnis in Form einer sogenannten „Heatmap“. Dabei werden die gefundenen Versionen als rote Punkte auf einem Kalenderraster angezeigt. Jeder rote Punkt stellt mindestens eine gespeicherte Version für den jeweiligen Tag dar. Je dunkler der Punkt, desto mehr Versionen der gesuchten Webadresse sind archiviert worden.

Abb. 1: Die Suche nach einer Webadresse im Webarchiv Österreich und die Anzeige im Internet Archive. Führen Sie diese Suche mit einem Klick auf diesen *» Link* aus.

Wir wählen den ersten roten Punkt aus, der zugleich die erste gespeicherte und damit älteste Version der gewählten Adresse darstellt. Beim Klick auf den Punkt öffnet sich ein Dialogfenster, in dem alle Zeitschnitte des ausgewählten Tages angezeigt werden. Sobald man auf den Verweis mit dem gewünschten Zeitstempel klickt (in diesem Fall 13:29:05 Uhr vom 16. April 2010), öffnet sich in einer neuen Lasche im Browser die sogenannte Wayback-Machine, die die ausgewählte Version der archivierten Webseite für uns aus den gespeicherten Einzeldateien zusammenstellt und anzeigt.

Abb. 2: Screenshot der ältesten Version unserer Projektwebseite im Webarchiv Österreich. [Online]
» https://webarchiv.onb.ac.at/web/20100416132905/http://www.onb.ac.at/about/webarchivierung.htm [7. Dezember 2021]

Dass wir die Adresse unserer Projektwebseite vor über zehn Jahren ausgesucht haben, hat einen besonderen Grund: Unsere eigenen Inhalte dürfen wir in archivierter Form auch online anzeigen. Für alle anderen Inhalte, für die keine speziellen Vereinbarungen mit Medieninhabenden bestehen, lässt sich die archivierte Version aufgrund des Mediengesetzes nicht außerhalb der Räumlichkeiten der Österreichischen Nationalbibliothek aufrufen. Bevor nun Leser*innen unsere Terminals im Haus besuchen, lohnt sich aber noch ein Klick auf den Verweis "Beste IA Version". Über diesen Link wird in einer neuen Lasche die Wayback-Machine des Internet Archives geladen, die die zeitlich näheste Version zum ausgewählten Zeitschnitt im Webarchiv Österreich zu laden versucht.

Bleibt auch diese Suche erfolglos, so bietet die Lasche "Andere Webarchive" eine Liste von Archiven mit öffentlicher Suchmöglichkeit an. Jeder Verweis startet im ausgewählten Webarchiv eine Suche nach allen Versionen der bestimmten Webadresse und zeigt das Ergebnis in einer neuen Lasche des Browsers an.

Volltextsuche

Nicht immer steht die exakte Adresse für den Aufruf einer archivierten Webseite zur Verfügung. Wie bei bekannten Suchmaschinen im Netz kann man auch im Webarchiv Österreich nach Begriffen suchen, um über diesen Weg eine archivierte Webseite zu finden. Auf unserer Projektseite schrieben wir vor zehn Jahren über unsere Mission: "Ziel der Webarchivierung ist die Sammlung und Archivierung des gesamten nationalen Webspace". Gibt man diesen Satz in das Sucheingabefeld ein und setzt die Suche ab, so wird im vorhandenen Volltext (umfasst zurzeit rund fünf Prozent aller archivierten Textdokumente) nach den eingegebenen Begriffen gesucht. Nach einem kurzen Moment erscheint ein Suchergebnis, das die jeweiligen Zeitschnitte einer Webadresse anzeigt, die die gesuchten Begriffe beinhalten. In jeder Ergebniszeile finden Sie den schon bekannten relevanten Zeitstempel oder den Verweis auf die "Beste IA Version", der das zeitlich näheste Ergebnis im Internet Archive für die Suche liefern kann.

Abb. 3: Die Suche nach Begriffen im Webarchiv Österreich und die Anzeige im Internet Archive. Führen Sie diese Suche mit einem Klick auf diesen » Link aus.

Auch wenn in unserem Fall die zeitlich näheste Version im Internet Archive einige Monate vom gewünschten Zeitpunkt entfernt ist, wird doch der gleiche Inhalt angezeigt, da sich die Webseite in diesem Zeitraum nicht verändert hat.

Die Suche nach archivierten Webseiten ist längst nicht so komfortabel wie die gewohnte Suche im Online-Web. Den ersten schnellen Einstieg bietet das Internet Archive mit seinem Webarchiv, das über eine URL- bzw. Schlüsselwortsuche für URLs, die Anzeige archivierter Webseiten bereitstellt. Doch das größte Web-Archiv der Welt ist keineswegs lückenlos. Nationale Webarchive tragen im Rahmen ihrer gesetzlichen Möglichkeiten dazu bei, diese Lücken so gut wie möglich zu schließen. Zudem bieten viele Nationalbibliotheken eine dem Internet Archive fehlende Volltextsuche an und können so Suchergebnisse liefern, die dann mit Hilfe des Internet Archives eventuell rekonstruiert werden können. Finden sich auch dort die gewünschten Inhalte nicht, lohnt sicher ein Besuch in der Nationalbibliothek oder in den berechtigten Bibliotheken, die die gesuchten Inhalte auf speziellen Terminals zur Verfügung stellen können.

Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.

Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.

Quellen:

¹ Schon ein Screenshot der besuchten Webseite im Anhang kann hilfreich sein. Auch das zählt als Webarchivierung. Vgl. Brügger, Niels (2018): The Archived Web. Doing History in the Digital Age, Cambridge London: The MIT Press, 80
² Siehe [Online] https://web.archive.org [7. Dezember 2021]
³ Zum Auftrag des Internet Archive siehe Rossi, Alexis. Internet Archive. Hamburg University Press, 2016, [Online] https://web.archive.org/web/20210718222757/https://hup.sub.uni-hamburg.de/volltexte/2016/168/chapter/HamburgUP_DDB_KulturellesErbe_02_Vielfalt_USA.pdf [7. Dezember 2021]
⁴ Siehe [Online] https://web.archive.org/web/20211207104627/https://de.wikipedia.org/wiki/Fair_Use [7. Dezember 2021]
⁵ Siehe [Online] https://web.archive.org/web/20211207113207/https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives [7. Dezember 2021]
⁶ Siehe § 43d Abs.4: " die Österreichische Nationalbibliothek und die in § 43b Abs. 7 genannten Bibliotheken [dürfen] gemäß § 43b gesammelte oder abgelieferte Medieninhalte ihren Benutzern nur an ihrem Standort zugänglich machen", [Online] https://web.archive.org/web/20211207120200/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html [7. Dezember 2021]
⁷ z.B. [Online] https://de.slideshare.net/ATWebarchive/bedeutung-der-webarchivierung-nestordnb [7. Dezember 2021]

Wie entsteht die Kollektion Frau/Gender im Webarchiv der ÖNB? Webkurator*innen am Werk

29.06.2021 Forschungsblog

Autor*innen: Andrea Gruber, Lydia Jammernegg, Michaela Mayr, Andreas Predikaka

Wie entsteht die Kollektion Frau/Gender im Webarchiv? - Webkurator*innen am Werk

Vom Webarchiv Österreich der Österreichischen Nationalbibliothek werden seit 2009 umfangreiche Web Crawls durchgeführt, um das digitale Kulturerbe im Web zu dokumentieren und langfristig zu sichern. Dabei standen zu Beginn vor allem technische Fragen im Vordergrund – Hardware, Software, Speicherkapazitäten, Crawl-Parameter, Speicher-Intervalle, Webtechnologien usw. Schon bald war klar, dass es neben den jährlichen umfangreichen Domain Crawls auch thematische Schwerpunkte braucht, die ein besonderes Augenmerk erfordern, damit nicht wesentliche Inhalte verloren gehen. So wurden die ersten Kollektionen im Webarchiv begründet, Webseiten aus den Bereichen Medien und Politik werden seither laufend archiviert.

Immer stärker zeigen sich auch in den unterschiedlichen Sammlungen der Österreichischen Nationalbibliothek die Anknüpfungspunkte zu born digital Medien. Die Kollektion Frau/Gender ist ein Paradebeispiel für die nachfolgend näher beschriebene Zusammenarbeit von Webarchiv-Expert*innen und Fachbibliothekar*innen, die als Webkurator*innen wichtigen inhaltlichen Input leisten.

Entstehungsgeschichte – Rückblick

Im Rahmen einer Abschlussarbeit, die von Ariadne im Rahmen des Universitätslehrgangs für Library and Information Studies 2015 zum Thema „Ariadne 4.0. Dokumentation und Archivierung von digital born Quellen aus dem Gebiet der feministischen-, Frauen- und Geschlechterforschung“ vergeben wurde, entwickelte sich die Kooperation mit dem Webarchiv Österreich. Damit konnte Ariadne an das Thema Dokumentation und Archivierung von digital born Medien anknüpfen.

Ausgangsfrage dieser Abschlussarbeit war: Wie kann feministisches / Genderwissen, das zunehmend digital produziert wird, für die Zukunft erhalten und zugänglich bleiben? Was kann eine kleine Einrichtung wie Ariadne dazu beitragen oder umsetzen?

Mit der Digitalisierung und Globalisierung von Information und Wissen tritt die Frage, was passiert mit den zunehmend born digital erscheinenden und oft kurzlebigen Dokumenten, immer mehr in den Vordergrund:

Es ist eine neue Art der Wissensproduktion entstanden, die neue Formen von Quellen generiert.
Bisher wurden diese neuen Formen von Quellen nicht ausreichend archiviert und dokumentiert und gingen daher verloren.
Es ist zu erwarten, dass diese Verlagerung in den virtuellen Raum immer mehr fortschreitet – wie kann Ariadne diese Entwicklungen aufgreifen?

Die Universitätslehrgangsgruppe hat sich dieses Themas angenommen und mit ihrer Arbeit eine Basis für ein gemeinsames Projekt mit dem Webarchiv Österreich geschaffen. Im Webarchiv werden Akquirierung, Bestandssicherung und Archivierung von born digital Medien bereits routinemäßig durchgeführt und es bestand Interesse an einer Zusammenarbeit. In Kooperation wurde eine kuratierte, inhaltlich fokussierte Kollektion Frau/ Gender entwickelt.

Feministisches/Genderwissen, das digital produziert wird, wird somit archiviert, für die Zukunft erhalten, (eingeschränkt) zugänglich gemacht und steht zukünftig für Forschung und Interessierte zur Verfügung.

Kuratierung der Kollektion Frau/Gender – Auswahlkriterien

2016 erfolgte die Umsetzung der Kollektion Frau/Gender im Webarchiv Österreich. Die Kollektion startete mit 60 frauen- und genderrelevanten Onlinequellen mit Österreich-Bezug und wird seitdem jährlich erweitert und ergänzt. 2021 beinhaltet die Kollektion bereits 160 Einträge.

Welche formalen und inhaltlichen Bearbeitungskriterien liegen der Kollektion zugrunde:

a. Inhaltliche Auswahlkriterien

Was ist relevant zu archivieren? Was sind wichtige Sammelschwerpunkte und wie kann eine inhaltliche Eingrenzung erfolgen? Was lässt sich ausschließlich im Netz finden?
- Theoretische und wissenschaftliche Diskurse (junger) Forscher*innen (Salon 21, Feministische Studien, Genderblog, …)
- AktivistInnendiskurse finden zunehmend im Netz statt (Unregelmäßige Gedankensplitter, Mädchenmannschaft, …)
- Aktuelle Diskurse, wie z.B. die Binnen-I-*-:-Diskussion, finden in verschiedensten Online-Medien ihren Niederschlag (Blogs, Newsletter, Social Media, …)

Was beinhaltet die Kollektion? Wo werden die oben genannten Themen und Diskurse abgehandelt?
Feministische, Frauen und Gender-IuD-Einrichtungen/-bibliotheken und -archive
Universitäre - und außeruniversitäre Forschungseinrichtungen
Einrichtungen, Abteilungen, Ministerien der Länder und des Bundes
NGO’s und Vereine
Feministische Medien, Blogs, persönliche Seiten
Websites, die zu aktuellen Debatten entstehen und oft nur kurzfristig existieren
Verlage und Buchhandlungen
Museen, Ausstellungen und Kultureinrichtungen

b. Formale Kriterien

Um welche Dokumente handelt es sich bei den ‚born-digitals‘ der feministischen, Frauen- und Geschlechterforschung? Websites, Blogs, PDFs, Social Media (Twitter, Facebook, Instagram, …), Podcasts, Videos, E-Books, … - nur ein Teil davon kann über die Webarchivierung erfasst werden
Parameter, die erhoben werden: Struktur der Website, Ebenen der Archivierung, Veränderungsintervalle, Multimedia-Anteile

In den fünf Jahren, in denen die Kollektion Frau/Gender nun bereits besteht, wurde ersichtlich, dass Webauftritte und Onlinequellen einer unterschiedlichen Dauerhaftigkeit unterliegen. Dies aus verschiedensten Gründen:

Namensänderungen von Institutionen (wie Ministerien) inklusive IP-Adressänderungen, obwohl die Institution bestehen bleibt, erschweren die Wiederauffindbarkeit und Archivierungstätigkeit beträchtlich.
(Forschungs-)Projekte, die abgeschlossen sind und keine Weiterbetreuung erfahren, stellen meist nach einigen weiteren Jahren ihre Webpräsenz ganz ein.
Organisationen, wie Vereine oder Verlage, die etwa nach 20 oder 30 Jahren ihre Tätigkeit einstellen beenden infolgedessen auch ihre Webauftritte.
Onlinequellen, die zu aktuellen Diskursen entstehen, haben von vorherein ein kürzeres Ablaufdatum, je nachdem wie schnell das Thema seine Aktualität verliert.

Crawl der Kollektion

Im Idealfall kommt die kuratorische Betreuung eines Crawls, wie bei der Frau/Gender Kollektion, aus der Fachabteilung und das Webarchiv setzt auf Basis der erhobenen formalen Kriterien den technischen Crawl um. So wird für jede Ausgangsadresse einer Webseite (Seed) ein sogenanntes “Seed Scoping” durchgeführt. In diesem Prozess wird festgelegt, welche Webinhalte für welche Seite in welchem Umfang archiviert werden. Fallweise lässt sich eine gewünschte kuratorische Crawltiefe, aufgrund der Beschaffenheit einer Webseite, technisch nicht exakt beschreiben, was dazu führt, dass der Crawler entweder zu wenige oder zu viele Webinhalte speichert. Um die Webseite schließlich so gut wie gewünscht zu archivieren, werden mit Testcrawls die optimalen Einstellungen des Crawlers für die endgültige Archivierung ermittelt. Im Verlauf dieser Arbeit muss auch immer das für die Kollektion zur Verfügung stehende Speicherbudget im Auge behalten und die aktuellen medienrechtlichen Bestimmungen für das Webarchiv beachtet werden.

Die ausgewählten frauen- und genderrelevanten Onlinequellen werden zweimal jährlich im Rahmen des verfügbaren Speicherbudgets gecrawlt und bis zu einem Limit von 250 MB pro Domain gespeichert, was bei immer zahlreicheren Domains nicht mehr für ein komplettes Abbild ausreicht. Diese Problematik wird auch in der Abbildung 1 deutlich, die zeigt, dass in den ersten Jahren die gecrawlte Speichermenge mit der Anzahl der Seeds steigt, aber in den letzten Jahren deutlich abgeflacht ist, während die ausgewählten Onlinequellen im letzten Jahr ein Maximum erreichten.

Abb. 1: Die Entwicklung der Kollektion Frau/Gender im Jahresvergleich

Auch in Zukunft wollen die Webkurator*innen der Ariadne gemeinsam mit dem Webarchiv-Team an den unterschiedlichen Herausforderungen weiterarbeiten. Die Kollektion Frau/Gender ist keine große, aber eine qualitativ sehr hochwertige, die als Vorbild für künftige weitere Kooperationen mit unterschiedlichen Fachexpert*innen dienen kann.

Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtischen Versicherungsverein für die Unterstützung des Webarchivs Österreich.

Mag. Andrea Gruber MSc und Mag. Lydia Jammernegg MSc arbeiten in der Frauen-Dokumentationsstelle Ariadne, Mag. Michaela Mayr MSc und Mag. Andreas Predikaka im Webarchiv der Österreichischen Nationalbibliothek.

Wie das archivierte österreichische Web wieder auf den Bildschirm kommt

10.12.2020 Forschungsblog

Autor: Andreas Predikaka

Die Österreichische Nationalbibliothek archiviert seit über zehn Jahren möglichst umfassend das österreichische Web in ihrem Webarchiv Österreich. Diese Webinhalte werden durch Crawler nach bestimmten Vorgaben gesammelt.[1]

Dabei verhält sich ein Crawler ähnlich einem Browser, der eine ausgewählte Webadresse aus dem Web abruft. Beide Programme kommunizieren über das "Hypertext Transfer Protocol" (HTTP) mit einem Webserver, von dem sie über einen "Uniform Resource Locator" (URL) eine "HyperText Markup Language"-Datei (HTML-Datei) laden.[2]

Diese Textdatei beinhaltet alle Anweisungen für den Browser, wie die angeforderte Webseite am Bildschirm angezeigt werden soll. Weitere zur Darstellung notwendige Dateien sind darin referenziert und werden ebenso geladen. Aus diesen technischen Web-Objekten erzeugt der Browser, eine für die Benutzer*innen sichtbare Oberfläche. Die zweite technische Ebene kann bei Bedarf im Browser eingeblendet werden.

Abbildung 1: Die sichtbare und unsichtbare Textebene einer Webseite: Ein Screenshot der Startseite der Österreichischen Nationalbibliothek mit dem dazugehörigen HTML-Code. [Online] » https://www.onb.ac.at [24.11.2020]

Die Dateien, die der Browser für die Darstellung der Webseite abruft, werden auch vom Crawler geladen und gespeichert. Während der Browser auf die nächste Interaktion der Benutzer*innen wartet, folgt ein Crawler automatisch allen Links in dieser und jeder weiteren HTML-Datei. Das passiert so lange, bis bestimmte vorher definierte Grenzen erreicht sind (Objektanzahl, Speichermenge, Crawltiefe). Alle dabei gesammelten Web-Objekte werden in Archivdateien mit den dazugehörigen Metadaten des Crawls gespeichert.

Im Webarchiv Österreich befinden sich über eine halbe Million dieser Archivdateien mit Milliarden von gecrawlten Web-Objekten, die mit einer URL und einem sekundengenauen Zeitstempel exakt identifiziert werden können. So kann man durch eine Art Zeitmaschine für das Web Zugriff auf das archivierte Web bekommen. Auf Basis aller URLs und der jeweiligen Zeitstempel, können alle vorhanden Zeitschnitte einer Webseite wieder rekonstruiert werden. Die bekannteste Zeitmaschine, die auf diese Weise eine Reise in die Vergangenheit des Webs ermöglicht, ist die sogenannte Wayback-Machine[3], die vom Internet Archive stammt und von der Österreichischen Nationalbibliothek und vielen anderen internationalen Webarchiven verwendet wird. Nach Eingabe einer Webadresse wird den Benutzer*innen eine Seite mit den einzelnen chronologisch geordneten Zeitschnitten dieser Webadresse angezeigt.

Suchergebnis im Webarchiv Österreich und im Internet Archive — Abbildung 2: Nach Eingabe der Webadresse » http://www.onb.ac.at in der Wayback Machine des Webarchivs Österreich und des Internet Archives wird den Benutzer*innen eine Seite aller gesammelten Zeitschnitte chronologisch angezeigt. [Online] » https://webarchiv.onb.ac.at bzw. » https://archive.org/web/ [24.11.2020]

Wird ein bestimmter Zeitschnitt ausgewählt, wird diese gespeicherte Version aus dem Webarchiv mit den notwendigen referenzierten Dateien, in der zeitlich nähesten Version geladen und im Browser dargestellt. Um eine weitere Navigation im archivierten Web möglich zu machen, werden in jeder geladenen HTML-Datei alle Referenzen um eine zeitliche Komponente erweitert. Öffnen Benutzer*innen im Webarchiv eine Seite zu einem bestimmten Zeitschnitt und folgen im Browser einem Link, so wird ausgehend vom Zeitstempel der Ausgangsseite, der nächst liegende Zeitschnitt der verlinkten Seite aus dem Webarchiv geladen und angezeigt.

Abbildung 3: Die sichtbare und unsichtbare Textebene einer rekonstruierten Webseite: Ein Screenshot der Startseite der Österreichischen Nationalbibliothek vom 28.11.2011 mit dem dazugehörigen HTML-Code. Grün gekennzeichnet ist der Zeitstempel der veränderten Referenzen im HTML-Code. [Online] » https://webarchiv.onb.ac.at/web/20111128170118/http://www.onb.ac.at [24.11.2020]

Nur selten wird eine verlinkte Seite den gleichen sekundengenauen Zeitstempel besitzen, da während eines Crawlvorganges nie alle Web-Objekte zeitgleich abgerufen und gespeichert werden können. Daher kann nicht gewährleistet werden, ob sich eine Webseite während des Crawls verändert hat oder nicht. Theoretisch wäre ein "Einfrieren" des Onlinewebs für die Dauer des Crawlvorganges die einzige Lösung. Praktisch lässt sich das höchstens für einzelne Webseiten durchführen. Um festzustellen, ob sich eine Webseite innerhalb eines Zeitraumes verändert hat, müsste sie zweimal hintereinander gecrawlt und daraufhin beide Archivversionen miteinander verglichen werden. Weisen beiden Versionen keine Unterschiede auf, handelt es sich um einen kohärenten Crawl.[4]

Durch die Architektur und die Dynamik des Webs ist es "niemals nachvollziehbar, ob, wann und wo das Web aktualisiert wurde"[5]. Für eine archivierte Webseite könnte es ein Original geben, aber in den meisten Fällen wird es nicht mehr vorhanden sein. Zudem besteht beim Crawlen von komplexen Webseiten immer die Gefahr eines Informationsverlustes, wenn ein Crawler nicht dieselben Fähigkeiten eines Browsers besitzt. Wie bei einem nicht kohärenten Crawl, entstehen dabei archivierte Webseiten, die so nie existiert haben. Demnach wird das archivierte Web in seiner Rekonstruktion im Webarchiv sozusagen „wiedergeboren“, es wird als ein "reborn digital medium"[6] bezeichnet.

Benutzer*innen von Webarchiven müssen sich bewusst sein, dass trotz der enormen verfügbaren Datenmengen, immer wieder Lücken und Inkonsistenzen bei der Anzeige von archivierten Webseiten auftreten können. Das Wissen über die komplexe Struktur des Webs ist hilfreich beim Erkennen, wie nahe die Rekonstruktion einer Webseite dem nicht mehr vorhandenen Original gekommen ist.

Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtischen Versicherungsverein für die Unterstützung des Webarchivs Österreich.

Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.

[1] Vgl. : Predikaka, Andreas (2020): "Wie das österreichische Web im Archiv landet", [online] » https://www.onb.ac.at/mehr/blogs/detail/wie-das-oesterreichische-web-im-archiv-landet-3 [26.07.2023]
[2] Diese drei technischen Komponenten charakterisieren das Web. Vgl. Brügger, Niels (2018): The Archived Web. Doing History in the Digital Age, Cambridge London: The MIT Press, 23
[3] Benannt nach der Zeitmaschine WABAC, mit der die Hauptcharaktere der 1960er Zeichentrickserie "The Adventures of Rocky and Bullwinkle and Friends" durch die Geschichte reisen. [Online] » https://youtu.be/6V7M4AfTOrw?t=205 , [24.11.2020]
[4] Vgl. Spaniol, Marc et. al.: Data Quality in Web Archiving, [online] » https://web.archive.org/web/20201119235216/https://www.researchgate.net/profile/Marc_Spaniol/publication/221023143_Data_Quality_in_Web_Archiving/links/58764c5808ae8fce492dcd75/Data-Quality-in-Web-Archiving.pdf [24.11.2020]
[5] Brügger 2018: 87
[6] "digitized - born digital - reborn digital media". Vgl. Brügger 2018: 5f

Wie das österreichische Web im Archiv landet

03.09.2020 Forschungsblog

Autor: Andreas Predikaka

Das Web, das seit über 30 Jahren immer stärker Geschehen und Wissen unserer Welt abbildet, erweist sich als äußerst flüchtiges Medium. Unterschiedlichen Studien zufolge haben Webseiten eine durchschnittliche Lebensdauer von 44 bis 100 Tagen[1]. Es gibt Webseiten, die bleiben Jahre unverändert, andere ändern sich mehrmals täglich, Social-Media-Seiten wiederum liefern gar bei jedem Aufruf einen anderen Inhalt.

Dass Webinhalte, genauso wie Handschriften, Bücher oder Zeitungen zum kulturellen Erbe eines Landes gehören und deshalb schützenswert sind, wird immer bekannter, wie die steigenden Zugriffszahlen auf das Webarchiv Österreich zeigen.

Seit am 1. März 2009 in Österreich die Mediengesetznovelle[2] in Kraft getreten ist, kümmert sich die Österreichische Nationalbibliothek um die Archivierung des österreichischen Web Contents. Dabei bewegt sich ein spezielles Programm, ein sogenannter Crawler, durch das österreichische Web und legt eine Kopie der österreichischen Webseiten im Archiv ab. Ausgehend von einer Liste mit Adressen von Webseiten (Seeds) ruft der Crawler die Inhalte der einzelnen Seeds ab, speichert sie, extrahiert alle verfügbaren Links und folgt diesen nach einer Reihe definierter Regeln, die beispielsweise Crawl-Tiefe, Objektanzahl oder Speichermenge bestimmen.

Abb. 1: Vereinfachte Darstellung der Funktionsweise eines Crawlers

Domain Crawl

Auf diese Weise wird versucht, einen signifikanten Teil des nationalen Webspaces zu sammeln und zu archivieren. Diese komplexe Aufgabe der Datensammlung wird durch die Kombination verschiedener Sammlungsmethoden bewerkstelligt. Beim sogenannten Domain Crawl werden alle Domains unterschiedlicher Top-Level-Domains anhand von Gesamtlisten der jeweiligen Registrierungsstelle als Ausgangsseeds für einen Crawl verwendet. Zusätzlich zur österreichischen .at Domain, inklusive aller Second-Level-Domains (.or.at, co.at, ac.at, gv.at, priv.at), werden seit Einführung von generischen Domains auch die kompletten Domainlisten der Top-Level-Domain .wien und .tirol verwendet. Ergänzt werden diese Listen mit Adressen von Webseiten österreichischer Medieninhaber*innen, die über andere Top-Level-Domains erreichbar sind. Da es dafür keine Verzeichnisse gibt, werden solche Adressen laufend von Webkurator*innen für den Domain Crawl gesammelt. Auch Leser*innen sind aufgerufen dem Webarchiv Österreich auf https://webarchiv.onb.ac.at Webseiten mit Österreichbezug zur Archivierung zu übermitteln.

Um mit dem verfügbaren Speicherbudget eines Domain Crawls einen möglichst repräsentativen Ausschnitt aller Domains zu sammeln, wird ein Domain Crawl mehrstufig durchgeführt. In der ersten Stufe werden alle Domains bis zu einer bestimmten Speichergrenze gecrawlt. Die Domains, die diese Grenze überschritten haben, werden in der nächsten Stufe bis zu einer weiteren größeren Speichergrenze gecrawlt. Danach verbleiben nur mehr Domains mit sehr viel Content, die in einem abschließenden Crawl komplett gespeichert werden. Auch wenn aus Kapazitätsgründen das Webarchiv Österreich bisher immer zweistufig crawlte (Speichergrenzen von 10 und 100 Megabytes), so konnten in den ersten vier Domain Crawls dennoch über 95 Prozent aller Domains vollständig archiviert werden[3]. Wenngleich der Gesetzgeber der Österreichischen Nationalbibliothek erlaubt bis zu vier Domain Crawls im Jahr durchzuführen, so kann aufgrund der benötigten großen Speichermengen derzeit nur ein Domain Crawl pro Jahr stattfinden.

Selektiver Crawl

Aufgrund der geringen Frequenz von Domain Crawls würden besonders bei Webseiten, die häufigen Änderungen unterliegen, zahlreiche Inhalte für die Webarchivierung verloren gehen. Aus diesem Grund werden zu bestimmten Themenbereichen wie Medien, Politik, Wissenschaft und Behörden von Webkurator*innen wichtige Webseiten ausgewählt. Für diese Seiten werden geeignete Crawl-Intervalle festgelegt und regelmäßig Selektive Crawls durchgeführt. So werden z.B. Nachrichten-Webseiten und Seiten politscher Parteien täglich gespeichert, um die wesentlichen Inhalte zu archivieren.

Event Crawl

Eine Sonderform des Selektiven Crawls ist der Event Crawl, bei dem Inhalte zu bestimmten Ereignissen archiviert werden. Zahlreiche Webseiten stehen oft nur für den Zeitraum eines Ereignisses zur Verfügung und verschwinden danach sehr rasch. Unter Berücksichtigung der geschätzten durchschnittlichen Lebensdauer einer Webseite besteht jedenfalls das Risiko, dass Seiten bis zum nächsten geplanten Domain Crawl bereits wieder verschwunden sind. Klassische Themen für Event Crawls sind z.B. Veranstaltungen oder Wahlen. In der Regel werden mit dem Event Crawl geplante Ereignisse abgedeckt, bei denen die Dauer bekannt ist und ausgehend davon eine bestimmte Crawl-Dauer definiert werden kann. Exakt planbar waren zum Beispiel die Crawls zu den Olympische Winterspielen 2010 und 2014 oder der Eurovision Song Contest 2015, der in Österreich stattfand. Die Crawl-Dauer wurde dabei über die Länge der Veranstaltung inklusive einer definierten Vor- und Nachlaufzeit bestimmt. Crawls zu Wahlen beginnen mit der Zulassung der wahlwerbenden Personen oder Parteien und enden mit dem Beginn der Amtstätigkeit der gewählten Person oder Regierung. Die Dauer dieser Crawls ist somit nicht präzise vorhersehbar, so dauerte der Crawl zur Bundespräsidentenwahl 2016 aufgrund mehrerer Wahlwiederholungen ungewöhnlich lange.

Ad-hoc Crawl

Es kann aber auch sein, dass es plötzlich notwendig wird, Webseiten zu einem bestimmten Thema zu archivieren. Diese spontanen Event Crawls werden auch Ad-hoc Crawls genannt. In so einem Fall ist es natürlich nicht absehbar, wie lange ein Crawl dauern wird. Die 2015 plötzlich auftretende Flüchtlingsbewegung bewirkte einen Event Crawl, der erst nach einigen Jahren beendet wurde. Das bekannte Ibiza Video löste einen Event Crawl zu einer Regierungskrise aus, der erst nach mehreren Folgeereignissen (Entlassung der Regierung, Übergangsregierung, Neuwahlen und Regierungsbildung) beendet werden konnte. In so einem Fall werden natürlich während des Events laufend Webseiten hinzugefügt und die Crawl-Intervalle nach deren Änderungsverhalten angepasst. Seit März dieses Jahres läuft der bisher größte Event Crawl zur Corona-Krise. Ein Ereignis, das in alle Bereiche der Gesellschaft eingriff und sich im gesamten österreichischen Web widerspiegelt. Ein Ende dieses Crawls ist noch lange nicht absehbar und laufend werden neue Seiten dafür ausgewählt und gespeichert. In diesem Fall bekommt der Domain Crawl für 2020 einen ganz besonderen Stellenwert, da so eine sehr große Anzahl an Seiten mit Corona-Bezug automatisch ins Archiv wandern werden, die ansonsten kuratorisch nicht berücksichtigt hätten werden können.

Abb. 2: Die kombinierte Crawling-Strategie der Österreichischen Nationalbibliothek. Nach Andersen, Bjarne (2006): The DKdomain: in words and figures, [online] https://web.archive.org/web/20200827125125/http://netarkivet.dk/wp-content/uploads/DFrevy_english.pdf [27.08.2020]

Eine laufende vollständige Sammlung des österreichischen Webs ist mit den derzeitigen Ressourcen nicht realistisch, es wird aber versucht mit der eben beschriebenen Crawling-Strategie und bewusstem Mut zur Lücke ein möglichst umfangreiches und aussagekräftiges Abbild des österreichischen Webspaces für zukünftige Generationen zu sichern. Bis heute konnte so ein Datenbestand von über 145 Terabytes (entspricht über 3,8 Milliarden digitalen Objekten) aufgebaut werden.

Das Webarchiv Österreich wird bereits seit vielen Jahren vom Wiener Städtische Versicherungsverein unterstützt, wofür wir uns sehr herzlich bedanken.

Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.

[1] Taylor, Nicholas (2011): The Average Lifespan of a Webpage, [online] https://web.archive.org/save/https://blogs.loc.gov/thesignal/2011/11/the-average-lifespan-of-a-webpage/ [27.08.2020]
[2] Änderung des Mediengesetzes: BGBl. I Nr. 8/2009, [online] https://web.archive.org/web/20200827142329/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html [27.08.2020]
[3] Mayr, Michaela / Andreas Predikaka (2016): Nationale Grenzen im World Wide Web - Erfahrungen bei der Webarchivierung in der Österreichischen Nationalbibliothek. In: BIBLIOTHEK Forschung und Praxis 40/1, 90–95, [online] https://doi.org/10.1515/bfp-2016-0007 [27.08.2020]

Merkliste

Hier sehen Sie Ihre gespeicherten Rechercheergebnisse, die sie in unserem online Suchportal oder an den Terminals vor Ort in der Bibliothek aufrufen können. Wie funktioniert die Merkfunktion?

Merkliste öffnen

Möchten Sie eine gespeicherte Linkliste aufrufen? Geben Sie einfach den Ihnen bekannten Code für eine Merkliste ein und klicken Sie auf Merkliste öffnen.

Merkliste speichern

Möchten Sie diese Linkliste in der Bibliothek aufrufen? Das geht ganz einfach: Klicken Sie Merkliste speichern und ein Code wird Ihnen am Schirm angezeigt, mit dem Sie in der Bibliothek diese Liste wieder aufrufen können. Wenn Sie auch eine E-Mail Adresse angeben, erhalten Sie ein E-Mail mit diesem Code (Ihre E-Mail Adresse wird nicht von uns gespeichert und nur einmalig für diesen Vorgang verwendet).

URN:PWID-Auflösung für das Webarchiv Österreich und andere Webarchive

Auf dieser Seite können Sie Persistent Web IDentifiers (PWID) für archivierte Webseiten auflösen, die im Webarchiv österreich, im Internet Archive, im Portugiesischen Webarchiv und im Isländischen Webarchiv gespeichert sind. Geben Sie eine gültige urn:pwid oder eine gültige Webarchiv-URI in das folgende Feld ein und klicken Sie auf "Auflösen".

Beispiele gültiger URNs:

urn:pwid:webarchiv.onb.ac.at:2013-12-03T17:03:03Z:page:http://m.onb.ac.at/prunksaal.htm
urn:pwid:webarchiv.onb.ac.at:2016-04-21T19:48:28Z:page:http://www.bmi.gv.at/cms/bmi_minister/
urn:pwid:archive.org:2022-11-27T18:33:21Z:page:https://www.iana.org/assignments/urn-formal/pwid
urn:pwid:arquivo.pt:2009-10-15T02:17:21Z:page:http://www.onb.ac.at
urn:pwid:vefsafn.is:2015-06-28T06:00:45Z:page:http://www.onb.ac.at

Beispiele gültiger Webarchiv URIs:

https://webarchiv.onb.ac.at/web/20131203170303/http://m.onb.ac.at/prunksaal.htm
https://web.archive.org/web/20221127183321/https://www.iana.org/assignments/urn-formal/pwid
https://arquivo.pt/wayback/20091015021721/http://www.onb.ac.at
https://vefsafn.is/20150628060045/http://www.onb.ac.at

PWID

Resolver URL

Resolver URL HTML

mit dem Online-Formular

Wir nehmen gerne Vorschläge zur Archivierung an. Natürlich können Sie auch Ihre eigene Webseite nominieren.

Url oder Domainnamen

Bitte eine Url oder einen Domainnamen eingeben!

Name (optional)

Email (optional)

Bitte eine gültige Emailadresse eingeben!

Kommentar (optional)

mit dem Bookmarklet

Ziehen Sie nachfolgende Schaltfläche in Ihre Lesezeichen-Symbolleiste und Sie können Webseiten mit einem Klick nominieren!

Url nominieren

Gerne beantworten wir Ihre Fragen und freuen uns über Feedback.

Nachricht

Bitte eine Nachricht eingeben!

Name (optional)

Email (optional)

Bitte eine gültige E-mail-Adresse eingeben!

Allgemein

Was heißt eigentlich „Ablieferungspflicht für Online-Medien” genau? Was muss ich tun, gestatten oder unterlassen?

Ablieferungspflicht für Online-Medien heißt, dass die ÖNB aufgrund einer seit 1. März 2009 in Kraft getretenen Novelle des Mediengesetzes (§ 43b MedienG) einerseits zur generellen automatisierten Sammlung (Harvesting) bis maximal 4 mal im Jahr von Medieninhalten unter einer .at-Domain (bzw. unter eine anderen Domain, soweit die Seiten einen inhaltlichen Bezug zu Österreich aufweisen) und andererseits zur gezielten Sammlung einzelner periodischer elektronischer Medien (Websites, e-Journals, e-Books usw.) berechtigt ist. Lediglich in letzterem Fall ist fallweise eine Mitwirkungspflicht des Medieninhabers gegeben, d.h. der Medieninhaber hat für den Fall einer Aufforderung durch die ÖNB die Daten zur Verfügung zu stellen.
Grundsätzlich werden Medieninhalte mittels Harvesting gesammelt, hierfür sind keine Schritte durch den Medieninhaber notwendig. Wenn die Abholung nicht mit Harvesting machbar ist, kann das im Einzelfall entweder eine Bereitstellung zur Abholung durch die ÖNB sein bzw. eine Übermittlung der Daten auf einem anderen Transferweg, den beide - Medieninhaber und ÖNB - als den geeignetsten ansehen.

Wie werden die Daten gesammelt?

Der größte Teil durch Bereitstellung zur Abholung (z.B. über Harvesting, siehe Webarchivierung) durch die ÖNB, bei Bedarf durch Ablieferung (= Übermittlung der Daten via Standardschnittstellen).

Welche Produkte und Produkttypen plant die ÖNB zu sammeln?

Ausschließlich rein digital produzierte Medien, d.h. die ÖNB wird nicht mehrfach gleiche Inhalte sammeln. Wird ein Medium bereits in gedruckter bzw. in offline Form abgeliefert, muss die Online-Variante nicht nochmals abgeliefert werden.
Reine Online-Medien: Elektronische Publikationen: e-Journals, elektronische Lexika, e-Books, e-Prints, online-Tageszeitungen, Websites etc.
Semi-publizierte Dokumente: z.B. elektronische Dissertationen
Nicht in Printfrom publiziertes, aber wissenschaftlich relevantes und zitiertes Material in digitaler Form: z.B. Forschungspapiere, Pre-prints, Berichte etc. auf Websites von Wissenschaftler*innen oder Forschungsprojekten.
Generell nicht gesammelt und archiviert werden Ressourcen, deren Inhalte überwiegend einer der folgenden ist: Verzeichnisse (Linklisten), Diskussionslisten, News Groups u.ä., Anwendungsprogramme (Software), Spiele, Veranstaltungskalender und Werbung.

Welche Text-, Bild-, Ton-, Video-Files in E-Books, E-Journals, XML-Datenbanken und anderen Datenbanken sollen gesammelt werden?

Schwerpunkt der ÖNB ist Text- und Bildmaterial in Weiterführung des bisherigen Sammelauftrags. Die ÖNB wird daher z.B. keine Inhalte von Audioplattformen oder Bildagenturen sammeln, sollten aber z.B. in einem E-Book ein Audiofile bzw. Bilder enthalten sein, so soll das E-Book in seiner Gesamtheit archiviert werden.

Wie geht die ÖNB mit Online-Anwendungen um?

Augenmerk liegt auf den jeweiligen Inhalten, die Applikationen selbst werden nicht gesammelt. Wo keine Trennung des Inhalts von der Applikation möglich ist, kann zum derzeitigen Zeitpunkt das Medium nicht gesammelt werden.

Webarchivierung

Warum Webarchivierung?

Ein immer größerer Teil der weltweit produzierten Information ist digital. Gedächtnisinstitutionen - also Archive, Bibliotheken, Museen und verwandte Einrichtungen -, deren Aufgabe es ist, unser kulturelles Erbe zu sammeln, zu archivieren und zugänglich zu machen, sehen sich mit der Herausforderung konfrontiert, auch dieses digitale Wissen für die Zukunft zu sichern. Die Österreichische Nationalbibliothek verfolgt mit dem Projekt Webarchivierung das Ziel der Sammlung und Archivierung des „österreichischen Internet”.

Strategien zur Webarchivierung?

Durch eine Kombination der Strategien Domain Harvesting (Top-Level-Domäne .at, sowie andere Top-Level-Domänen mit Österreich Bezug, wie z.B. com, .net, .org, .info, .cc, .eu etc.), Selektives Harvesting (Seiten, die häufigen Änderungen unterliegen wie z.B. Medien, Behörden, Wissenschaft etc.) und Event Harvesting (Online-Inhalte zu speziellen Anlässen und Großereignissen, z.B. Nationalratswahlen) sollen möglichst aussagekräftige Momentaufnahmen des österreichischen Webspace geschaffen und für die Nachwelt festgehalten werden.

Wie funktioniert Webarchivierung? Welche Software wird verwendet?

Die ÖNB verwendet zum Harvesting das Software Paket NetarchiveSuite (http://netarchive.dk/index-en.php), das im Rahmen des dänischen Webarchivierungsprojekts von der Königlichen Bibliothek und der Staatsbibliothek Dänemark entwickelt wurde. Die Daten werden ähnlich wie bei einem Webbrowser vom Host angefordert. Die Software folgt Links innerhalb einer Webseite und sammelt alle gefundenen Dateien. Datenbank-generierte Seiten können gesammelt werden, nicht jedoch Seiten, die passwortgeschützt sind. Es wird ausschließlich Open Source Software verwendet. Der Zugriff erfolgt mittels Wayback Machine.

Darf die ÖNB meine Seite archivieren?

Die Österreichische Nationalbibliothek hat einen gesetzlichen Auftrag (Mediengesetz) zur Archivierung des österreichischen Webspace und ist daher berechtigt, Seiten mit .at Domain sowie Seiten mit Österreich Bezug zu archivieren.

Muss ich meine Seite für die Webarchivierung vorbereiten? Sind von meiner Seite Schritte notwendig?

Für die Webarchivierung ist vonseiten des Medieninhabers keinerlei Vorbereitung notwendig.

In welchen Intervallen plant die ÖNB ihre Daten zu sammeln?

Domain Harvestings (gesamte .at Domain sowie Seiten mit Österreich Bezug) werden alle 2 Jahre durchgeführt. Für selektive und Event Harvestings werden in Abhängigkeit von Ereignis, Medium etc. geeignete Intervalle bestimmt.

Wird das Webarchiv kommerziell genützt?

Das Webarchiv der Österreichischen Nationalbibliothek dient wissenschaftlichen Zwecken und wird nicht kommerziell genützt. Es steht den Lesern in den Räumlichkeiten der ÖNB und in den berechtigten Bibliotheken unentgeltlich zur Verfügung.

Werden meine User die Archivversion mit der aktuellen Version meiner Webseite verwechseln?

Unserer Meinung nach besteht keine Verwechslungsgefahr. Der Zugriff auf die Seiten wird nur in den Räumlichkeiten der ÖNB möglich sein, nicht über Internet. Archivseiten werden klar als solche gekennzeichnet. Das Webarchiv der ÖNB wird nicht von Suchmaschinen wie z.B. Google indiziert, die Benützer der Suchmaschinen können daher nie auf eine Archivversion der Webseite verwiesen werden. Die Benützer des Webarchivs werden von der Verfügbarkeit von Material profitieren, das auf „live” Webseiten nicht mehr vorhanden ist.

Meine Seite verfügt über einen Passwort geschützten Bereich - wird dieser auch archiviert?

Zugangsgeschützte Bereiche werden nur archiviert, wenn es sich z.B. um einen Bereich handelt, der kostenpflichtig (Verlagsprodukte) aber prinzipiell für die Öffentlichkeit bestimmt ist. Nicht archiviert werden z.B. Intranets oder private zugangsgeschützte Daten.

Woher bekommt die ÖNB Informationen über Domains?

Die Liste der .at Domains wird der ÖNB von der Österreichischen Domain Registrierungsstelle nic.at zur Verfügung gestellt. Seiten mit generischen Top Level Domains werden manuell oder mit speziellen Verfahren eruiert.

Ich gestalte eine neue Website - kann ich sie zur Archivierung anmelden?

Sie können uns gerne Ihre URL mitteilen. Sollte sie unseren Sammlungskriterien entsprechen, nehmen wir die Seite gerne in das Harvesting auf. Die endgültige Entscheidung über die Aufnahme liegt bei der ÖNB.

Heißt das die ÖNB wird meine Seite hosten?

Nein, Webseiten-Betreiber sind nach wie vor selbst für das Hosting ihrer Seiten verantwortlich.

Warum werden robots.txt und Meta-Tag robots vom Crawler ignoriert?

Die Österreichische Nationalbiliothek betreibt die Webarchivierung im gesetzlichen Auftrag, dieser ist vorrangig zu berücksichtigen.

Wie stark wird mein Server durch den Crawler belastet?

Die Webcrawler der ÖNB sind so konfiguriert, dass Ihre Serverbelastung möglichst gering gehalten wird. Sollten dennoch technische Probleme durch das Webharvesting entstehen, ersuchen wir Sie uns zu kontaktieren (webarchiv@onb.ac.at, siehe Information in der Crawler Signatur).

Die Webauftritte der Zeitungen sind dadurch charakterisiert, dass sie stark auf fremde Websites verlinken, insbes. bei werblichen Inhalten, die personalisierte Werbebotschaften an User senden. Soll eine Archivierung auch diese externen Inhalte umfassen?

Externe Inhalte werden nicht gesammelt.

Wer trifft die Auswahl der Seiten?

Die Auswahl der Seiten wird von sogenannten Web-Kuratoren im Einklang mit der Sammlungspolicy getroffen.

Was ist der Unterschied zu archive.org?

Das Internet Archive ist eine Non Profit Organisation, die 1996 in den USA gegründet wurde mit dem Ziel Forschern Zugriff zu historischen digitalen Sammlungen zu ermöglichen. Das Webarchiv der Österreichischen Nationalbibliothek sammelt ausschließlich Inhalte mit .at Domain oder Österreich Bezug, auf Basis des österreichischen Mediengesetzes.

Wie kann ich auf die archivierten Daten zugreifen?

Für den Zugriff in der Österreichischen Nationalbibliothek stehen spezielle Terminals zur Verfügung, die den gesetzlichen Bestimmungen angepasst sind (z.B. kein E-Mail Versand etc.). Aus rechtlichen Gründen wird der Zugriff auf das Webarchiv nur in den Räumlichkeiten der Österreichischen Nationalbibliothek und bei berechtigten Bibliotheken möglich sein.

Ablieferung

Wer trägt die Kosten für die Einrichtung einer Schnittstelle?

Zusammen mit dem Medieninhaber wird die jeweils günstigste und rationellste Form der Datenüberspielung festgelegt. Dabei kommt entweder ein Web-Harvesting zum Einsatz, oder eine Datenüberspielung über vorhandene Standardschnittstellen (wie http, (S)FTP). Sollte für die Datenlieferung die Einrichtung einer Schnittstelle notwendig sein, deren Kosten 250 EUR übersteigt, so ist die ÖNB vom Medieninhaber darüber zu informieren. Wenn die ÖNB die Aufforderung zur Ablieferung wiederholt, übernimmt sie den darüber hinausgehenden Kostenanteil.

Mit einer Online-Übermittlung bin ich aus Sicherheitsgründen nicht einverstanden; wäre die ÖNB bereit, die Daten regelmäßig abzuholen?

Es besteht die Möglichkeit, Daten auch offline auf DVD zu übermitteln. Für DVD hat sich schon der herkömmliche Postweg bewährt. Abholung durch die ÖNB kann nur online erfolgen.

Meine Datenbank umfasst mehrere Terabyte. Wie soll ich diese physikalisch übermitteln?

Die ÖNB wird nicht die gesamte Datenbank übernehmen, sondern nur die Inhalte. Bei mehreren Terabyte „auf einmal” wird nur eine sukzessive Online-Übermittlung infrage kommen.

Welche Abläufe bei der Ablieferung können auf Seiten der ÖNB automatisiert werden?

Alles, das über standardisierte Schnittstellen mit Timestamps automatisierbar ist, z.B. Harvesten, Downloads, FTP. Das Automatisieren der Ablieferung bei größeren Datenmengen ist auch für die ÖNB von essentieller Bedeutung.

Meine Abonnement-Zeitschrift erscheint vorab elektronisch („online first”) - für welches Medium besteht die Ablieferungspflicht?

Primär für das gedruckte Medium.

Zu meiner gedruckten Zeitschrift gibt es eine Website mit reinen Marketing-Inhalten (Auszug aus dem Inhaltsverzeichnis, Bestellmöglichkeit etc.). Besteht Ablieferungspflicht für die Website?

Nein.

Zu meiner gedruckten Zeitschrift gibt es ein webbasiertes Forum (moderiert oder nicht moderiert) Besteht Ablieferungspflicht?

Nein.

Meine Webapplikation ist datenbankgestützt; ohne User Interface sind die Datensätze nicht sinnvoll lesbar. Besteht Ablieferungspflicht?

Wenn die Datensätze ohne Applikation nicht lesbar sind, besteht keine Ablieferungspflicht. Wenn der Inhalt ohne Applikation lesbar ist, wird nur der Inhalt gesammelt.

Recht

Meine Website ist kostenpflichtig und daher passwortgeschützt. Muss ich der Österreichischen Nationalbibliothek dieses Passwort mitteilen? Gibt sie es weiter? An die Landesbibliotheken? An die Benutzer?

Wenn die Österreichische Nationalbibliothek die Daten downloaden bzw. harvesten kann und die Site passwortgeschützt ist, benötigt die Österreichische Nationalbibliothek zum Zweck des Datenerwerbs das Passwort. Die Österreichische Nationalbibliothek gibt dieses selbstverständlich weder an andere Bibliotheken noch an Benutzer*innen weiter.

Kann ich für meine Daten eine Sperrfrist verhängen?

Für einzelne besonderen Bedingungen unterliegenden Medien für maximal ein Jahr. Diese muss jedoch schriftlich begründet werden. Die Sperrfrist sollte nicht die Regel sein.

Habe ich ein Widerrufsrecht?

Nein, Daten die im Archiv gespeichert sind, werden nicht gelöscht. Sollte ein Gerichtsurteil zur Zurücknahme ergehen (analog zum Printbereich), sperrt die Österreichische Nationalbibliothek das Medium generell für jegliche Benutzung.

Was ist, wenn ich einzelne (Teile von) Beiträge(n) wieder vom Netz nehme, z. B. wegen rechtlicher Bedenken, nachdem die Ablieferung an die Österreichische Nationalbibliothek bereits erfolgt ist. Bleiben diese in der Österreichischen Nationalbibliothek dennoch auf immer gespeichert und für Benutzer zugänglich?

Diese Problematik wird analog zur Regelung bei Druckwerken gehandhabt. Beiträge werden demnach grundsätzlich archiviert und zur Benützung zur Verfügung gestellt. Von der Benützung werden Sammlungsgegenstände nur aufgrund gerichtlicher Anordnung ausgeschlossen, oder bei begründetem Verdacht einer strafbaren Handlung. Die Österreichische Nationalbibliothek trifft diesbezüglich keine Überprüfungspflicht, sie ist insbesondere nicht verpflichtet, die Stichhaltigkeit der rechtlichen Argumente zu prüfen, die für oder gegen eine Benützung sprechen.
Anmerkung: die Sperre der Benützung wegen des Verdachts einer strafbaren Handlung wird an der Österreichischen Nationalbibliothek restriktiv gehandhabt und findet fast ausschließlich bei revisionistischer Literatur Anwendung. Die „gewandelte Überzeugung” einer Autorin/eines Autors alleine (z.B. der Hinweis auf eine wesentlich bessere neue Auflage) ist für eine Benützungssperre nicht ausreichend (bei obigem Beispielsfall sind z.B. beide Auflagen benützbar).

Wie werden die Urheberrechte und verwandte Schutzrechte beachtet und welche Schutzmaßnahmen werden hier getroffen?

Die abgelieferten Medieninhalte werden von der Österreichischen Nationalbibliothek nur an ihrem Standort sowie bei berechtigten Bibliotheken zugänglich gemacht. Bei bestimmten elektronischen periodischen Medien erfolgt eine Benützung im Sinne von single concurrent user on site (zum gleichen Zeitpunkt jeweils nur ein Benutzer der betreffenden Bibliothek). Eine elektronische Vervielfältigung der Medieninhalte ist nicht mögich, Ausdrucke können angefertigt werden.

Der Server meiner Online-Inhalte steht in Deutschland. Wo besteht Ablieferungspflicht?

Verpflichteter nach Mediengesetz ist in der Regel der Medieninhaber, wobei für die Ablieferungspflicht der Sitz des Medieninhabers ausschlaggebend ist. Wo der Server konkret steht, ist dabei irrelevant. Ablieferungspflicht soll also für den Medieninhaber mit Sitz in Österreich bestehen.

Meine Online-Redakteure haben ein vertragliches Zustimmungsrecht für jede Nebenrechtsverwertung. Handelt es sich bei der Pflichtablieferung um eine solche Nebenrechtsverwertung?

Nein. Die Erfüllung der mediengesetzlichen Anbietungs- bzw. Ablieferungspflicht ist weder ein Nebenrecht noch eine Verwertung, geschweige denn eine Nebenrechteverwertung. Eine Nebenrechteverwertung wäre etwa die Vertonung eines Textbeitrags als Hörspiel oder eine Aufführung als Theaterstück, jedenfalls aber nicht die Erfüllung einer gesetzlichen Verpflichtung durch den Medieninhaber. Eine vertragliche Verpflichtung, die die Erfüllung einer gesetzlichen Verpflichtung von einer individuellen Zustimmung abhängig machen würde, wäre zudem klar gesetzwidrig und jedenfalls nichtig.

Meine Online-Applikation ist multimedial; ich darf für die Foto- und Filmrechte aber nicht sublizensieren.

Vertragliche Vereinbarungen können generell gesprochen keine gesetzlichen Verpflichtungen „aushebeln”. Da aber eine Pflichtablieferung inhaltlich ohnehin keine Sublizenzierung ist, erscheint ein solches vertragliches Sublizenzierungsverbot auch nicht weiter problematisch.

Werden die Verlage gegebenenfalls für die Weitergabe zur Online-Archivierung schad- und klaglos gestellt?

Nein. Die Österreichische Nationalbibliothek erfüllt ihren Auftrag im Rahmen ihrer gesetzlichen Grundlagen, bezüglich ihrer Haftung gelten die allgemeinen Haftungs- und Schadenersatzregeln.

Wie werden die rechtlichen Probleme medienrechtlicher Verfahren (z.B. Gegendarstellung) gelöst?

Im Rahmen einer gesetzlichen Pflichtablieferung für Online-Produkte hat die Österreichische Nationalbibliothek die Aufgabe der Archivierung und Benützbarhaltung zu erfüllen. Abgesehen vom dringenden Verdacht einer strafbaren Handlung oder einer diesbezüglichen gerichtlichen Anordnung geht die Österreichische Nationalbibliothek davon aus, dass diese gesetzliche Verpflichtung von ihr vorrangig zu beachten ist.

Technik

Muss ich meine Daten für die Österreichische Nationalbibliothek in ein spezifisches Format bringen?

Die Österreichische Nationalbibliothek unterstützt Standardformate. Wenn es dem Medieninhaber nicht automatisiert möglich ist, die Daten in ein geeignetes Formate zu bringen, kann die Österreichische Nationalbibliothek entscheiden, ob sie trotzdem das medieninhabereigene Format sammeln will oder nicht.

Welche Standards (Ablauf, Technik) hat die Österreichische Nationalbibliothek zur Qualitätssicherung definiert?

Die Österreichische Nationalbibliothek verwendet sowohl für den Datentransfer, als auch für die Archivierung, die Sicherheit der Daten und Zugriffe etc. ausschließlich international gebräuchliche Standards.

Welche Schnittstellen unterstützt die Österreichische Nationalbibliothek?

Die Österreichische Nationalbibliothek unterstützt offene Standardschnittstellen zum Datentransfer wie: HTTP(S), (S)FTP, OAI-PMH.

Plant die Österreichische Nationalbibliothek für die Einspeisung der Inhalte in ihre Systeme die Verwendung proprietärer oder offener Schnittstellen? Welche? Wie schätzt die Österreichische Nationalbibliothek den Implementationsaufwand für solche Schnittstellen für ablieferungspflichtige Datenbankbetreiber ein?

Die Österreichische Nationalbibliothek setzt zum gegenwärtigen Zeitpunkt ausschließlich auf offene Schnittstellen und plant in diesem Zusammenhang auch nicht die Einführung proprietärer. Das Festhalten bzw. die Unterstützung offener Schnittstellen hat sich bis dato bewährt. Der Implementierungsaufwand für offene Schnittstellen ist weniger aufwändig als für proprietäre, darüber hinaus bieten offene Schnittstellen den Vorteil, sie für andere Anwendungen auch verwenden zu können.

Welche Anwendungsprogramme stehen den Benützern der Österreichischen Nationalbibliothek zur Verfügung (Mail-Client, Webmail, PDF-Erzeuger etc.)?

An den Terminals mit Zugang zum Archivsystem stehen den Benutzer*innen keine Anwendungsprogramme zur Verfügung mit Ausnahme diverser Viewer, um Medien betrachten zu können. Es besteht dort auch nicht die Möglichkeit, Medien zu speichern oder per Mail zu verschicken. Lediglich Ausdrucken ist möglich.

Plant die Österreichische Nationalbibliothek, in Zukunft Datenbanken in ihrer Gesamtheit (inklusive Datenbankapplikation) zu archivieren? Beschäftigt sie sich in diesem Zusammenhang mit dem Themen Virtualisierung und Migration von Datenbanken etc. oder beteiligt sie sich an einschlägigen Forschungsprojekten?

Die Österreichische Nationalbibliothek wird mittelfristig Inhalte aber keine Applikationen sammeln und archivieren. Die Österreichische Nationalbibliothek ist jedoch an internationalen Forschungsprojekten im Bereich Langzeitarchivierung beteiligt, bei denen Migration und Emulation von Datenbanken Thema ist (z.B. EU Projekt PLANETS). Der Österreichischen Nationalbibliothek (und allen anderen Gedächtnisinstitutionen als auch Partnern aus Wirtschaft und Industrie) ist bewusst, dass dieser Komplex zur größten Herausforderung zählt, die weder von einem Land alleine, geschweige denn von einer Institution alleine bewältigt werden kann. Lösungen in diesem Bereich können nur kollaborativ und international unter Miteinbeziehung der Industrie erarbeitet werden.

Teilweise sind auf Zeitungswebsites kurze Filmsequenzen als Videostream abrufbar. Sollen auch diese erfasst werden?

Nein, außer sie sind integraler Teil eines abzuliefernden Inhalts.

Soll auf die urheberrechtlich geschützten und von einzelnen Betreibern selbst entwickelten Redaktionssysteme zugegriffen werden?

Der Österreichischen Nationalbibliothek muss die Möglichkeit gegeben werden, auf die Inhalte zuzugreifen bzw. die Inhalte müssen der Österreichischen Nationalbibliothek übermittelt werden. Das kann nicht das Redaktionssystem selbst sein.

Wie kann ich suchen?

Sie können nach vollständigen Webadressen wie z.B. http://www.onb.ac.at suchen oder mit einem Suchbegriff im Volltext recherchieren. (Achtung: Nicht alle Webseiten sind über den Volltext auffindbar)

Wie kann ich archivierte Webseiten finden?

Sie können online recherchieren und herausfinden, welche Archivkopien vorhanden sind. Im Kalender Alle Versionen sehen Sie eine Übersicht aller vorhandenen Versionen. Mit dem Link zur Live Version können Sie herausfinden, welche Inhalte aktuell unter der URL verfügbar sind. (Achtung: Die Live Version ist möglicherweise nicht mehr verfügbar)

Die Anzeige der archivierten Webseiten ist online nicht erlaubt. Das Österreichische Mediengesetz ermöglicht den Zugang vor Ort an der österreichischen Nationalbibliothek und bei berechtigten Bibliotheken.

Wo kann ich archivierte Webseiten anzeigen?

Am Standort Heldenplatz stehen Ihnen drei spezielle Terminals für die Nutzung des Webarchivs zur Verfügung. Diese befinden sich im Untergeschoß, in der Recherchezone des neuen Centers für Informations- und Medienkompetenz (CIM).

Recherchezone im CIM

Terminals im CIM

Aktuell können Sie das Webarchiv auch bei folgenden Bibliotheken einsehen:

Wie funktioniert die Merkfunktion?

Nutzen Sie die Merkfunktion Merken um für Archivversionen ein Lesezeichen zu speichern, das Sie ganz einfach vor Ort in der Bibliothek wieder aufrufen können.

Mit Merken können Sie Lesezeichen für einzelne Archivversionen speichern. Unter Gemerkte Webseiten finden Sie alle gespeicherten Links. Diese können auch gelöscht werden.

Möchten Sie diese Linkliste in der Bibliothek aufrufen? Das geht ganz einfach: Klicken Sie Merkliste speichern und ein Code wird Ihnen am Schirm angezeigt, mit dem Sie in der Bibliothek diese Liste wieder aufrufen können. Wenn Sie auch eine E-Mail Adresse angeben, erhalten Sie ein E-Mail mit diesem Code (Ihre E-Mail Adresse wird nicht von uns gespeichert und nur einmalig für diesen Vorgang verwendet).

Welche Webseiten werden archiviert?

Unsere Sammelrichtlinien beinhalten grundsätzlich österreichische Webseiten. Die gesamte .at Domäne und andere geografische Domänen wie z.B. .wien werden alle zwei Jahre automatisiert gespeichert. Natürlich sind auch andere Domains wie .com etc. inkludiert, diese werden manuell ausgewählt. Diese umfangreiche Archivierungsmethode wird als Domain Crawl oder Domain Harvesting bezeichnet.

Zusätzlich archivieren wir Webseiten zu bestimmten Themen (z.B. Medien, Politik etc.) oder Ereignissen (z.B. Wahlen, Events etc.). Die von Kurator*innen ausgewählten Inhalte der sogenannten Selektiven und Event Crawls finden Sie unter Seeds.

Beim Sammeln von Webseiten gibt es einige (technische) Einschränkungen. Wir archivieren keine Streaming-Inhalte, keine dynamisch erzeugten Seiten (z.B. Suchergenbisse aus Datenbanken), keine flächendeckenden Einträge in Social Media (nur punktuell und themenbezogen öffentliche Profile).

Die Webarchiv-API ermöglicht einen REST-konformen Zugriff auf die öffentlich zugänglichen Daten des Archivs. Die Resultate werden im JSON-LD Format ausgeliefert.

Authentifizierung

Die Authentifizierung erfolgt durch Übermittlung eines API-Keys. Dieser Key kann per Mail an webarchiv@onb.ac.at beantragt werden und wird in der Regel innerhalb kurzer Zeit erzeugt. Für Testzwecke kann der Demo-Api-Key Zz2tQls7fuaocX2pjrfc2npojqbGwXL2 verwendet werden.

Nutzung

Um mit der Webarchiv API zu arbeiten, wird ein Access-Token benötigt, der durch einen HTTP POST-Request mit dem API-Key erzeugt wird und für alle nachfolgenden Abfragen verwendbar bleibt. Dieser Token erlischt 30 Minuten nach der letzten Nutzung. Abhängig von der Serviceanfrage wird eine Antwort sofort ausgeliefert oder eine Request-ID zurückgegeben, die dazu verwendet werden kann den aktuellen Status der Anfrage zu erfahren. Sobald diese Statusabfrage HTTP-OK liefert, wird in der Antwort auch das Resultat mitgeliefert und die Abfrage ist abgeschlossen.

GET /welcome

POST /authenticate

GET /search/domainname

GET /search/wayback

GET /search/fulltext

DELETE /search/kill

Dokumentation

Die aktuelle Schnittstellenbeschreibung bietet neben der Dokumentation aller verfügbaren Aufrufe auch die Möglichkeit diese über ein Swagger-Webinterface zu testen. In den ÖNB Labs stehen Beispiele zur Benutzung der Webarchiv-API in Python zur Verfügung.

Sucheinstellungen

Suchmodus

Hilfe zur Suche

URL-Suche

Volltextsuche

Tagesversionen

Webarchiv Österreich

Wir archivieren Webseiten im österreichischen Webspace. Suchen Sie hier in unserem Archiv.

Die Anzeige der Archivkopien ist aufgrund des österreichischen Mediengesetzes eingeschränkt. Der Zugriff auf die gespeicherten online Medien ist nur vor Ort in der Bibliothek möglich.

Suchen Sie nach Objekten oder in Texten

Versionen

Andere Webarchive

Seeds

Als Seeds werden Webseitenadressen bezeichnet, die als Ausgangspunkte für Crawls dienen. Sie werden zu speziellen Themen oder Ereignissen von Kurator*innen zusammengestellt und können hier im Volltext abgefragt werden.

Laufende Crawls

Event Crawls

Frau/Gender Kollektion

Diese Gruppen von Webseiten wurden zum Thema Frau/Gender von Kurator*innen zusammengestellt.

Team

Statistik

Meilensteine

Blog

Browsertrix-Crawling-Profile

Beschränkungen für Browsertrix-Crawling-Profile

Automatisierung für Browsertrix-Crawling-Profile

Menschliche Interaktion

Headless Mode – ohne Kopf? Ohne Bildschirm!

Die Automatisierungskette

Fußnoten:

Browser Based Crawling. Die Evolution des Webs

Browser Based Crawler - Browsertrix

Qualitätssteigerung durch den Einsatz von Browsertrix anhand der Website der Österreichischen Nationalbibliothek

Die Funktionsweise von Browsertrix

Browser Based Crawler hinter Logins und Paywalls

Fußnoten

Vom Scannen bis zur Webarchivierung: Emulation und Migration als Schlüssel zur Langzeitarchivierung

Digitale Langzeitarchivierung - Ein interdisziplinäres Projekt

Wozu eine Begriffsklärung?

Was ist das Problem?

Emulation

Migration, Vertrauenswürdigkeit und Authentizität

„Prinzipiell kann man nie genug über eine archivierte Datei wissen“7

Wie funktioniert die Identifizierung von Dateiformaten?

Qualitätskontrolle und ihre Konsequenzen

Beispiele:

1) Online Bereitstellung einer digitalisierten mittelalterlichen Handschrift - Reklamation eines fehlerhaften Scans

2) Pflichtablieferung Bundesgesetzblätter

Im Webarchiv ist alles anders

Fazit

Fußnoten:

Wie wird eine nationale Domain-Landschaft gecrawlt?

Datendeduplizierung. Wie das Webarchiv beim täglichen Crawlen von Webseiten Speicherplatz spart

Wie Sie Webseiten im archivierten Web suchen, finden und sich anzeigen lassen können

Wie entsteht die Kollektion Frau/Gender im Webarchiv der ÖNB? Webkurator*innen am Werk

Wie das archivierte österreichische Web wieder auf den Bildschirm kommt

Wie das österreichische Web im Archiv landet

Gemerkte Webseiten

Merkliste

Hier sehen Sie Ihre gespeicherten Rechercheergebnisse, die sie in unserem online Suchportal oder an den Terminals vor Ort in der Bibliothek aufrufen können. Wie funktioniert die Merkfunktion?

Merkliste öffnen

Möchten Sie eine gespeicherte Linkliste aufrufen? Geben Sie einfach den Ihnen bekannten Code für eine Merkliste ein und klicken Sie auf Merkliste öffnen.

Merkliste speichern

PWID

URN:PWID-Auflösung für das Webarchiv Österreich und andere Webarchive

Beispiele gültiger URNs:

Beispiele gültiger Webarchiv URIs:

PWID

Resolver URL

Resolver URL HTML

Nominieren

mit dem Online-Formular

Wir nehmen gerne Vorschläge zur Archivierung an. Natürlich können Sie auch Ihre eigene Webseite nominieren.

mit dem Bookmarklet

Ziehen Sie nachfolgende Schaltfläche in Ihre Lesezeichen-Symbolleiste und Sie können Webseiten mit einem Klick nominieren!

Kontakt

Gerne beantworten wir Ihre Fragen und freuen uns über Feedback.

FAQ

Allgemein

Was heißt eigentlich „Ablieferungspflicht für Online-Medien” genau? Was muss ich tun, gestatten oder unterlassen?

Wie werden die Daten gesammelt?

„Prinzipiell kann man nie genug über eine archivierte Datei wissen“⁷