Sucheinstellungen

Suchmodus

Looks good!
Looks bad!

Hilfe zur Suche

URL-Suche

Diese Suche zeigt alle Versionen der Url ...
http://www.onb.ac.at
http://www.onb.ac.at
http://www.onb.ac.at/images/onb_logo.png
http://www.onb.ac.at/images/onb_logo.png

Volltextsuche

Diese Suche findet z.B. Seiten mit ...
Österreichische Nationalbibliothek
Österreichische + Nationalbibliothek
"Österreichische Webseiten" und "in der Nationalbibliothek"
Österreichische | Nationalbibliothek
"Österreichische Webseiten" oder "in der Nationalbibliothek"
"Österreichische Nationalbibliothek"
"Österreichische Nationalbibliothek" aber nicht "in der Nationalbibliothek"
"Österreichische Nationalbibliothek" -Prunksaal
"Österreichische Nationalbibliothek" aber nicht "Prunksaal"
"http://www.onb.ac.at"
"http://www.onb.ac.at"
Einen Moment bitte ...

Tagesversionen

Österreichische Nationalbibliothek
  • Suche
  • Seeds
  • Frau/Gender Kollektion
  • Nominieren
  • Gemerkte Webseiten 
  • Hilfe

Webarchiv Österreich

Wir archivieren Webseiten im österreichischen Webspace. Suchen Sie hier in unserem Archiv.

Die Anzeige der Archivkopien ist aufgrund des österreichischen Mediengesetzes eingeschränkt. Der Zugriff auf die gespeicherten online Medien ist nur vor Ort in der Bibliothek möglich.

Ziehen Sie die folgenden Schaltflächen in Ihre Lesezeichen-Symbolleiste und Sie können mit einem Klick nach der im Browser angezeigten Webseite suchen oder diese nominieren

Url suchen Url nominieren

Suchen Sie nach Objekten oder in Texten
Für die Suche werden gecrawlte Webseiten im Zeitraum von berücksichtigt.

           

          • Kalender
          • Versionen
          • Andere Webarchive

          Versionen

          Andere Webarchive

          Seeds

          Als Seeds werden Webseitenadressen bezeichnet, die als Ausgangspunkte für Crawls dienen. Sie werden zu speziellen Themen oder Ereignissen von KuratorInnen zusammengestellt und können hier im Volltext abgefragt werden.

            Laufende Crawls

            Event Crawls

            Frau/Gender Kollektion

            Diese Gruppen von Webseiten wurden zum Thema Frau/Gender von KuratorInnen zusammengestellt.

              Team

              Das Team der Webarchivierung sammelt seit März 2009 österreichische Webseiten. Da das World Wide Web als Teil unseres kulturellen Erbes gilt, wollen wir online Medien erhalten, auch wenn sie bereits aus dem Live Web verschwunden sind. Wir archivieren die gesamte .at Domäne und ausgewählte Webseiten mit Österreich-Bezug.

              Im österreichischen Mediengesetz ist geregelt, was wir sammeln und anzeigen dürfen. Der online Zugriff auf Archivkopien ist aufgrund des Gesetzes eingeschränkt. Sie können die gespeicherten Webseiten vor Ort in der Bibliothek ansehen.

              Statistik

              Meilensteine

              • Vier Milliarden Objekte im Webarchiv November 2020

              • 10 Jahre Webarchiv März 2019

              • Online Zugriff auf das Webarchiv Herbst 2016

              • Eine Milliarde Objekte im Webarchiv November 2012

              • Zugriff auf das Webarchiv in der Bibliothek Juli 2010

              • Erster Domain Crawl Herbst 2009

              • Mediengesetznovelle Mediengesetznovelle März 2009

              • Projektstart Februar 2008

              Blog

              Wie wird eine nationale Domain-Landschaft gecrawlt?

              02.12.2022 Forschungsblog

              Autor: Andreas Predikaka

              Seit 1. März 2009 ist die Österreichische Nationalbibliothek gesetzlich ermächtigt das nationale Web zu sammeln. Während WebkuratorInnen für bestimmte Themenbereiche wie Medien, Politik, usw. laufend relevante, sammlungswürdige Webseiten auswählen und diese in geeigneten Speicherintervallen im Rahmen von Selektiven Crawls für die nachfolgenden Generationen archivieren lassen, werden zusätzlich regelmäßig alle bekannten Domains des österreichischen Webs automatisiert gespeichert. Diese Art der Archivierung wird „Domain Crawl“ genannt und dient dazu ein einmaliges, oberflächliches Abbild des gesamten nationalen Webs zu schaffen. Paragraph 43b des Mediengesetzes definiert den österreichischen Webspace wie folgt:

              "§ 43b. (1) Die Österreichische Nationalbibliothek ist höchstens viermal jährlich zur generellen automatisierten Sammlung von Medieninhalten periodischer elektronischer Medien [...] berechtigt, die öffentlich zugänglich und 1. unter einer ".at"-Domain abrufbar sind oder 2. einen inhaltlichen Bezug zu Österreich aufweisen."1

              Vor allem Punkt zwei bedeutet in der Praxis einen laufenden kuratorischen Aufwand, um Domains mit Österreich-Bezug ausfindig zu machen.2 Aus diesem Grund ist es notwendig die Ausgangsadressen für jeden neuen Domain Crawl an aktuelle Gegebenheiten und Entwicklungen anzupassen, um dadurch mehr nationale Inhalte crawlen und den potentiellen Verlust wichtiger Inhalte verringern zu können.

              Domainnamen-Listen

              Viele relevante Domainnamen für diese Art des Crawls melden uns WebkuratorInnen und LeserInnen3 oder sind Ergebnis von halbautomatischen Suchverfahren. Aber  der Großteil der Namen wird über Listen unterschiedlicher Domain-Registrierungsstellen bezogen.

              Ursprünglich wurden die ersten .at Domain-Registrierungen noch von der Universität Wien verwaltet, aber die hohe Nachfrage an Domainnamen machte es notwendig die Domainverwaltung als Dienstleistungsunternehmen zu etablieren, was im Jahr 2000 in Form der nic.at geschah, die seither die .at Domain administriert.4 Die Verwaltung des Namensraumes für akademische Einrichtungen .ac.at verblieb bei der Universität Wien. Neben der Namen der .at Domain, ist nic.at auch noch für die Verwaltung der für kommerziell orientierte Unternehmen vorgesehenen Subdomain .co.at, und für den Namensbereich .or.at zuständig. Die wenig bekannte Subdomain .priv.at wurde 1995 geschaffen, um eine kostengünstige Domain-Zone für Privatpersonen in Österreich zu schaffen. Die Verwaltung dieser Subdomain obliegt zur Zeit dem Verein VIBE!AT.5 Der weithin bekannte Namensraum .gv.at ist für Bundes- und Landesbehörden vorgesehen und wird dementsprechend vom Bundeskanzleramt verwaltet.

              In Folge der Einführung der neuen generischen Domains6 im Jahre 2013 wurden die Namen der beiden Top Level Domains .wien und .tirol aufgrund des eindeutigen inhaltlichen Bezuges zu Österreich vollständig für den Domain Crawl übernommen. Für deren Verwaltung sind die punkt.wien GmbH7 bzw. punkt Tirol GmbH8 verantwortlich. Alle Namen dieser beiden Top-Level-Domains werden direkt von der Internet Corporation for Assigned Names and Numbers (ICANN)9 bezogen.

              All diese gesammelten Domainnamen dienen als Datenbasis für den jährlich durchzuführenden Domain Crawl. Während der erste Crawl 2009 knapp 900.000 Domains umfasste, fanden 2022 bereits knapp 1,5 Millionen Domainnamen Verwendung.

              Webseiten werden mit einem Crawler im Webarchiv gespeichert. Dabei startet ein Crawler bei einer Ausgangsadresse, folgt jedem Verweis auf der Seite und speichert alle Inhalte bis ein definiertes Limit erreicht ist.10

              Ein Domainname ist jedoch keine Webadresse. Es fehlt noch der Name des Webservers, auf dem die Webseite gehostet wird. Da diese Information für die gesammelten Domainnamen nicht bekannt ist, wird der übliche Hostname www in Verbindung mit dem Kürzel des Protokolls http jedem Domainnamen vorangestellt, um so eine für den Crawler gültige Ausgangsadresse zu erzeugen. Aus dem Domainnamen onb.ac.at wird beispielsweise die Adresse http://www.onb.ac.at. In den meisten Fällen kann so die Startseite des wichtigsten Webserver der Domain erreicht werden. Sind für eine Domain weitere Hostnamen bekannt, werden diese in einem manuellen Prozess als weitere Ausgangsadressen erfasst (z.B. http://webarchiv.onb.ac.at , http://labs.onb.ac.at usw.).

              Crawl-Management

              Das Archivieren von mehr als einer Million Startadressen kann nicht mit einem Crawler auf einmal durchgeführt werden. Die Ausgangsadressen müssen portionsweise an eine Vielzahl von Crawler-Instanzen übergeben werden. Die Aufteilung aller Adressen auf viele Instanzen übernimmt das Software-System NetarchiveSuite, das im Rahmen des dänischen Webarchivierungsprojektes von der Dänischen Königlichen Bibliothek entwickelt und 2007 als Open Source Software zur Verfügung gestellt wurde. Inzwischen wird das System von einem Zusammenschluss von der KB Dänemark, der Französischen, Spanischen, Schwedischen und Österreichischen Nationalbibliothek weiterentwickelt.11 In der aktuellen Infrastruktur der Österreichischen Nationalbibliothek stehen für den Domain Crawl neun Server mit je zwei Crawler-Instanzen zu je 50 Threads zur Verfügung. Auf diese Weise können theoretisch Objekte von bis zu 900 Domains gleichzeitig angefordert und gespeichert werden. Jeder Crawler wird mit maximal 2500 Ausgangsadressen gestartet.

              Abbildung 1: Mit der aktuellen Infrastruktur können maximal 900 Domains gleichzeitig gecrawlt werden.

              Die Anzahl der eingesetzten Server und Instanzen muss natürlich immer im Einklang der zugesicherten Bandbreite des Internets stehen, ansonsten könnten Serveranfragen nicht mehr schnell genug abgeholt werden, was zu unvollständigen Datenübertragungen und dadurch zu korrupten Downloaddaten führen könnte. Alle Crawler-Instanzen laufen für alle Domains mit denselben Einstellungen und speichern alle Objekte, die nach der Ausgangsadresse auf der Ausgangsdomain zu erreichen sind. Um zu verhindern, dass bei Erreichen des Gesamtspeicherlimits große Domains komplett und viele kleine Domains noch gar nicht gecrawlt wurden, wird ein Domain Crawl stufenweise durchgeführt. Alle Domains werden am Beginn bis zu einer Gesamtspeichermenge von zehn MB gecrawlt, was für 95 Prozent aller Domains bereits reicht, um sie vollständig zu archivieren. Mit dem aktuellen Speicherbudget ist es möglich alle noch nicht vollständig gecrawlten Domains, noch einmal bis zu einer neuen Grenze von 100 MB zu crawlen. Bei genügend verfügbaren Speicher könnte man mit dieser Vorgangsweise einen vollständigen Crawl der gesamten nationalen Domainlandschaft durchführen, was aus Kapazitätsgründen bisher noch nie stattfinden hat können.

              Die Crawler sind so konfiguriert, dass sie sich wie im Web surfende Menschen verhalten. Nach dem Laden aller referenzierten Objekte einer Seite bzw. nach dem Erreichen einer definierten Gesamtspeichermenge macht der Crawler eine kurze Pause um einerseits den Zielserver zu entlasten und andererseits den verwendeten Crawler-Thread für Anfragen an die nächste wartende Domain freizugeben. Auch auf die Antwortzeiten der Server wird Rücksicht genommen. Benötigt ein Server für eine Antwort länger, wird der Zeitabstand bis zur nächsten Anfrage größer. Am Beginn eines sogenannten Crawl-Jobs ist eine Instanz mit der gesamten verfügbaren Thread-Anzahl ausgelastet. Die Crawl-Dauer eines Jobs wird einerseits durch die Anzahl der Threads pro Crawler-Instanz und andererseits durch die Menge der Ausgangsadressen und der maximalen Speichergrenze pro Domain bestimmt. Da alle Server unterschiedliche Antwortzeiten haben, werden nicht alle Domains eines Jobs gleich schnell gecrawlt. Das hat zur Folge, dass ein Job immer dieselbe Verlaufskurve beschreibt.

              Abbildung 2: Typische Verlaufskurve eines Crawl-Jobs. Sehr gut zu erkennen ist die anfangs volle Auslastung aller Threads, die mit dem Abbau der zu speichernden Objekte in der Warteschlange immer weniger benutzt werden.

              Alle Threads werden eine bestimmte Zeit vollständig benutzt und nach einer gewissen Zeit sind immer weniger in Verwendung. Am Ende wird nur mehr ein Thread für wenige noch nicht fertig gecrawlte Domains benötigt. Sobald die letzte Domain aus dem Job die Abbruchbedingung erreicht hat, ist der Crawl-Job beendet und eine weitere Crawler-Instanz mit neuen Ausgangsadressen wird automatisch gestartet. Bleibt ein Crawl-Job im Vergleich zu anderen Jobs auffällig lange aktiv und wird nicht beendet, so ist der Crawler höchstwahrscheinlich in einer sogenannten Crawler-Trap gefangen, aus der er befreit werden muss.

              Crawler-Traps

              Auch wenn ein Domain Crawl mit so wenig Interaktion wie möglich laufen sollte, kommt irgendwann der Zeitpunkt, an dem es notwendig ist manuell einzugreifen. Oft gelangt ein Crawler auf Webseiten in einen Kalender, bei dem über Verweise Tage, Wochen, Monate oder Jahre verändert werden können. Jedes neue Kalenderblatt generiert eine neue Seite mit neuen Links. Der Crawler bleibt in diesem Kalender "gefangen" und kann sich erst selbst befreien, wenn vordefinierte Abbruchbedingungen erreicht werden, was sehr lange dauern kann. Daher sollte zu diesem Zeitpunkt der Crawl-Engineer manuell eingreifen und die betroffenen Links aus der Crawl-Warteschlange entfernen. Die gespeicherten Daten aus dem Kalender wären zwar valide, aber die meisten wahrscheinlich nicht sehr relevant.

              Abbildung 3: Auf der Seite des Haus der Geschichte würde ein Crawler erfahren, dass an den Tagen vor Weihnachten im Jahr 2743 keine Events geplant sind ... [online] https://hdgoe.at/category/Events?start=2743-12-20 , [25.11.2022]

              Es gibt aber auch Werkzeuge, sogenannte "Honey-Pots" 12, die von Webadministratoren eingesetzt werden, um bösartige, datensammelnde Crawler ins Leere oder Endlose laufen zu lassen. Das passiert häufig bei Missachtung von Ausschlussregeln, die auf jedem Webserver in der sogenannten robots.txt13 oder in Meta-Tags14 auf HTML-Seiten definiert werden können. Diese Regeln dienen den Betreibern von Webseiten dazu, gewisse Bereiche ihrer Seite für Crawler zu sperren bzw. nur bestimmte Crawler zuzulassen. Diese Anweisungen sind allgemein anerkannt und Crawler sollten sich daranhalten, jedoch kann ein Zugriff auf damit "gesperrte" Inhalte ohne weitere Absicherungsmaßnahmen nicht verhindert werden.

              Da die Webarchivierung im gesetzlichen Auftrag betrieben wird und gegenüber diesen Anweisungen Vorrang hat, können solche Fallen für Crawler der Österreichische Nationalbibliothek zum Problem werden. Gelangt ein Crawler in einen Bereich, den er eigentlich nicht betreten sollte, könnte dort ein Honey-Pot warten, der ihn so lange ins Unendliche laufen lassen würde, bis er erst durch eine Abbruchbedingung oder durch manuelle Intervention befreit würde. Leider mit dem bitteren Beigeschmack, dass dabei Daten von zufällig sinnfrei aneinandergereihten Wörtern ins Webarchiv gelangen könnten.

              Abbildung 4: Folgt ein Crawler in einem Honey-Pot einem Verweis, wird eine neue Seite mit neuen Links generiert.

              Für diese Fälle sind sehr knappe Speicherbudgets sogar ein Segen, weil in unentdeckten Fällen, nicht zu viel Speicherplatz verloren geht (aktuell pro Domain und Durchlauf max. zehn bzw. 100 MB).

              Mit aktuellem Stand sind bisher 55 Prozent (über 120 TB) aller gesammelten Daten des österreichischen Webs über Domain Crawls ins Archiv gelangt. Auch wenn der Vorgang eines Domain Crawls nach sorgfältiger Vorbereitung automatisch ablaufen kann, ist man gut beraten, wenn man dennoch ein Auge auf ihn behält.

              Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.


              Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.


              Fußnoten:
              1 Änderung des Mediengesetzes: BGBl. I Nr. 8/2009, § 43: » https://web.archive.org/web/20151028093639/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html[25.11.2022]
              2 Vgl. die Kriterien zur Einstufung von sogenannten Austriaca: Mayr, Michaela / Andreas Predikaka (2016): Nationale Grenzen im World Wide Web - Erfahrungen bei der Webarchivierung in der Österreichischen Nationalbibliothek. In: BIBLIOTHEK Forschung und Praxis 40/1, 91, [online] doi.org/10.1515/bfp-2016-0007 [25.11.2022]
              3 Über Webformular oder Bookmarklet auf [online] » https://webarchiv.onb.ac.at/#nominierung [25.11.2022]
              4 [online] » https://web.archive.org/web/20221017080623/https://www.nic.at/de/das-unternehmen/firmengeschichte [25.11.2022]
              5 [online] » https://web.archive.org/web/20221017102027/http://www.vibe.at [25.11.2022]
              6 [online] » https://de.wikipedia.org/wiki/Neue_Top-Level-Domains [25.11.2022]
              7 [online] » https://web.archive.org/web/20221120160048/https://www.nic.wien/de/wien/projekt-wien [25.11.2022]
              8 [online] » https://web.archive.org/web/20221120160154/http://www.nic.tirol/ueber-uns/ueber-punkt-tirol/ [25.11.2022]
              9 [online] » https://de.wikipedia.org/wiki/Internet_Corporation_for_Assigned_Names_and_Numbers [25.11.2022]
              10 Vgl.: Predikaka, Andreas (2020): "Wie das archivierte österreichische Web im Archiv landet", [online] » https://www.onb.ac.at/forschung/forschungsblog/artikel/wie-das-oesterreichische-web-im-archiv-landet [25.11.2022]
              11[online] » https://github.com/netarchivesuite/netarchivesuite [25.11.2022]
              12 z.B.: [online] » https://www.projecthoneypot.org [25.11.2022]
              13 [online] » https://de.wikipedia.org/wiki/Robots_Exclusion_Standard [25.11.2022]
              14 [online] » https://de.wikipedia.org/wiki/Meta-Element#Anweisungen_f%C3%BCr_Webcrawler [25.11.2022]

              Datendeduplizierung. Wie das Webarchiv beim täglichen Crawlen von Webseiten Speicherplatz spart

              09.07.2022 Forschungsblog

              Autor: Andreas Predikaka

              Durch das schnelle und stetige Anwachsen des österreichischen Webs benötigt das Webarchiv Österreich laufend weiteren Speicherplatz, um ein signifikantes Abbild des heimischen Webspaces für die Nachwelt bewahren zu können. Dabei gilt es, sorgsam mit dem bereitgestellten Speicher umzugehen und diesen optimal zu nutzen. Dafür sind zwei Vorgänge für das Webarchiv mittlerweile gängige Praxis und unverzichtbar geworden: Datenkomprimierung und Datendeduplizierung.

              Datenkomprimierung

              Wie in vielen anderen Bereichen kommt auch in der Webarchivierung Datenkompression zum Einsatz. Im Webarchiv Österreich wird jedes gecrawlte Web-Objekt vor dem Speichern verlustfrei mit dem quelloffenen gzip 1 Programm komprimiert und in einer Archiv-Datei gespeichert. Das Programm verwendet den gemeinfreien Deflate-Algorithmus 2 zur verlustfreien Datenkompression.

              Abhängig vom jeweiligen Dateityp können dabei unterschiedliche Kompressionsraten erzielt werden. Textdateien, wie die im Web üblichen HTML-Dateien, können mit einer sehr hohen Rate komprimiert werden. Bei Bilddateien ist das hingegen oft nicht der Fall, da diese für die Verwendung im Web meist schon komprimiert wurden.
              Im Webarchiv Österreich wird zurzeit für alle gecrawlten Web-Objekte (aktuell 138 Terabytes) eine Komprimierungsrate von 1,7 erreicht, was eine Speicherplatzersparnis von 42 Prozent bedeutet. Der auf den Festplatten benötige Speicher beträgt dadurch nur mehr knapp 80 Terabytes.

              Für alle erzeugten Metadaten (aktuell 19,5 Terabytes), die aus gut komprimierbaren Textdateien bestehen, kann sogar eine Komprimierungsrate von knapp 11 erreicht werden, womit eine Speicherplatzersparnis von knapp 91 Prozent erzielt wird. Nur mehr knapp zwei Terabytes an Metadaten werden dafür im Speichersystem benötigt.

              Datendeduplizierung

              Ausgewählte Seiten aus dem Bereich Medien und Politik werden im Webarchiv Österreich seit über zehn Jahren in eigenen Kollektionen gespeichert. Da bei diesen Seiten eine hohe Änderungsfrequenz zu erwarten ist, werden diese, immer unter Berücksichtigung des aktuellen Speicherbudgets, mindestens einmal pro Tag gecrawlt. Dabei werden unvermeidbar immer wieder die gleichen Daten, wie z.B. Parteilogos oder Bilder von Personen gespeichert, was zu einer Vielzahl an Redundanzen führt und das vorhandene Speicherbudget schneller verbrauchen lässt.

              Um diese Redundanzen teilweise einzuschränken, verwendet das Webarchiv die Methode der Deduplizierung. Sie ermöglicht es, einen großen Teil der binären Objekte (Bilder, Videos, Dokumente, Skripte, usw.) dieser regelmäßig gecrawlten Seiten nur als Referenz zum Erstauftreten des jeweiligen Objektes zu speichern. Wie funktioniert das?

              Für jedes Objekt, das im Webarchiv gespeichert werden soll, wird ein Hashwert 3 erzeugt, der das Objekt eindeutig identifiziert. Beim erstmaligen Auftreten eines Objektes wird dieses archiviert und der dafür errechnete Hashwert bekommt die exakte Position des Objektes im Webarchiv hinterlegt. Dadurch kann beim wiederholten Crawlen eines bereits existierenden Objektes diese Position anstelle der Daten des Objektes gespeichert werden.

              Abb. 1: Vereinfachte Darstellung eines Deduplizierungsvorganges bei drei Zeitschnitten einer fiktiven Webseite.

              Ist ein auf diese Weise dedupliziertes Objekt Bestandteil einer archivierten Webseite, wird beim Aufruf dieser Seite in der Waybackmachine das Objekt von der referenzierten Position im Webarchiv geladen und angezeigt. 4

              HTML-Dateien werden von der Deduplizierung ausgenommen, weil bei diesen Dateien in regelmäßigen Crawls die häufigsten Änderungen zu erwarten sind, wodurch sie nicht mehr für eine Deduplizierung in Frage kämen. Für unveränderte HTML-Dateien wäre eine Speicherplatzersparnis minimal, weil ihre Textinhalte bereits sehr gut komprimiert werden können.

              Deduplizierung ist aber auch zu einem gewissen Grad risikobehaftet. Sollte es im Webarchiv zu Datenverlusten kommen und wären Objekte, die referenziert wurden, davon betroffen, könnten die Rückverweise nicht mehr aufgelöst werden und der Datenverlust würde sich um die Anzahl der Referenzen multiplizieren. Deshalb wird bei regelmäßigen Crawls auch immer wieder ein sogenannter "Clean Crawl" durchgeführt, der auf Deduplizierung verzichtet und dadurch wieder neue Ausgangsobjekte für neue Referenzen weiterer Deduplikationen bildet. Auf diese Weise streuen sich die Originalobjekte im Webarchiv, was den Schaden bei eventuellen Datenverlusten reduzieren kann.

              Abb. 2:Darstellung der archivierten Zeitschnitte einer fiktiven Webseite beim Verlust einer Archivdatei. Zeitschnitt 1 ist nicht mehr verfügbar und die referenzierte PNG-Datei rot.png kann in Zeitschnitt 2 und 3 nicht mehr angezeigt werden.

              Zu den am häufigsten deduplizierten Objekten im Webarchiv Österreich zählt eine 1x1 Pixel große transparente GIF-Datei mit 43 Bytes, die vor allem auf älteren archivierten Webseiten verwendet wurde, um das Layout dieser Seiten zu beeinflussen. Über 2,3 Millionen Mal wurde dieses Objekt auf unterschiedlichen Webseiten dedupliziert. Für diese kleine Datei ist der Speicherplatzgewinn aufgrund der nur unwesentlich kleineren Information über die Referenz aber sehr gering.

              Abb. 3: Die 1x1 Pixel große transparente GIF-Datei vergrößert dargestellt im Grafikprogramm GIMP.

              Ganz anders beim Objekt mit der meisten Speicherplatzersparnis, einem Video über eine Pressekonferenz 5, das zwar nur 1225-mal dedupliziert wurde, aber dadurch knapp 170 Gigabytes an Speicher einsparen konnte.

              Gesamt wurden im Webarchiv Österreich bis jetzt 882 Millionen Objekte mit einer Gesamtgröße von über 59 Terabytes dedupliziert, was 30 Prozent der unkomprimierten Speichergröße des Archivs ausmacht.

              Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.


              Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.


              Quellen:

              1 [online] https://de.wikipedia.org/wiki/Gzip , [22.06.2022]
              2 [online] https://de.wikipedia.org/wiki/Deflate  , [22.06.2022]
              3 [online] https://de.wikipedia.org/wiki/Hashfunktion , [22.06.2022]
              4 Vgl.: Predikaka, Andreas (2020): "Wie das archivierte österreichische Web wieder auf den Bildschirm kommt", [online] https://www.onb.ac.at/forschung/forschungsblog/artikel/wie-das-archivierte-oesterreichische-web-wieder-auf-den-bildschirm-kommt , [22.06.2022]
              5 Alle Zeitschnitte dieses Videos können im Webarchiv Österreich angezeigt werden: https://webarchiv.onb.ac.at/?q=http://www.wien-konkret.at/fileadmin/content/Politik/Wahlrecht/video-pk-faires-wahlrecht.flv

              Wie Sie Webseiten im archivierten Web suchen, finden und sich anzeigen lassen können

              20.12.2021 Forschungsblog

              Autor: Andreas Predikaka

              Von der vorwissenschaftlichen Arbeit über die Bachelorthesis bis hin zur Dissertation haben Zitierregeln für Quellen aus dem Web eines gemein: Neben dem Titel ist zusätzlich zur Webadresse auch das Zugriffsdatum anzugeben. Die Schreibenden stellen damit klar, welcher Zeitschnitt einer bestimmten Webadresse für ihre Arbeit relevant war. Nur selten gibt es aber einen Hinweis darauf, wie das jeweilige Web-Zitat am besten zu rekonstruieren ist.1 Die AutorInnen verlassen sich meist darauf, dass das Web nichts vergisst. Aber das Web vergisst leider viel von den Inhalten, die im Nachhinein als relevant erachtet werden.

              Die LeserInnen sind meist darauf angewiesen, dass eine Webadresse zum oder rund um das Zugriffsdatum der Schreibenden von Webarchiven gespeichert wurde und sich der archivierte vom referenzierten Inhalt nicht (maßgeblich) unterscheidet.

              Um ein Web-Zitat zu finden und um festzustellen, ob ein Zeitschnitt einer Adresse im archivierten Web vorhanden ist, gilt das Internet Archive2 als erste Anlaufstelle für die Suche und Anzeige von archivierten Webseiten. Seit 1996 versucht die gemeinnützige Organisation aus den Vereinigten Staaten das gesamte Web zu archivieren und seit 2001 bietet sie auch den Zugriff auf die archivierten Daten über die sogenannte „Wayback-Machine“ an.3 Kann man über die Eingabe einer Webadresse ein passendes Ergebnis finden und lässt sich diese archivierte Website auch noch wiederherstellen, so wird sie am Bildschirm angezeigt. Dass Inhalte aus Webarchiven öffentlich zugänglich sind, ist aber nicht selbstverständlich. Grundsätzlich unterliegen diese dem Urheberrecht und dürfen ohne Zustimmung der MedieninhaberInnen nicht angezeigt werden. Das Internet Archive nimmt für sich das sogenannte "Fair Use Prinzip”4 in Anspruch, das in den Vereinigten Staaten eine Nutzung von geschütztem Material zu Bildungszwecken erlaubt. Gleichzeitig gibt es für den Dienst eine Opt-Out-Möglichkeit. Wünschen MedieninhaberInnen die Entfernung ihrer Einträge aus dem Archiv, so wird dem Anliegen in der Regel nachgekommen. Es kann also durchaus passieren, dass archivierte, erfolgreich rekonstruierte Webinhalte, beim nächsten Aufruf nicht mehr verfügbar sind. Ein Dilemma.

              Ab Ende der 1990er Jahre wurde die Archivierung des Webs immer mehr zu einer Aufgabe der Nationalbibliotheken. Der nationale Webspace wurde als Teil des kulturellen Erbes angesehen und dafür Umsetzungsinitiativen gestartet. Grundvoraussetzung für die Durchführung war in vielen europäischen Ländern eine gesetzliche Ermächtigung zum Sammeln des nationalen Webs. Diese Gesetze wurden nach und nach verabschiedet und ermöglichen seither den meisten Nationalbibliotheken das Sammeln ihres nationalen Webspace und regeln den Zugriff darauf. Auch wenn der Aufruf von gesuchten Webinhalten meist nur vor Ort erlaubt wird, bieten dutzende Webarchive eine öffentliche Suchmöglichkeit an. Kann man über das Internet Archive eine archivierte Webseite nicht finden, so hilft möglicherweise eine Suche in diesen Webarchiven.5

              Auch der österreichische Gesetzgeber verbietet leider den Aufruf von archivierten Webseiten außerhalb der Räumlichkeiten der Österreichischen Nationalbibliothek und der dazu berechtigten anderen Bibliotheken.6 Er erlaubt jedoch die öffentliche Suche nach Webseiten über die Webadresse und im Volltext. Das folgende Beispiel zeigt, wie man eine erfolgreiche Suche im Webarchiv Österreich durchführt und sich Suchergebnisse mit Hilfe des Internet Archives, trotz der oben erwähnten Einschränkungen, anzeigen lassen kann.

              Url-Suche

              Als das Webarchiv Österreich vor über zehn Jahren startete, gab es eine Projektbeschreibung auf der Webseite der Österreichischen Nationalbibliothek. Einige Dokumente im Online-Web verweisen noch auf diese Adresse und den damaligen Inhalt.7 Aktuell wird man bei der Eingabe der damaligen Adresse "http://www.onb.ac.at/about/webarchivierung.htm" auf das aktuelle Webportal des Webarchivs Österreich "https://webarchiv.onb.ac.at "weitergeleitet und die ursprüngliche Seite wird nicht mehr angezeigt. Um zu erfahren wie die Webseite ausgesehen hat, gehen wir auf "https://webarchiv.onb.ac.at" und geben in das Sucheingabefeld die alte Webadresse ein und klicken auf "Suchen". Nach einem kurzen Moment erscheint das Suchergebnis in Form einer sogenannten „Heatmap“. Dabei werden die gefundenen Versionen als rote Punkte auf einem Kalenderraster angezeigt. Jeder rote Punkt stellt mindestens eine gespeicherte Version für den jeweiligen Tag dar. Je dunkler der Punkt, desto mehr Versionen der gesuchten Webadresse sind archiviert worden.

              Die Suche nach einer Webadresse im Webarchiv Österreich und die Anzeige im Internet Archive

              Abb. 1: Die Suche nach einer Webadresse im Webarchiv Österreich und die Anzeige im Internet Archive. Führen Sie diese Suche mit einem Klick auf diesen » Link aus.

              Wir wählen den ersten roten Punkt aus, der zugleich die erste gespeicherte und damit älteste Version der gewählten Adresse darstellt. Beim Klick auf den Punkt öffnet sich ein Dialogfenster, in dem alle Zeitschnitte des ausgewählten Tages angezeigt werden. Sobald man auf den Verweis mit dem gewünschten Zeitstempel klickt (in diesem Fall 13:29:05 Uhr vom 16. April 2010), öffnet sich in einer neuen Lasche im Browser die sogenannte Wayback-Machine, die die ausgewählte Version der archivierten Webseite für uns aus den gespeicherten Einzeldateien zusammenstellt und anzeigt.

              Abb. 2: Screenshot der ältesten Version unserer Projektwebseite im Webarchiv Österreich. [Online]
              » https://webarchiv.onb.ac.at/web/20100416132905/http://www.onb.ac.at/about/webarchivierung.htm [7. Dezember 2021]

              Dass wir die Adresse unserer Projektwebseite vor über zehn Jahren ausgesucht haben, hat einen besonderen Grund: Unsere eigenen Inhalte dürfen wir in archivierter Form auch online anzeigen. Für alle anderen Inhalte, für die keine speziellen Vereinbarungen mit Medieninhabenden bestehen, lässt sich die archivierte Version aufgrund des Mediengesetzes nicht außerhalb der Räumlichkeiten der Österreichischen Nationalbibliothek aufrufen. Bevor nun LeserInnen unsere Terminals im Haus besuchen, lohnt sich aber noch ein Klick auf den Verweis "Beste IA Version". Über diesen Link wird in einer neuen Lasche die Wayback-Machine des Internet Archives geladen, die die zeitlich näheste Version zum ausgewählten Zeitschnitt im Webarchiv Österreich zu laden versucht.

              Bleibt auch diese Suche erfolglos, so bietet die Lasche "Andere Webarchive" eine Liste von Archiven mit öffentlicher Suchmöglichkeit an. Jeder Verweis startet im ausgewählten Webarchiv eine Suche nach allen Versionen der bestimmten Webadresse und zeigt das Ergebnis in einer neuen Lasche des Browsers an.

              Volltextsuche

              Nicht immer steht die exakte Adresse für den Aufruf einer archivierten Webseite zur Verfügung. Wie bei bekannten Suchmaschinen im Netz kann man auch im Webarchiv Österreich nach Begriffen suchen, um über diesen Weg eine archivierte Webseite zu finden. Auf unserer Projektseite schrieben wir vor zehn Jahren über unsere Mission: "Ziel der Webarchivierung ist die Sammlung und Archivierung des gesamten nationalen Webspace". Gibt man diesen Satz in das Sucheingabefeld ein und setzt die Suche ab, so wird im vorhandenen Volltext (umfasst zurzeit rund fünf Prozent aller archivierten Textdokumente) nach den eingegebenen Begriffen gesucht. Nach einem kurzen Moment erscheint ein Suchergebnis, das die jeweiligen Zeitschnitte einer Webadresse anzeigt, die die gesuchten Begriffe beinhalten. In jeder Ergebniszeile finden Sie den schon bekannten relevanten Zeitstempel oder den Verweis auf die "Beste IA Version", der das zeitlich näheste Ergebnis im Internet Archive für die Suche liefern kann.

              Abb. 3: Die Suche nach Begriffen im Webarchiv Österreich und die Anzeige im Internet Archive. Führen Sie diese Suche mit einem Klick auf diesen » Link aus.

              Auch wenn in unserem Fall die zeitlich näheste Version im Internet Archive einige Monate vom gewünschten Zeitpunkt entfernt ist, wird doch der gleiche Inhalt angezeigt, da sich die Webseite in diesem Zeitraum nicht verändert hat.

              Die Suche nach archivierten Webseiten ist längst nicht so komfortabel wie die gewohnte Suche im Online-Web. Den ersten schnellen Einstieg bietet das Internet Archive mit seinem Webarchiv, das über eine URL- bzw. Schlüsselwortsuche für URLs, die Anzeige archivierter Webseiten bereitstellt. Doch das größte Web-Archiv der Welt ist keineswegs lückenlos. Nationale Webarchive tragen im Rahmen ihrer gesetzlichen Möglichkeiten dazu bei, diese Lücken so gut wie möglich zu schließen. Zudem bieten viele Nationalbibliotheken eine dem Internet Archive fehlende Volltextsuche an und können so Suchergebnisse liefern, die dann mit Hilfe des Internet Archives eventuell rekonstruiert werden können. Finden sich auch dort die gewünschten Inhalte nicht, lohnt sicher ein Besuch in der Nationalbibliothek oder in den berechtigten Bibliotheken, die die gesuchten Inhalte auf speziellen Terminals zur Verfügung stellen können.

              Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.


              Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.


              Quellen:

              1 Schon ein Screenshot der besuchten Webseite im Anhang kann hilfreich sein. Auch das zählt als Webarchivierung. Vgl. Brügger, Niels (2018): The Archived Web. Doing History in the Digital Age, Cambridge London: The MIT Press, 80
              2 Siehe [Online] https://web.archive.org [7. Dezember 2021]
              3 Zum Auftrag des Internet Archive siehe Rossi, Alexis. Internet Archive. Hamburg University Press, 2016, [Online] https://web.archive.org/web/20210718222757/https://hup.sub.uni-hamburg.de/volltexte/2016/168/chapter/HamburgUP_DDB_KulturellesErbe_02_Vielfalt_USA.pdf  [7. Dezember 2021]
              4 Siehe [Online] https://web.archive.org/web/20211207104627/https://de.wikipedia.org/wiki/Fair_Use [7. Dezember 2021]
              5 Siehe [Online] https://web.archive.org/web/20211207113207/https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives [7. Dezember 2021]
              6 Siehe § 43d Abs.4: "die Österreichische Nationalbibliothek und die in § 43b Abs. 7 genannten Bibliotheken [dürfen] gemäß § 43b gesammelte oder abgelieferte Medieninhalte ihren Benutzern nur an ihrem Standort zugänglich machen", [Online] https://web.archive.org/web/20211207120200/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html [7. Dezember 2021]
              7 z.B. [Online] https://de.slideshare.net/ATWebarchive/bedeutung-der-webarchivierung-nestordnb [7. Dezember 2021]

              Wie entsteht die Kollektion Frau/Gender im Webarchiv der ÖNB? WebkuratorInnen am Werk

              29.06.2021 Forschungsblog

              AutorInnen: Andrea Gruber, Lydia Jammernegg, Michaela Mayr, Andreas Predikaka

              Wie entsteht die Kollektion Frau/Gender im Webarchiv? - WebkuratorInnen am Werk

              Vom Webarchiv Österreich der Österreichischen Nationalbibliothek werden seit 2009 umfangreiche Web Crawls durchgeführt, um das digitale Kulturerbe im Web zu dokumentieren und langfristig zu sichern. Dabei standen zu Beginn vor allem technische Fragen im Vordergrund – Hardware, Software, Speicherkapazitäten, Crawl-Parameter, Speicher-Intervalle, Webtechnologien usw. Schon bald war klar, dass es neben den jährlichen umfangreichen Domain Crawls auch thematische Schwerpunkte braucht, die ein besonderes Augenmerk erfordern, damit nicht wesentliche Inhalte verloren gehen. So wurden die ersten Kollektionen im Webarchiv begründet, Webseiten aus den Bereichen Medien und Politik werden seither laufend archiviert.

              Immer stärker zeigen sich auch in den unterschiedlichen Sammlungen der Österreichischen Nationalbibliothek die Anknüpfungspunkte zu born digital Medien. Die Kollektion Frau/Gender ist ein Paradebeispiel für die nachfolgend näher beschriebene Zusammenarbeit von Webarchiv-ExpertInnen und FachbibliothekarInnen, die als WebkuratorInnen wichtigen inhaltlichen Input leisten.

               

              Entstehungsgeschichte – Rückblick

              Im Rahmen einer Abschlussarbeit, die von Ariadne im Rahmen des Universitätslehrgangs für Library and Information Studies 2015 zum Thema „Ariadne 4.0. Dokumentation und Archivierung von digital born Quellen aus dem Gebiet der feministischen-, Frauen- und Geschlechterforschung“ vergeben wurde, entwickelte sich die Kooperation mit dem Webarchiv Österreich. Damit konnte Ariadne an das Thema Dokumentation und Archivierung von digital born Medien anknüpfen.

              Ausgangsfrage dieser Abschlussarbeit war: Wie kann feministisches / Genderwissen, das zunehmend digital produziert wird, für die Zukunft erhalten und zugänglich bleiben? Was kann eine kleine Einrichtung wie Ariadne dazu beitragen oder umsetzen?

              Mit der Digitalisierung und Globalisierung von Information und Wissen tritt die Frage, was passiert mit den zunehmend born digital erscheinenden und oft kurzlebigen Dokumenten, immer mehr in den Vordergrund:

              • Es ist eine neue Art der Wissensproduktion entstanden, die neue Formen von Quellen generiert.
              • Bisher wurden diese neuen Formen von Quellen nicht ausreichend archiviert und dokumentiert und gingen daher verloren.
              • Es ist zu erwarten, dass diese Verlagerung in den virtuellen Raum immer mehr fortschreitet – wie kann Ariadne diese Entwicklungen aufgreifen?

              Die Universitätslehrgangsgruppe hat sich dieses Themas angenommen und mit ihrer Arbeit eine Basis für ein gemeinsames Projekt mit dem Webarchiv Österreich geschaffen. Im Webarchiv werden Akquirierung, Bestandssicherung und Archivierung von born digital Medien bereits routinemäßig durchgeführt und es bestand Interesse an einer Zusammenarbeit. In Kooperation wurde eine kuratierte, inhaltlich fokussierte Kollektion Frau/ Gender entwickelt.

              Feministisches/Genderwissen, das digital produziert wird, wird somit archiviert, für die Zukunft erhalten, (eingeschränkt) zugänglich gemacht und steht zukünftig für Forschung und Interessierte zur Verfügung.

               

              Kuratierung der Kollektion Frau/Gender – Auswahlkriterien

              2016 erfolgte die Umsetzung der Kollektion Frau/Gender im Webarchiv Österreich. Die Kollektion startete mit 60 frauen- und genderrelevanten Onlinequellen mit Österreich-Bezug und wird seitdem jährlich erweitert und ergänzt. 2021 beinhaltet die Kollektion bereits 160 Einträge.

              Welche formalen und inhaltlichen Bearbeitungskriterien liegen der Kollektion zugrunde:

              a. Inhaltliche Auswahlkriterien

              • Was ist relevant zu archivieren? Was sind wichtige Sammelschwerpunkte und wie kann eine inhaltliche Eingrenzung erfolgen? Was lässt sich ausschließlich im Netz finden?
                • Theoretische und wissenschaftliche Diskurse (junger) ForscherInnen (Salon 21, Feministische Studien, Genderblog, …)
                • AktivistInnendiskurse finden zunehmend im Netz statt (Unregelmäßige Gedankensplitter, Mädchenmannschaft, …)
                • Aktuelle Diskurse, wie z.B. die Binnen-I-*-:-Diskussion, finden in verschiedensten Online-Medien ihren Niederschlag (Blogs, Newsletter, Social Media, …)
              • Was beinhaltet die Kollektion? Wo werden die oben genannten Themen und Diskurse abgehandelt?
              • Feministische, Frauen und Gender-IuD-Einrichtungen/-bibliotheken und -archive
              • Universitäre - und außeruniversitäre Forschungseinrichtungen
              • Einrichtungen, Abteilungen, Ministerien der Länder und des Bundes
              • NGO’s und Vereine
              • Feministische Medien, Blogs, persönliche Seiten
              • Websites, die zu aktuellen Debatten entstehen und oft nur kurzfristig existieren
              • Verlage und Buchhandlungen
              • Museen, Ausstellungen und Kultureinrichtungen

               

              b. Formale Kriterien

              • Um welche Dokumente handelt es sich bei den ‚born-digitals‘ der feministischen, Frauen- und Geschlechterforschung? Websites, Blogs, PDFs, Social Media (Twitter, Facebook, Instagram, …), Podcasts, Videos, E-Books, … - nur ein Teil davon kann über die Webarchivierung erfasst werden
              • Parameter, die erhoben werden: Struktur der Website, Ebenen der Archivierung, Veränderungsintervalle, Multimedia-Anteile

              In den fünf Jahren, in denen die Kollektion Frau/Gender nun bereits besteht, wurde ersichtlich, dass Webauftritte und Onlinequellen einer unterschiedlichen Dauerhaftigkeit unterliegen. Dies aus verschiedensten Gründen:

              • Namensänderungen von Institutionen (wie Ministerien) inklusive IP-Adressänderungen, obwohl die Institution bestehen bleibt, erschweren die Wiederauffindbarkeit und Archivierungstätigkeit beträchtlich.
              • (Forschungs-)Projekte, die abgeschlossen sind und keine Weiterbetreuung erfahren, stellen meist nach einigen weiteren Jahren ihre Webpräsenz ganz ein.
              • Organisationen, wie Vereine oder Verlage, die etwa nach 20 oder 30 Jahren ihre Tätigkeit einstellen beenden infolgedessen auch ihre Webauftritte.
              • Onlinequellen, die zu aktuellen Diskursen entstehen, haben von vorherein ein kürzeres Ablaufdatum, je nachdem wie schnell das Thema seine Aktualität verliert.

               

              Crawl der Kollektion

              Im Idealfall kommt die kuratorische Betreuung eines Crawls, wie bei der Frau/Gender Kollektion, aus der Fachabteilung und das Webarchiv setzt auf Basis der erhobenen formalen Kriterien den technischen Crawl um. So wird für jede Ausgangsadresse einer Webseite (Seed) ein sogenanntes “Seed Scoping” durchgeführt. In diesem Prozess wird festgelegt, welche Webinhalte für welche Seite in welchem Umfang archiviert werden. Fallweise lässt sich eine gewünschte kuratorische Crawltiefe, aufgrund der Beschaffenheit einer Webseite, technisch nicht exakt beschreiben, was dazu führt, dass der Crawler entweder zu wenige oder zu viele Webinhalte speichert. Um die Webseite schließlich so gut wie gewünscht zu archivieren, werden mit Testcrawls die optimalen Einstellungen des Crawlers für die endgültige Archivierung ermittelt. Im Verlauf dieser Arbeit muss auch immer das für die Kollektion zur Verfügung stehende Speicherbudget im Auge behalten und die aktuellen medienrechtlichen Bestimmungen für das Webarchiv beachtet werden.

              Die ausgewählten frauen- und genderrelevanten Onlinequellen werden zweimal jährlich im Rahmen des verfügbaren Speicherbudgets gecrawlt und bis zu einem Limit von 250 MB pro Domain gespeichert, was bei immer zahlreicheren Domains nicht mehr für ein komplettes Abbild ausreicht. Diese Problematik wird auch in der Abbildung 1 deutlich, die zeigt, dass in den ersten Jahren die gecrawlte Speichermenge mit der Anzahl der Seeds steigt, aber in den letzten Jahren deutlich abgeflacht ist, während die ausgewählten Onlinequellen im letzten Jahr ein Maximum erreichten.

              Die Entwicklung der Kollektion Frau/Gender im Jahresvergleich

              Abb. 1: Die Entwicklung der Kollektion Frau/Gender im Jahresvergleich

              Auch in Zukunft wollen die WebkuratorInnen der Ariadne gemeinsam mit dem Webarchiv-Team an den unterschiedlichen Herausforderungen weiterarbeiten. Die Kollektion Frau/Gender ist keine große, aber eine qualitativ sehr hochwertige, die als Vorbild für künftige weitere Kooperationen mit unterschiedlichen FachexpertInnen dienen kann.

              Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtischen Versicherungsverein für die Unterstützung des Webarchivs Österreich.


              ­Mag. Andrea Gruber MSc und Mag. Lydia Jammernegg MSc arbeiten in der Frauen-Dokumentationsstelle Ariadne, Mag. Michaela Mayr MSc und Mag. Andreas Predikaka im Webarchiv der Österreichischen Nationalbibliothek.

              Wie das archivierte österreichische Web wieder auf den Bildschirm kommt

              10.12.2020 Forschungsblog

              Autor: Andreas Predikaka

              Die Österreichische Nationalbibliothek archiviert seit über zehn Jahren möglichst umfassend  das österreichische Web in ihrem Webarchiv Österreich. Diese Webinhalte werden durch Crawler nach bestimmten Vorgaben gesammelt.[1]

              Dabei verhält sich ein Crawler ähnlich einem Browser, der eine ausgewählte Webadresse aus dem Web abruft. Beide Programme kommunizieren über das "Hypertext Transfer Protocol" (HTTP) mit einem Webserver, von dem sie über einen "Uniform Resource Locator" (URL) eine "HyperText Markup Language"-Datei (HTML-Datei) laden.[2]

              Diese Textdatei beinhaltet alle Anweisungen für den Browser, wie die angeforderte Webseite am Bildschirm angezeigt werden soll. Weitere zur Darstellung notwendige Dateien sind darin referenziert und werden ebenso geladen. Aus diesen technischen Web-Objekten erzeugt der Browser, eine für die BenutzerInnen sichtbare  Oberfläche. Die zweite technische Ebene kann bei Bedarf im Browser eingeblendet werden.

              Die sichtbare und unsichtbare Textebene einer Webseite

              Abbildung 1: Die sichtbare und unsichtbare Textebene einer Webseite: Ein Screenshot der Startseite der Österreichischen Nationalbibliothek mit dem dazugehörigen HTML-Code. [Online] » https://www.onb.ac.at [24.11.2020]

              Die Dateien, die der Browser für die Darstellung der Webseite abruft, werden auch vom Crawler geladen und gespeichert. Während der Browser auf die nächste Interaktion der BenutzerInnen wartet, folgt ein Crawler automatisch allen Links in dieser und jeder weiteren HTML-Datei. Das passiert so lange, bis bestimmte vorher definierte Grenzen erreicht sind (Objektanzahl, Speichermenge, Crawltiefe). Alle dabei gesammelten Web-Objekte werden in Archivdateien mit den dazugehörigen Metadaten des Crawls gespeichert.

              Im Webarchiv Österreich befinden sich über eine halbe Million dieser Archivdateien mit Milliarden von gecrawlten Web-Objekten, die mit einer URL und einem sekundengenauen Zeitstempel exakt identifiziert werden können. So kann man durch eine Art Zeitmaschine für das Web Zugriff auf das archivierte Web bekommen. Auf Basis aller URLs und der jeweiligen Zeitstempel, können alle vorhanden Zeitschnitte einer Webseite wieder rekonstruiert werden. Die bekannteste Zeitmaschine, die auf diese Weise eine Reise in die Vergangenheit des Webs ermöglicht, ist die sogenannte Wayback-Machine[3], die vom Internet Archive stammt und von der Österreichischen Nationalbibliothek und vielen anderen internationalen Webarchiven verwendet wird. Nach Eingabe einer Webadresse wird den BenutzerInnen eine Seite mit den einzelnen chronologisch geordneten Zeitschnitten  dieser Webadresse angezeigt.

              Suchergebnis im Webarchiv Österreich und im Internet Archive

              Abbildung 2: Nach Eingabe der Webadresse » http://www.onb.ac.at in der Wayback Machine des Webarchivs Österreich und des Internet Archives wird den BenutzerInnen eine Seite aller gesammelten Zeitschnitte chronologisch angezeigt. [Online] » https://webarchiv.onb.ac.at bzw. » https://archive.org/web/ [24.11.2020]

              Wird ein bestimmter Zeitschnitt ausgewählt, wird diese gespeicherte Version aus dem Webarchiv mit den notwendigen referenzierten Dateien, in der zeitlich nähesten Version geladen und im Browser dargestellt. Um eine weitere Navigation im archivierten Web möglich zu machen, werden in jeder geladenen HTML-Datei alle Referenzen um eine zeitliche Komponente erweitert. Öffnen BenutzerInnen im Webarchiv eine Seite zu einem bestimmten Zeitschnitt und folgen im Browser einem Link, so wird ausgehend vom Zeitstempel der Ausgangsseite, der  nächst liegende Zeitschnitt der verlinkten Seite aus dem Webarchiv geladen und angezeigt.

              Die sichtbare und unsichtbare Textebene einer rekonstruierten Webseite

              Abbildung 3: Die sichtbare und unsichtbare Textebene einer rekonstruierten Webseite: Ein Screenshot der Startseite der Österreichischen Nationalbibliothek vom 28.11.2011 mit dem dazugehörigen HTML-Code. Grün gekennzeichnet ist der Zeitstempel der veränderten Referenzen im HTML-Code. [Online] » https://webarchiv.onb.ac.at/web/20111128170118/http://www.onb.ac.at [24.11.2020]

              Nur selten wird eine verlinkte Seite den gleichen sekundengenauen Zeitstempel besitzen, da während eines Crawlvorganges nie alle Web-Objekte zeitgleich abgerufen und gespeichert werden können. Daher kann nicht gewährleistet  werden, ob sich eine Webseite während des Crawls verändert hat oder nicht. Theoretisch wäre ein "Einfrieren" des Onlinewebs für die Dauer des Crawlvorganges die einzige Lösung. Praktisch lässt sich das höchstens für einzelne Webseiten durchführen. Um festzustellen, ob sich eine Webseite innerhalb eines Zeitraumes verändert hat, müsste sie zweimal hintereinander gecrawlt und daraufhin beide Archivversionen miteinander verglichen werden. Weisen beiden Versionen keine Unterschiede auf, handelt es sich um einen kohärenten Crawl.[4]

              Durch die Architektur und die Dynamik des Webs ist es "niemals nachvollziehbar, ob, wann und wo das Web aktualisiert wurde"[5]. Für eine archivierte Webseite könnte es ein Original geben, aber in den meisten Fällen wird es nicht mehr vorhanden sein. Zudem besteht beim Crawlen von komplexen Webseiten immer die Gefahr eines Informationsverlustes, wenn ein Crawler nicht dieselben Fähigkeiten eines Browsers besitzt. Wie bei einem nicht kohärenten Crawl, entstehen dabei archivierte Webseiten, die so nie existiert haben. Demnach wird das archivierte Web in seiner Rekonstruktion im Webarchiv sozusagen „wiedergeboren“, es wird als ein "reborn digital medium"[6] bezeichnet.

              BenutzerInnen von Webarchiven müssen sich bewusst sein, dass trotz der enormen verfügbaren Datenmengen, immer wieder Lücken und Inkonsistenzen bei der Anzeige von archivierten Webseiten auftreten können. Das Wissen über die komplexe Struktur des Webs ist hilfreich beim Erkennen, wie nahe die Rekonstruktion einer Webseite dem nicht mehr vorhandenen Original gekommen ist.

              Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtischen Versicherungsverein für die Unterstützung des Webarchivs Österreich.


              Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.


              [1] Vgl. : Predikaka, Andreas (2020): "Wie das österreichische Web im Archiv landet", [online] » https://www.onb.ac.at/forschung/forschungsblog/artikel/wie-das-oesterreichische-web-im-archiv-landet [24.11.2020]
              [2] Diese drei technischen Komponenten charakterisieren das Web. Vgl. Brügger, Niels (2018): The Archived Web. Doing History in the Digital Age, Cambridge London: The MIT Press, 23
              [3] Benannt nach der Zeitmaschine WABAC, mit der die Hauptcharaktere der 1960er Zeichentrickserie "The Adventures of Rocky and Bullwinkle and Friends" durch die Geschichte reisen. [Online] » https://youtu.be/6V7M4AfTOrw?t=205 , [24.11.2020]
              [4] Vgl. Spaniol, Marc et. al.: Data Quality in Web Archiving, [online] » https://web.archive.org/web/20201119235216/https://www.researchgate.net/profile/Marc_Spaniol/publication/221023143_Data_Quality_in_Web_Archiving/links/58764c5808ae8fce492dcd75/Data-Quality-in-Web-Archiving.pdf [24.11.2020]
              [5] Brügger 2018: 87
              [6] "digitized - born digital - reborn digital media". Vgl. Brügger 2018: 5f

              Wie das österreichische Web im Archiv landet

              03.09.2020 Forschungsblog

              Autor: Andreas Predikaka

              Das Web, das seit über 30 Jahren immer stärker Geschehen und Wissen unserer Welt abbildet, erweist sich als äußerst flüchtiges Medium. Unterschiedlichen Studien zufolge haben Webseiten eine durchschnittliche Lebensdauer von 44 bis 100 Tagen[1]. Es gibt Webseiten, die bleiben Jahre unverändert, andere ändern sich mehrmals täglich, Social-Media-Seiten wiederum liefern gar bei jedem Aufruf einen anderen Inhalt. 

              Dass Webinhalte, genauso wie Handschriften, Bücher oder Zeitungen zum kulturellen Erbe eines Landes gehören und deshalb schützenswert sind, wird immer bekannter, wie die steigenden Zugriffszahlen auf das Webarchiv Österreich zeigen.  

              Seit am 1. März 2009 in Österreich die Mediengesetznovelle[2] in Kraft getreten ist, kümmert sich die Österreichische Nationalbibliothek um die Archivierung des österreichischen Web Contents. Dabei bewegt sich ein spezielles Programm, ein sogenannter Crawler, durch das österreichische Web und legt eine Kopie der österreichischen Webseiten im Archiv ab. Ausgehend von einer Liste mit Adressen von Webseiten (Seeds) ruft der Crawler die Inhalte der einzelnen Seeds ab, speichert sie, extrahiert alle verfügbaren Links und folgt diesen nach einer Reihe definierter Regeln, die beispielsweise Crawl-Tiefe, Objektanzahl oder Speichermenge bestimmen. 

              Vereinfachte Darstellung der Funktionsweise eines Crawlers

              Abb. 1: Vereinfachte Darstellung der Funktionsweise eines Crawlers

              Domain Crawl 

              Auf diese Weise wird versucht, einen signifikanten Teil des nationalen Webspaces zu sammeln und zu archivieren. Diese komplexe Aufgabe der Datensammlung wird durch die Kombination verschiedener Sammlungsmethoden bewerkstelligt. Beim sogenannten Domain Crawl werden alle Domains unterschiedlicher Top-Level-Domains anhand von Gesamtlisten der jeweiligen Registrierungsstelle als Ausgangsseeds für einen Crawl verwendet. Zusätzlich zur österreichischen .at Domain, inklusive aller Second-Level-Domains (.or.at, co.at, ac.at, gv.at, priv.at), werden seit Einführung von generischen Domains auch die kompletten Domainlisten der Top-Level-Domain .wien und .tirol verwendet. Ergänzt werden diese Listen mit Adressen von Webseiten österreichischer MedieninhaberInnen, die über andere Top-Level-Domains erreichbar sind. Da es dafür keine Verzeichnisse gibt, werden solche Adressen laufend von WebkuratorInnen für den Domain Crawl gesammelt. Auch LeserInnen sind aufgerufen dem Webarchiv Österreich auf https://webarchiv.onb.ac.at Webseiten mit Österreichbezug zur Archivierung zu übermitteln. 

              Um mit dem verfügbaren Speicherbudget eines Domain Crawls einen möglichst repräsentativen Ausschnitt aller Domains zu sammeln, wird ein Domain Crawl mehrstufig durchgeführt. In der ersten Stufe werden alle Domains bis zu einer bestimmten Speichergrenze gecrawlt. Die Domains, die diese Grenze überschritten haben, werden in der nächsten Stufe bis zu einer weiteren größeren Speichergrenze gecrawlt. Danach verbleiben nur mehr Domains mit sehr viel Content, die in einem abschließenden Crawl komplett gespeichert werden. Auch wenn aus Kapazitätsgründen das Webarchiv Österreich bisher immer zweistufig crawlte (Speichergrenzen von 10 und 100 Megabytes), so konnten in den ersten vier Domain Crawls dennoch über 95 Prozent aller Domains vollständig archiviert werden[3]. Wenngleich der Gesetzgeber der Österreichischen Nationalbibliothek erlaubt bis zu vier Domain Crawls im Jahr durchzuführen, so kann aufgrund der benötigten großen Speichermengen derzeit nur ein Domain Crawl pro Jahr stattfinden. 

              Selektiver Crawl 

              Aufgrund der geringen Frequenz von Domain Crawls würden besonders bei Webseiten, die häufigen Änderungen unterliegen, zahlreiche Inhalte für die Webarchivierung verloren gehen. Aus diesem Grund werden zu bestimmten Themenbereichen wie Medien, Politik, Wissenschaft und Behörden von WebkuratorInnen wichtige Webseiten ausgewählt. Für diese Seiten werden geeignete Crawl-Intervalle festgelegt und regelmäßig Selektive Crawls durchgeführt. So werden z.B. Nachrichten-Webseiten und Seiten politscher Parteien täglich gespeichert, um die wesentlichen Inhalte zu archivieren.  

              Event Crawl 

              Eine Sonderform des Selektiven Crawls ist der Event Crawl, bei dem Inhalte zu bestimmten Ereignissen archiviert werden. Zahlreiche Webseiten stehen oft nur für den Zeitraum eines Ereignisses zur Verfügung und verschwinden danach sehr rasch. Unter Berücksichtigung der geschätzten durchschnittlichen Lebensdauer einer Webseite besteht jedenfalls das Risiko, dass Seiten bis zum nächsten geplanten Domain Crawl bereits wieder verschwunden sind. Klassische Themen für Event Crawls sind z.B. Veranstaltungen oder Wahlen. In der Regel werden mit dem Event Crawl geplante Ereignisse abgedeckt, bei denen die Dauer bekannt ist und ausgehend davon eine bestimmte Crawl-Dauer definiert werden kann. Exakt planbar waren zum Beispiel die Crawls zu den Olympische Winterspielen 2010 und 2014 oder der Eurovision Song Contest 2015, der in Österreich stattfand. Die Crawl-Dauer wurde dabei über die Länge der Veranstaltung inklusive einer definierten Vor- und Nachlaufzeit bestimmt. Crawls zu Wahlen beginnen mit der Zulassung der wahlwerbenden Personen oder Parteien und enden mit dem Beginn der Amtstätigkeit der gewählten Person oder Regierung. Die Dauer dieser Crawls ist somit nicht präzise vorhersehbar, so dauerte der Crawl zur Bundespräsidentenwahl 2016 aufgrund mehrerer Wahlwiederholungen ungewöhnlich lange.  

              Ad-hoc Crawl 

              Es kann aber auch sein, dass es plötzlich notwendig wird, Webseiten zu einem bestimmten Thema zu archivieren. Diese spontanen Event Crawls werden auch Ad-hoc Crawls genannt. In so einem Fall ist es natürlich nicht absehbar, wie lange ein Crawl dauern wird. Die 2015 plötzlich auftretende Flüchtlingsbewegung bewirkte einen Event Crawl, der erst nach einigen Jahren beendet wurde. Das bekannte Ibiza Video löste einen Event Crawl zu einer Regierungskrise aus, der erst nach mehreren Folgeereignissen (Entlassung der Regierung, Übergangsregierung, Neuwahlen und Regierungsbildung) beendet werden konnte. In so einem Fall werden natürlich während des Events laufend Webseiten hinzugefügt und die Crawl-Intervalle nach deren Änderungsverhalten angepasst. Seit März dieses Jahres läuft der bisher größte Event Crawl zur Corona-Krise. Ein Ereignis, das in alle Bereiche der Gesellschaft eingriff und sich im gesamten österreichischen Web widerspiegelt. Ein Ende dieses Crawls ist noch lange nicht absehbar und laufend werden neue Seiten dafür ausgewählt und gespeichert. In diesem Fall bekommt der Domain Crawl für 2020 einen ganz besonderen Stellenwert, da so eine sehr große Anzahl an Seiten mit Corona-Bezug automatisch ins Archiv wandern werden, die ansonsten kuratorisch nicht berücksichtigt hätten werden können. 

              Die kombinierte Crawling-Strategie der Österreichischen Nationalbibliothek

              Abb. 2: Die kombinierte Crawling-Strategie der Österreichischen Nationalbibliothek. Nach Andersen, Bjarne (2006): The DK­domain: in words and figures, [online] https://web.archive.org/web/20200827125125/http://netarkivet.dk/wp-content/uploads/DFrevy_english.pdf [27.08.2020] 

              Eine laufende vollständige Sammlung des österreichischen Webs ist mit den derzeitigen Ressourcen nicht realistisch, es wird aber versucht mit der eben beschrieben Crawling-Strategie und bewusstem Mut zur Lücke ein möglichst umfangreiches und aussagekräftiges Abbild des österreichischen Webspaces für zukünftige Generationen zu sichern. Bis heute konnte so ein Datenbestand von über 145 Terabytes (entspricht über 3,8 Milliarden digitalen Objekten) aufgebaut werden.

              Das Webarchiv Österreich wird bereits seit vielen Jahren vom Wiener Städtische Versicherungsverein unterstützt, wofür wir uns sehr herzlich bedanken.


              Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.


              [1] Taylor, Nicholas (2011): The Average Lifespan of a Webpage, [online] https://web.archive.org/save/https://blogs.loc.gov/thesignal/2011/11/the-average-lifespan-of-a-webpage/ [27.08.2020]
              [2] Änderung des Mediengesetzes: BGBl. I Nr. 8/2009, [online] https://web.archive.org/web/20200827142329/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html [27.08.2020]
              [3] Mayr, Michaela / Andreas Predikaka (2016): Nationale Grenzen im World Wide Web - Erfahrungen bei der Webarchivierung in der Österreichischen Nationalbibliothek. In: BIBLIOTHEK Forschung und Praxis 40/1, 90–95, [online] https://doi.org/10.1515/bfp-2016-0007 [27.08.2020]

              Gemerkte Webseiten

              Merkliste

              Hier sehen Sie Ihre gespeicherten Rechercheergebnisse, die sie in unserem online Suchportal oder an den Terminals vor Ort in der Bibliothek aufrufen können. Wie funktioniert die Merkfunktion?

                Merkliste öffnen

                Möchten Sie eine gespeicherte Linkliste aufrufen? Geben Sie einfach den Ihnen bekannten Code für eine Merkliste ein und klicken Sie auf Merkliste öffnen.
                Bitte einen Code eingeben!

                Merkliste speichern

                Möchten Sie diese Linkliste in der Bibliothek aufrufen? Das geht ganz einfach: Klicken Sie Merkliste speichern und ein Code wird Ihnen am Schirm angezeigt, mit dem Sie in der Bibliothek diese Liste wieder aufrufen können. Wenn Sie auch eine E-Mail Adresse angeben, erhalten Sie ein E-Mail mit diesem Code (Ihre E-Mail Adresse wird nicht von uns gespeichert und nur einmalig für diesen Vorgang verwendet).
                (optional)
                Bitte eine gültige Emailadresse eingeben!

                Nominieren

                mit dem Online-Formular

                Wir nehmen gerne Vorschläge zur Archivierung an. Natürlich können Sie auch Ihre eigene Webseite nominieren.
                Bitte eine Url oder einen Domainnamen eingeben!
                (optional)
                (optional)
                Bitte eine gültige Emailadresse eingeben!
                (optional)

                mit dem Bookmarklet

                Ziehen Sie nachfolgende Schaltfläche in Ihre Lesezeichen-Symbolleiste und Sie können Webseiten mit einem Klick nominieren!

                Url nominieren

                Kontakt

                Gerne beantworten wir Ihre Fragen und freuen uns über Feedback.
                Bitte eine Nachricht eingeben!
                (optional)
                (optional)
                Bitte eine gültige Emailadresse eingeben!

                FAQ

                Allgemein

                Was heißt eigentlich „Ablieferungspflicht für Online-Medien” genau? Was muss ich tun, gestatten oder unterlassen?

                Ablieferungspflicht für Online-Medien heißt, dass die ÖNB aufgrund einer seit 1. März 2009 in Kraft getretenen Novelle des Mediengesetzes (§ 43b MedienG) einerseits zur generellen automatisierten Sammlung (Harvesting) bis maximal 4 mal im Jahr von Medieninhalten unter einer .at-Domain (bzw. unter eine anderen Domain, soweit die Seiten einen inhaltlichen Bezug zu Österreich aufweisen) und andererseits zur gezielten Sammlung einzelner periodischer elektronischer Medien (Websites, e-Journals, e-Books usw.) berechtigt ist. Lediglich in letzterem Fall ist fallweise eine Mitwirkungspflicht des Medieninhabers gegeben, d.h. der Medieninhaber hat für den Fall einer Aufforderung durch die ÖNB die Daten zur Verfügung zu stellen.
                Grundsätzlich werden Medieninhalte mittels Harvesting gesammelt, hierfür sind keine Schritte durch den Medieninhaber notwendig. Wenn die Abholung nicht mit Harvesting machbar ist, kann das im Einzelfall entweder eine Bereitstellung zur Abholung durch die ÖNB sein bzw. eine Übermittlung der Daten auf einem anderen Transferweg, den beide - Medieninhaber und ÖNB - als den geeignetsten ansehen.

                Wie werden die Daten gesammelt?

                Der größte Teil durch Bereitstellung zur Abholung (z.B. über Harvesting, siehe Webarchivierung) durch die ÖNB, bei Bedarf durch Ablieferung (= Übermittlung der Daten via Standardschnittstellen).

                Welche Produkte und Produkttypen plant die ÖNB zu sammeln?

                Ausschließlich rein digital produzierte Medien, d.h. die ÖNB wird nicht mehrfach gleiche Inhalte sammeln. Wird ein Medium bereits in gedruckter bzw. in offline Form abgeliefert, muss die Online-Variante nicht nochmals abgeliefert werden.
                Reine Online-Medien: Elektronische Publikationen: e-Journals, elektronische Lexika, e-Books, e-Prints, online-Tageszeitungen, Websites etc.
                Semi-publizierte Dokumente: z.B. elektronische Dissertationen
                Nicht in Printfrom publiziertes, aber wissenschaftlich relevantes und zitiertes Material in digitaler Form: z.B. Forschungspapiere, Pre-prints, Berichte etc. auf Websites von WissenschaftlerInnen oder Forschungsprojekten.
                Generell nicht gesammelt und archiviert werden Ressourcen, deren Inhalte überwiegend einer der folgenden ist: Verzeichnisse (Linklisten), Diskussionslisten, News Groups u.ä., Anwendungsprogramme (Software), Spiele, Veranstaltungskalender und Werbung.

                Welche Text-, Bild-, Ton-, Video-Files in E-Books, E-Journals, XML-Datenbanken und anderen Datenbanken sollen gesammelt werden?

                Schwerpunkt der ÖNB ist Text- und Bildmaterial in Weiterführung des bisherigen Sammelauftrags. Die ÖNB wird daher z.B. keine Inhalte von Audioplattformen oder Bildagenturen sammeln, sollten aber z.B. in einem E-Book ein Audiofile bzw. Bilder enthalten sein, so soll das E-Book in seiner Gesamtheit archiviert werden.

                Wie geht die ÖNB mit Online-Anwendungen um?

                Augenmerk liegt auf den jeweiligen Inhalten, die Applikationen selbst werden nicht gesammelt. Wo keine Trennung des Inhalts von der Applikation möglich ist, kann zum derzeitigen Zeitpunkt das Medium nicht gesammelt werden.

                Webarchivierung

                Warum Webarchivierung?

                Ein immer größerer Teil der weltweit produzierten Information ist digital. Gedächtnisinstitutionen - also Archive, Bibliotheken, Museen und verwandte Einrichtungen -, deren Aufgabe es ist, unser kulturelles Erbe zu sammeln, zu archivieren und zugänglich zu machen, sehen sich mit der Herausforderung konfrontiert, auch dieses digitale Wissen für die Zukunft zu sichern. Die Österreichische Nationalbibliothek verfolgt mit dem Projekt Webarchivierung das Ziel der Sammlung und Archivierung des „österreichischen Internet”.

                Strategien zur Webarchivierung?

                Durch eine Kombination der Strategien Domain Harvesting (Top-Level-Domäne .at, sowie andere Top-Level-Domänen mit Österreich Bezug, wie z.B. com, .net, .org, .info, .cc, .eu etc.), Selektives Harvesting (Seiten, die häufigen Änderungen unterliegen wie z.B. Medien, Behörden, Wissenschaft etc.) und Event Harvesting (Online-Inhalte zu speziellen Anlässen und Großereignissen, z.B. Nationalratswahlen) sollen möglichst aussagekräftige Momentaufnahmen des österreichischen Webspace geschaffen und für die Nachwelt festgehalten werden.

                Wie funktioniert Webarchivierung? Welche Software wird verwendet?

                Die ÖNB verwendet zum Harvesting das Software Paket NetarchiveSuite (http://netarchive.dk/index-en.php), das im Rahmen des dänischen Webarchivierungsprojekts von der Königlichen Bibliothek und der Staatsbibliothek Dänemark entwickelt wurde. Die Daten werden ähnlich wie bei einem Webbrowser vom Host angefordert. Die Software folgt Links innerhalb einer Webseite und sammelt alle gefundenen Dateien. Datenbank-generierte Seiten können gesammelt werden, nicht jedoch Seiten, die passwortgeschützt sind. Es wird ausschließlich Open Source Software verwendet. Der Zugriff erfolgt mittels Wayback Machine.

                Darf die ÖNB meine Seite archivieren?

                Die Österreichische Nationalbibliothek hat einen gesetzlichen Auftrag (Mediengesetz) zur Archivierung des österreichischen Webspace und ist daher berechtigt, Seiten mit .at Domain sowie Seiten mit Österreich Bezug zu archivieren.

                Muss ich meine Seite für die Webarchivierung vorbereiten? Sind von meiner Seite Schritte notwendig?

                Für die Webarchivierung ist von Seiten des Medieninhabers keinerlei Vorbereitung notwendig.

                In welchen Intervallen plant die ÖNB ihre Daten zu sammeln?

                Domain Harvestings (gesamte .at Domain sowie Seiten mit Österreich Bezug) werden alle 2 Jahre durchgeführt. Für selektive und Event Harvestings werden in Abhängigkeit von Ereignis, Medium etc. geeignete Intervalle bestimmt.

                Wird das Webarchiv kommerziell genützt?

                Das Webarchiv der Österreichischen Nationalbibliothek dient wissenschaftlichen Zwecken und wird nicht kommerziell genützt. Es steht den Lesern in den Räumlichkeiten der ÖNB und in den  berechtigten Bibliotheken unentgeltlich zur Verfügung.

                Werden meine User die Archivversion mit der aktuellen Version meiner Webseite verwechseln?

                Unserer Meinung nach besteht keine Verwechslungsgefahr. Der Zugriff auf die Seiten wird nur in den Räumlichkeiten der ÖNB möglich sein, nicht über Internet. Archivseiten werden klar als solche gekennzeichnet. Das Webarchiv der ÖNB wird nicht von Suchmaschinen wie z.B. Google indiziert, die Benützer der Suchmaschinen können daher nie auf eine Archivversion der Webseite verwiesen werden. Die Benützer des Webarchivs werden von der Verfügbarkeit von Material profitieren, das auf „live” Webseiten nicht mehr vorhanden ist.

                Meine Seite verfügt über einen Passwort geschützten Bereich - wird dieser auch archiviert?

                Zugangsgeschützte Bereiche werden nur archiviert, wenn es sich z.B. um einen Bereich handelt, der kostenpflichtig (Verlagsprodukte) aber prinzipiell für die Öffentlichkeit bestimmt ist. Nicht archiviert werden z.B. Intranets oder private zugangsgeschützte Daten.

                Woher bekommt die ÖNB Informationen über Domains?

                Die Liste der .at Domains wird der ÖNB von der Österreichischen Domain Registrierungsstelle nic.at zur Verfügung gestellt. Seiten mit generischen Top Level Domains werden manuell oder mit speziellen Verfahren eruiert.

                Ich gestalte eine neue Website - kann ich sie zur Archivierung anmelden?

                Sie können uns gerne Ihre URL mitteilen. Sollte sie unseren Sammlungskriterien entsprechen, nehmen wir die Seite gerne in das Harvesting auf. Die endgültige Entscheidung über die Aufnahme liegt bei der ÖNB.

                Heißt das die ÖNB wird meine Seite hosten?

                Nein, Webseiten-Betreiber sind nach wie vor selbst für das Hosting ihrer Seiten verantwortlich.

                Warum werden robots.txt und Meta-Tag robots vom Crawler ignoriert?

                Die Österreichische Nationalbiliothek betreibt die Webarchivierung im gesetzlichen Auftrag, dieser ist vorrangig zu berücksichtigen.

                Wie stark wird mein Server durch den Crawler belastet?

                Die Webcrawler der ÖNB sind so konfiguriert, dass Ihre Serverbelastung möglichst gering gehalten wird. Sollten dennoch technische Probleme durch das Webharvesting entstehen, ersuchen wir Sie uns zu kontaktieren (webarchiv@onb.ac.at, siehe Information in der Crawler Signatur).

                Die Webauftritte der Zeitungen sind dadurch charakterisiert, dass sie stark auf fremde Websites verlinken, insbes. bei werblichen Inhalten, die personalisierte Werbebotschaften an User senden. Soll eine Archivierung auch diese externen Inhalte umfassen?

                Externe Inhalte werden nicht gesammelt.

                Wer trifft die Auswahl der Seiten?

                Die Auswahl der Seiten wird von sogenannten Web-Kuratoren im Einklang mit der Sammlungspolicy getroffen.

                Was ist der Unterschied zu archive.org?

                Das Internet Archive ist eine Non Profit Organisation, die 1996 in den USA gegründet wurde mit dem Ziel Forschern Zugriff zu historischen digitalen Sammlungen zu ermöglichen. Das Webarchiv der Österreichischen Nationalbibliothek sammelt ausschließlich Inhalte mit .at Domain oder Österreich Bezug, auf Basis des österreichischen Mediengesetzes.

                Wie kann ich auf die archivierten Daten zugreifen?

                Für den Zugriff in der Österreichischen Nationalbibliothek stehen spezielle Terminals zur Verfügung, die den gesetzlichen Bestimmungen angepasst sind (z.B. kein E-Mail Versand etc.). Aus rechtlichen Gründen wird der Zugriff auf das Webarchiv nur in den Räumlichkeiten der Österreichischen Nationalbibliothek und bei berechtigten Bibliotheken möglich sein.

                Ablieferung

                Wer trägt die Kosten für die Einrichtung einer Schnittstelle?

                Zusammen mit dem Medieninhaber wird die jeweils günstigste und rationellste Form der Datenüberspielung festgelegt. Dabei kommt entweder ein Web-Harvesting zum Einsatz, oder eine Datenüberspielung über vorhandene Standardschnittstellen (wie http,  (S)FTP). Sollte für die Datenlieferung die Einrichtung einer Schnittstelle notwendig sein, deren Kosten 250 EUR übersteigt, so ist die ÖNB vom Medieninhaber darüber zu informieren. Wenn die ÖNB die Aufforderung zur Ablieferung wiederholt, übernimmt sie den darüber hinausgehenden Kostenanteil.

                Mit einer Online-Übermittlung bin ich aus Sicherheitsgründen nicht einverstanden; wäre die ÖNB bereit, die Daten regelmäßig abzuholen?

                Es besteht die Möglichkeit, Daten auch offline auf DVD zu übermitteln. Für DVD hat sich schon der herkömmliche Postweg bewährt. Abholung durch die ÖNB kann nur online erfolgen.

                Meine Datenbank umfasst mehrere Terabyte. Wie soll ich diese physikalisch übermitteln?

                Die ÖNB wird nicht die gesamte Datenbank übernehmen, sondern nur die Inhalte. Bei mehreren Terabyte „auf einmal” wird nur eine sukzessive Online-Übermittlung infrage kommen.

                Welche Abläufe bei der Ablieferung können auf Seiten der ÖNB automatisiert werden?

                Alles, das über standardisierte Schnittstellen mit Timestamps automatisierbar ist, z.B. Harvesten, Downloads, FTP. Das Automatisieren der Ablieferung bei größeren Datenmengen ist auch für die ÖNB von essentieller Bedeutung.

                Meine Abonnement-Zeitschrift erscheint vorab elektronisch („online first”) - für welches Medium besteht die Ablieferungspflicht?

                Primär für das gedruckte Medium.

                Zu meiner gedruckten Zeitschrift gibt es eine Website mit reinen Marketing-Inhalten (Auszug aus dem Inhaltsverzeichnis, Bestellmöglichkeit etc.). Besteht Ablieferungspflicht für die Website?

                Nein.

                Zu meiner gedruckten Zeitschrift gibt es ein webbasiertes Forum (moderiert oder nicht moderiert) Besteht Ablieferungspflicht?

                Nein.

                Meine Webapplikation ist datenbankgestützt; ohne User Interface sind die Datensätze nicht sinnvoll lesbar. Besteht Ablieferungspflicht?

                Wenn die Datensätze ohne Applikation nicht lesbar sind, besteht keine Ablieferungspflicht. Wenn der Inhalt ohne Applikation lesbar ist, wird nur der Inhalt gesammelt.

                Recht

                Meine Website ist kostenpflichtig und daher passwortgeschützt. Muss ich der Österreichischen Nationalbibliothek dieses Passwort mitteilen? Gibt sie es weiter? An die Landesbibliotheken? An die Benutzer?

                Wenn die Österreichische Nationalbibliothek die Daten downloaden bzw. harvesten kann und die Site passwortgeschützt ist, benötigt die Österreichische Nationalbibliothek zum Zweck des Datenerwerbs das Passwort. Die Österreichische Nationalbibliothek gibt dieses selbstverständlich weder an andere Bibliotheken noch an BenutzerInnen weiter.

                Kann ich für meine Daten eine Sperrfrist verhängen?

                Für einzelne besonderen Bedingungen unterliegenden Medien für maximal ein Jahr. Diese muss jedoch schriftlich begründet werden. Die Sperrfrist sollte nicht die Regel sein.

                Habe ich ein Widerrufsrecht?

                Nein, Daten die im Archiv gespeichert sind, werden nicht gelöscht. Sollte ein Gerichtsurteil zur Zurücknahme ergehen (analog zum Printbereich), sperrt die Österreichische Nationalbibliothek das Medium generell für jegliche Benutzung.

                Was ist, wenn ich einzelne (Teile von) Beiträge(n) wieder vom Netz nehme, z. B. wegen rechtlicher Bedenken, nachdem die Ablieferung an die Österreichische Nationalbibliothek bereits erfolgt ist. Bleiben diese in der Österreichischen Nationalbibliothek dennoch auf immer gespeichert und für Benutzer zugänglich?

                Diese Problematik wird analog zur Regelung bei Druckwerken gehandhabt. Beiträge werden demnach grundsätzlich archiviert und zur Benützung zur Verfügung gestellt. Von der Benützung werden Sammlungsgegenstände nur aufgrund gerichtlicher Anordnung ausgeschlossen, oder bei begründetem Verdacht einer strafbaren Handlung. Die Österreichische Nationalbibliothek trifft diesbezüglich keine Überprüfungspflicht, sie ist insbesondere nicht verpflichtet, die Stichhaltigkeit der rechtlichen Argumente zu prüfen, die für oder gegen eine Benützung sprechen.
                Anmerkung: die Sperre der Benützung wegen des Verdachts einer strafbaren Handlung wird an der Österreichischen Nationalbibliothek restriktiv gehandhabt und findet fast ausschließlich bei revisionistischer Literatur Anwendung. Die „gewandelte Überzeugung” einer Autorin/eines Autors alleine (z.B. der Hinweis auf eine wesentlich bessere neue Auflage) ist für eine Benützungssperre nicht ausreichend (bei obigem Beispielsfall sind z.B. beide Auflagen benützbar).

                Wie werden die Urheberrechte und verwandte Schutzrechte beachtet und welche Schutzmaßnahmen werden hier getroffen?

                Die abgelieferten Medieninhalte werden von der Österreichischen Nationalbibliothek nur an ihrem Standort sowie bei berechtigten Bibliotheken zugänglich gemacht. Bei bestimmten elektronischen periodischen Medien erfolgt eine Benützung im Sinne von single concurrent user on site (zum gleichen Zeitpunkt jeweils nur ein Benutzer der betreffenden Bibliothek). Eine elektronische Vervielfältigung der Medieninhalte ist nicht mögich, Ausdrucke können angefertigt werden.

                Der Server meiner Online-Inhalte steht in Deutschland. Wo besteht Ablieferungspflicht?

                Verpflichteter nach Mediengesetz ist in der Regel der Medieninhaber, wobei für die Ablieferungspflicht der Sitz des Medieninhabers ausschlaggebend ist. Wo der Server konkret steht, ist dabei irrelevant. Ablieferungspflicht soll also für den Medieninhaber mit Sitz in Österreich bestehen.

                Meine Online-Redakteure haben ein vertragliches Zustimmungsrecht für jede Nebenrechtsverwertung. Handelt es sich bei der Pflichtablieferung um eine solche Nebenrechtsverwertung?

                Nein. Die Erfüllung der mediengesetzlichen Anbietungs- bzw. Ablieferungspflicht ist weder ein Nebenrecht noch eine Verwertung, geschweige denn eine Nebenrechteverwertung. Eine Nebenrechteverwertung wäre etwa die Vertonung eines Textbeitrags als Hörspiel oder eine Aufführung als Theaterstück, jedenfalls aber nicht die Erfüllung einer gesetzlichen Verpflichtung durch den Medieninhaber. Eine vertragliche Verpflichtung, die die Erfüllung einer gesetzlichen Verpflichtung von einer individuellen Zustimmung abhängig machen würde, wäre zudem klar gesetzwidrig und jedenfalls nichtig.

                Meine Online-Applikation ist multimedial; ich darf für die Foto- und Filmrechte aber nicht sublizensieren.

                Vertragliche Vereinbarungen können generell gesprochen keine gesetzlichen Verpflichtungen „aushebeln”. Da aber eine Pflichtablieferung inhaltlich ohnehin keine Sublizenzierung ist, erscheint ein solches vertragliches Sublizenzierungsverbot auch nicht weiter problematisch.

                Werden die Verlage gegebenenfalls für die Weitergabe zur Online-Archivierung schad- und klaglos gestellt?

                Nein. Die Österreichische Nationalbibliothek erfüllt ihren Auftrag im Rahmen ihrer gesetzlichen Grundlagen, bezüglich ihrer Haftung gelten die allgemeinen Haftungs- und Schadenersatzregeln.

                Wie werden die rechtlichen Probleme medienrechtlicher Verfahren (z.B. Gegendarstellung) gelöst?

                Im Rahmen einer gesetzlichen Pflichtablieferung für Online-Produkte hat die Österreichische Nationalbibliothek die Aufgabe der Archivierung und Benützbarhaltung zu erfüllen. Abgesehen vom dringenden Verdacht einer strafbaren Handlung oder einer diesbezüglichen gerichtlichen Anordnung geht die Österreichische Nationalbibliothek davon aus, dass diese gesetzliche Verpflichtung von ihr vorrangig zu beachten ist.

                Technik

                Muss ich meine Daten für die Österreichische Nationalbibliothek in ein spezifisches Format bringen?

                Die Österreichische Nationalbibliothek unterstützt Standardformate. Wenn es dem Medieninhaber nicht automatisiert möglich ist, die Daten in ein geeignetes Formate zu bringen, kann die Österreichische Nationalbibliothek entscheiden, ob sie trotzdem das medieninhabereigene Format sammeln will oder nicht.

                Welche Standards (Ablauf, Technik) hat die Österreichische Nationalbibliothek zur Qualitätssicherung definiert?

                Die Österreichische Nationalbibliothek verwendet sowohl für den Datentransfer, als auch für die Archivierung, die Sicherheit der Daten und Zugriffe etc. ausschließlich international gebräuchliche Standards.

                Welche Schnittstellen unterstützt die Österreichische Nationalbibliothek?

                Die Österreichische Nationalbibliothek unterstützt offene Standardschnittstellen zum Datentransfer wie: HTTP(S), (S)FTP, OAI-PMH.

                Plant die Österreichische Nationalbibliothek für die Einspeisung der Inhalte in ihre Systeme die Verwendung proprietärer oder offener Schnittstellen? Welche? Wie schätzt die Österreichische Nationalbibliothek den Implementationsaufwand für solche Schnittstellen für ablieferungspflichtige Datenbankbetreiber ein?

                Die Österreichische Nationalbibliothek setzt zum gegenwärtigen Zeitpunkt ausschließlich auf offene Schnittstellen und plant in diesem Zusammenhang auch nicht die Einführung proprietärer. Das Festhalten bzw. die Unterstützung offener Schnittstellen hat sich bis dato bewährt. Der Implementierungsaufwand für offene Schnittstellen ist weniger aufwändig als für proprietäre, darüber hinaus bieten offene Schnittstellen den Vorteil, sie für andere Anwendungen auch verwenden zu können.

                Welche Anwendungsprogramme stehen den Benützern der Österreichischen Nationalbibliothek zur Verfügung (Mail-Client, Webmail, PDF-Erzeuger etc.)?

                An den Terminals mit Zugang zum Archivsystem stehen den BenutzerInnen keine Anwendungsprogramme zur Verfügung mit Ausnahme diverser Viewer, um Medien betrachten zu können. Es besteht dort auch nicht die Möglichkeit, Medien zu speichern oder per Mail zu verschicken. Lediglich Ausdrucken ist möglich.

                Plant die Österreichische Nationalbibliothek, in Zukunft Datenbanken in ihrer Gesamtheit (inklusive Datenbankapplikation) zu archivieren? Beschäftigt sie sich in diesem Zusammenhang mit dem Themen Virtualisierung und Migration von Datenbanken etc. oder beteiligt sie sich an einschlägigen Forschungsprojekten?

                Die Österreichische Nationalbibliothek wird mittelfristig Inhalte aber keine Applikationen sammeln und archivieren. Die Österreichische Nationalbibliothek ist jedoch an internationalen Forschungsprojekten im Bereich Langzeitarchivierung beteiligt, bei denen Migration und Emulation von Datenbanken Thema ist (z.B. EU Projekt PLANETS). Der Österreichischen Nationalbibliothek (und allen anderen Gedächtnisinstitutionen als auch Partnern aus Wirtschaft und Industrie) ist bewusst, dass dieser Komplex zur größten Herausforderung zählt, die weder von einem Land alleine, geschweige denn von einer Institution alleine bewältigt werden kann. Lösungen in diesem Bereich können nur kollaborativ und international unter Miteinbeziehung der Industrie erarbeitet werden.

                Teilweise sind auf Zeitungswebsites kurze Filmsequenzen als Videostream abrufbar. Sollen auch diese erfasst werden?

                Nein, außer sie sind integraler Teil eines abzuliefernden Inhalts.

                Soll auf die urheberrechtlich geschützten und von einzelnen Betreibern selbst entwickelten Redaktionssysteme zugegriffen werden?

                Der Österreichischen Nationalbibliothek muss die Möglichkeit gegeben werden, auf die Inhalte zuzugreifen bzw. die Inhalte müssen der Österreichischen Nationalbibliothek übermittelt werden. Das kann nicht das Redaktionssystem selbst sein.

                Hilfe

                Wie kann ich suchen?

                Sie können nach vollständigen Webadressen wie z.B. http://www.onb.ac.at suchen oder mit einem Suchbegriff im Volltext recherchieren. (Achtung: Nicht alle Webseiten sind über den Volltext auffindbar)

                Wie kann ich archivierte Webseiten finden?

                Sie können online recherchieren und herausfinden, welche Archivkopien vorhanden sind. Im Kalender Alle Versionen sehen Sie eine Übersicht aller vorhandenen Versionen. Mit dem Link zur Live Version können Sie herausfinden, welche Inhalte aktuell unter der URL verfügbar sind. (Achtung: Die Live Version ist möglicherweise nicht mehr verfügbar)

                Die Anzeige der archivierten Webseiten ist online nicht erlaubt. Das Österreichische Mediengesetz ermöglicht den Zugang vor Ort an der österreichischen Nationalbibliothek und bei berechtigten Bibliotheken.

                Wo kann ich archivierte Webseiten anzeigen?

                Die Anzeige der archivierten Webseiten ist online nicht erlaubt. Das Österreichische Mediengesetz ermöglicht den Zugang vor Ort an der österreichischen Nationalbibliothek und bei berechtigten Bibliotheken.

                Am Standort Heldenplatz stehen Ihnen drei spezielle Terminals für die Nutzung des Webarchivs zur Verfügung. Diese befinden sich im Untergeschoß, in der Recherchezone des neuen Centers für Informations- und Medienkompetenz (CIM).

                Recherchezone im CIM

                Recherchezone im CIM

                Terminal im CIM

                Terminals im CIM

                Aktuell können Sie das Webarchiv auch bei folgenden Bibliotheken einsehen:
                • Administrative Bibliothek des Bundes
                • Vorarlberger Landesbibliothek
                • Universitätsbibliothek Graz
                • Universitäts- und Landesbibliothek Tirol
                • Universitätsbibliothek Salzburg
                • Wienbibliothek im Rathaus

                Wie funktioniert die Merkfunktion?

                Nutzen Sie die Merkfunktion Merken um für Archivversionen ein Lesezeichen zu speichern, das Sie ganz einfach vor Ort in der Bibliothek wieder aufrufen können.

                Mit Merken können Sie Lesezeichen für einzelne Archivversionen speichern. Unter Gemerkte Webseiten finden Sie alle gespeicherten Links. Diese können auch gelöscht werden.

                Möchten Sie diese Linkliste in der Bibliothek aufrufen? Das geht ganz einfach: Klicken Sie Merkliste speichern und ein Code wird Ihnen am Schirm angezeigt, mit dem Sie in der Bibliothek diese Liste wieder aufrufen können. Wenn Sie auch eine E-Mail Adresse angeben, erhalten Sie ein E-Mail mit diesem Code (Ihre E-Mail Adresse wird nicht von uns gespeichert und nur einmalig für diesen Vorgang verwendet).

                Welche Webseiten werden archiviert?

                Unsere Sammelrichtlinien beinhalten grundsätzlich österreichische Webseiten. Die gesamte .at Domäne und andere geografische Domänen wie z.B. .wien werden alle zwei Jahre automatisiert gespeichert. Natürlich sind auch andere Domains wie .com etc. inkludiert, diese werden manuell ausgewählt. Diese umfangreiche Archivierungsmethode wird als Domain Crawl oder Domain Harvesting bezeichnet.

                Zusätzlich archivieren wir Webseiten zu bestimmten Themen (z.B. Medien, Politik etc.) oder Ereignissen (z.B. Wahlen, Events etc.). Die von KuratorInnen ausgewählten Inhalte der sogenannten Selektiven und Event Crawls finden Sie unter Seeds.

                Beim Sammeln von Webseiten gibt es einige (technische) Einschränkungen. Wir archivieren keine Streaming-Inhalte, keine dynamisch erzeugten Seiten (z.B. Suchergenbisse aus Datenbanken), keine flächendeckenden Einträge in Social Media (nur punktuell und themenbezogen öffentliche Profile).

                API

                Die Webarchiv-API ermöglicht einen REST-konformen Zugriff auf die öffentlich zugänglichen Daten des Archivs. Die Resultate werden im JSON-LD Format ausgeliefert.

                Authentifizierung

                Die Authentifizierung erfolgt durch Übermittlung eines API-Keys. Dieser Key kann per Mail an webarchiv@onb.ac.at beantragt werden und wird in der Regel innerhalb kurzer Zeit erzeugt. Für Testzwecke kann der Demo-Api-Key Zz2tQls7fuaocX2pjrfc2npojqbGwXL2 verwendet werden.

                Nutzung

                Um mit der Webarchiv API zu arbeiten, wird ein Access-Token benötigt, der durch einen HTTP POST-Request mit dem API-Key erzeugt wird und für alle nachfolgenden Abfragen verwendbar bleibt. Dieser Token erlischt 30 Minuten nach der letzten Nutzung. Abhängig von der Serviceanfrage wird eine Antwort sofort ausgeliefert oder eine Request-ID zurückgegeben, die dazu verwendet werden kann den aktuellen Status der Anfrage zu erfahren. Sobald diese Statusabfrage HTTP-OK liefert, wird in der Antwort auch das Resultat mitgeliefert und die Abfrage ist abgeschlossen.

                GET /welcome

                GET /welcome

                POST /authenticate

                POST /authenticate

                GET /search/domainname

                GET /search/domainname

                GET /search/wayback

                GET /search/wayback

                GET search/fulltext

                GET /search/fulltext

                DELETE /search/kill

                DELETE /search/kill

                Dokumentation

                Die aktuelle Schnittstellenbeschreibung bietet neben der Dokumentation aller verfügbaren Aufrufe auch die Möglichkeit diese über ein Swagger-Webinterface zu testen. In den ÖNB Labs stehen Beispiele zur Benutzung der Webarchiv-API in Python zur Verfügung.


                • FAQ
                • API
                • Team
                • Blog
                • Kontakt
                • Impressum
                • Barrierefreiheitserklärung
                • Datenschutz
                • © 2023 Österreichische Nationalbibliothek
                • Wiener Städtische Versicherungsverein