Diese Suche | zeigt alle Versionen der Url ... |
---|---|
http://www.onb.ac.at |
http://www.onb.ac.at |
http://www.onb.ac.at/images/onb_logo.png |
http://www.onb.ac.at/images/onb_logo.png |
Diese Suche | findet z.B. Seiten mit ... |
---|---|
Österreichische Nationalbibliothek Österreichische + Nationalbibliothek |
"Österreichische Webseiten" und "in der Nationalbibliothek" |
Österreichische | Nationalbibliothek |
"Österreichische Webseiten" oder "in der Nationalbibliothek" |
"Österreichische Nationalbibliothek" |
"Österreichische Nationalbibliothek" aber nicht "in der Nationalbibliothek" |
"Österreichische Nationalbibliothek" -Prunksaal |
"Österreichische Nationalbibliothek" aber nicht "Prunksaal" |
"http://www.onb.ac.at" |
"http://www.onb.ac.at" |
Ziehen Sie die folgenden Schaltflächen in Ihre Lesezeichen-Symbolleiste und Sie können mit einem Klick nach der im Browser angezeigten Webseite suchen oder diese nominieren
Das Team der Webarchivierung sammelt seit März 2009 österreichische Webseiten. Da das World Wide Web als Teil unseres kulturellen Erbes gilt, wollen wir online Medien erhalten, auch wenn sie bereits aus dem Live Web verschwunden sind. Wir archivieren die gesamte .at Domäne und ausgewählte Webseiten mit Österreich-Bezug.
Im österreichischen Mediengesetz ist geregelt, was wir sammeln und anzeigen dürfen. Der online Zugriff auf Archivkopien ist aufgrund des Gesetzes eingeschränkt. Sie können die gespeicherten Webseiten vor Ort in der Bibliothek ansehen.
Autor: Andreas Predikaka
Seit 1. März 2009 ist die Österreichische Nationalbibliothek gesetzlich ermächtigt das nationale Web zu sammeln. Während WebkuratorInnen für bestimmte Themenbereiche wie Medien, Politik, usw. laufend relevante, sammlungswürdige Webseiten auswählen und diese in geeigneten Speicherintervallen im Rahmen von Selektiven Crawls für die nachfolgenden Generationen archivieren lassen, werden zusätzlich regelmäßig alle bekannten Domains des österreichischen Webs automatisiert gespeichert. Diese Art der Archivierung wird „Domain Crawl“ genannt und dient dazu ein einmaliges, oberflächliches Abbild des gesamten nationalen Webs zu schaffen. Paragraph 43b des Mediengesetzes definiert den österreichischen Webspace wie folgt:
"§ 43b. (1) Die Österreichische Nationalbibliothek ist höchstens viermal jährlich zur generellen automatisierten Sammlung von Medieninhalten periodischer elektronischer Medien [...] berechtigt, die öffentlich zugänglich und 1. unter einer ".at"-Domain abrufbar sind oder 2. einen inhaltlichen Bezug zu Österreich aufweisen."1
Vor allem Punkt zwei bedeutet in der Praxis einen laufenden kuratorischen Aufwand, um Domains mit Österreich-Bezug ausfindig zu machen.2 Aus diesem Grund ist es notwendig die Ausgangsadressen für jeden neuen Domain Crawl an aktuelle Gegebenheiten und Entwicklungen anzupassen, um dadurch mehr nationale Inhalte crawlen und den potentiellen Verlust wichtiger Inhalte verringern zu können.
Domainnamen-Listen
Viele relevante Domainnamen für diese Art des Crawls melden uns WebkuratorInnen und LeserInnen3 oder sind Ergebnis von halbautomatischen Suchverfahren. Aber der Großteil der Namen wird über Listen unterschiedlicher Domain-Registrierungsstellen bezogen.
Ursprünglich wurden die ersten .at Domain-Registrierungen noch von der Universität Wien verwaltet, aber die hohe Nachfrage an Domainnamen machte es notwendig die Domainverwaltung als Dienstleistungsunternehmen zu etablieren, was im Jahr 2000 in Form der nic.at geschah, die seither die .at Domain administriert.4 Die Verwaltung des Namensraumes für akademische Einrichtungen .ac.at verblieb bei der Universität Wien. Neben der Namen der .at Domain, ist nic.at auch noch für die Verwaltung der für kommerziell orientierte Unternehmen vorgesehenen Subdomain .co.at, und für den Namensbereich .or.at zuständig. Die wenig bekannte Subdomain .priv.at wurde 1995 geschaffen, um eine kostengünstige Domain-Zone für Privatpersonen in Österreich zu schaffen. Die Verwaltung dieser Subdomain obliegt zur Zeit dem Verein VIBE!AT.5 Der weithin bekannte Namensraum .gv.at ist für Bundes- und Landesbehörden vorgesehen und wird dementsprechend vom Bundeskanzleramt verwaltet.
In Folge der Einführung der neuen generischen Domains6 im Jahre 2013 wurden die Namen der beiden Top Level Domains .wien und .tirol aufgrund des eindeutigen inhaltlichen Bezuges zu Österreich vollständig für den Domain Crawl übernommen. Für deren Verwaltung sind die punkt.wien GmbH7 bzw. punkt Tirol GmbH8 verantwortlich. Alle Namen dieser beiden Top-Level-Domains werden direkt von der Internet Corporation for Assigned Names and Numbers (ICANN)9 bezogen.
All diese gesammelten Domainnamen dienen als Datenbasis für den jährlich durchzuführenden Domain Crawl. Während der erste Crawl 2009 knapp 900.000 Domains umfasste, fanden 2022 bereits knapp 1,5 Millionen Domainnamen Verwendung.
Webseiten werden mit einem Crawler im Webarchiv gespeichert. Dabei startet ein Crawler bei einer Ausgangsadresse, folgt jedem Verweis auf der Seite und speichert alle Inhalte bis ein definiertes Limit erreicht ist.10
Ein Domainname ist jedoch keine Webadresse. Es fehlt noch der Name des Webservers, auf dem die Webseite gehostet wird. Da diese Information für die gesammelten Domainnamen nicht bekannt ist, wird der übliche Hostname www in Verbindung mit dem Kürzel des Protokolls http jedem Domainnamen vorangestellt, um so eine für den Crawler gültige Ausgangsadresse zu erzeugen. Aus dem Domainnamen onb.ac.at wird beispielsweise die Adresse http://www.onb.ac.at. In den meisten Fällen kann so die Startseite des wichtigsten Webserver der Domain erreicht werden. Sind für eine Domain weitere Hostnamen bekannt, werden diese in einem manuellen Prozess als weitere Ausgangsadressen erfasst (z.B. http://webarchiv.onb.ac.at , http://labs.onb.ac.at usw.).
Crawl-Management
Das Archivieren von mehr als einer Million Startadressen kann nicht mit einem Crawler auf einmal durchgeführt werden. Die Ausgangsadressen müssen portionsweise an eine Vielzahl von Crawler-Instanzen übergeben werden. Die Aufteilung aller Adressen auf viele Instanzen übernimmt das Software-System NetarchiveSuite, das im Rahmen des dänischen Webarchivierungsprojektes von der Dänischen Königlichen Bibliothek entwickelt und 2007 als Open Source Software zur Verfügung gestellt wurde. Inzwischen wird das System von einem Zusammenschluss von der KB Dänemark, der Französischen, Spanischen, Schwedischen und Österreichischen Nationalbibliothek weiterentwickelt.11 In der aktuellen Infrastruktur der Österreichischen Nationalbibliothek stehen für den Domain Crawl neun Server mit je zwei Crawler-Instanzen zu je 50 Threads zur Verfügung. Auf diese Weise können theoretisch Objekte von bis zu 900 Domains gleichzeitig angefordert und gespeichert werden. Jeder Crawler wird mit maximal 2500 Ausgangsadressen gestartet.
Die Anzahl der eingesetzten Server und Instanzen muss natürlich immer im Einklang der zugesicherten Bandbreite des Internets stehen, ansonsten könnten Serveranfragen nicht mehr schnell genug abgeholt werden, was zu unvollständigen Datenübertragungen und dadurch zu korrupten Downloaddaten führen könnte. Alle Crawler-Instanzen laufen für alle Domains mit denselben Einstellungen und speichern alle Objekte, die nach der Ausgangsadresse auf der Ausgangsdomain zu erreichen sind. Um zu verhindern, dass bei Erreichen des Gesamtspeicherlimits große Domains komplett und viele kleine Domains noch gar nicht gecrawlt wurden, wird ein Domain Crawl stufenweise durchgeführt. Alle Domains werden am Beginn bis zu einer Gesamtspeichermenge von zehn MB gecrawlt, was für 95 Prozent aller Domains bereits reicht, um sie vollständig zu archivieren. Mit dem aktuellen Speicherbudget ist es möglich alle noch nicht vollständig gecrawlten Domains, noch einmal bis zu einer neuen Grenze von 100 MB zu crawlen. Bei genügend verfügbaren Speicher könnte man mit dieser Vorgangsweise einen vollständigen Crawl der gesamten nationalen Domainlandschaft durchführen, was aus Kapazitätsgründen bisher noch nie stattfinden hat können.
Die Crawler sind so konfiguriert, dass sie sich wie im Web surfende Menschen verhalten. Nach dem Laden aller referenzierten Objekte einer Seite bzw. nach dem Erreichen einer definierten Gesamtspeichermenge macht der Crawler eine kurze Pause um einerseits den Zielserver zu entlasten und andererseits den verwendeten Crawler-Thread für Anfragen an die nächste wartende Domain freizugeben. Auch auf die Antwortzeiten der Server wird Rücksicht genommen. Benötigt ein Server für eine Antwort länger, wird der Zeitabstand bis zur nächsten Anfrage größer. Am Beginn eines sogenannten Crawl-Jobs ist eine Instanz mit der gesamten verfügbaren Thread-Anzahl ausgelastet. Die Crawl-Dauer eines Jobs wird einerseits durch die Anzahl der Threads pro Crawler-Instanz und andererseits durch die Menge der Ausgangsadressen und der maximalen Speichergrenze pro Domain bestimmt. Da alle Server unterschiedliche Antwortzeiten haben, werden nicht alle Domains eines Jobs gleich schnell gecrawlt. Das hat zur Folge, dass ein Job immer dieselbe Verlaufskurve beschreibt.
Alle Threads werden eine bestimmte Zeit vollständig benutzt und nach einer gewissen Zeit sind immer weniger in Verwendung. Am Ende wird nur mehr ein Thread für wenige noch nicht fertig gecrawlte Domains benötigt. Sobald die letzte Domain aus dem Job die Abbruchbedingung erreicht hat, ist der Crawl-Job beendet und eine weitere Crawler-Instanz mit neuen Ausgangsadressen wird automatisch gestartet. Bleibt ein Crawl-Job im Vergleich zu anderen Jobs auffällig lange aktiv und wird nicht beendet, so ist der Crawler höchstwahrscheinlich in einer sogenannten Crawler-Trap gefangen, aus der er befreit werden muss.
Crawler-Traps
Auch wenn ein Domain Crawl mit so wenig Interaktion wie möglich laufen sollte, kommt irgendwann der Zeitpunkt, an dem es notwendig ist manuell einzugreifen. Oft gelangt ein Crawler auf Webseiten in einen Kalender, bei dem über Verweise Tage, Wochen, Monate oder Jahre verändert werden können. Jedes neue Kalenderblatt generiert eine neue Seite mit neuen Links. Der Crawler bleibt in diesem Kalender "gefangen" und kann sich erst selbst befreien, wenn vordefinierte Abbruchbedingungen erreicht werden, was sehr lange dauern kann. Daher sollte zu diesem Zeitpunkt der Crawl-Engineer manuell eingreifen und die betroffenen Links aus der Crawl-Warteschlange entfernen. Die gespeicherten Daten aus dem Kalender wären zwar valide, aber die meisten wahrscheinlich nicht sehr relevant.
Es gibt aber auch Werkzeuge, sogenannte "Honey-Pots" 12, die von Webadministratoren eingesetzt werden, um bösartige, datensammelnde Crawler ins Leere oder Endlose laufen zu lassen. Das passiert häufig bei Missachtung von Ausschlussregeln, die auf jedem Webserver in der sogenannten robots.txt13 oder in Meta-Tags14 auf HTML-Seiten definiert werden können. Diese Regeln dienen den Betreibern von Webseiten dazu, gewisse Bereiche ihrer Seite für Crawler zu sperren bzw. nur bestimmte Crawler zuzulassen. Diese Anweisungen sind allgemein anerkannt und Crawler sollten sich daranhalten, jedoch kann ein Zugriff auf damit "gesperrte" Inhalte ohne weitere Absicherungsmaßnahmen nicht verhindert werden.
Da die Webarchivierung im gesetzlichen Auftrag betrieben wird und gegenüber diesen Anweisungen Vorrang hat, können solche Fallen für Crawler der Österreichische Nationalbibliothek zum Problem werden. Gelangt ein Crawler in einen Bereich, den er eigentlich nicht betreten sollte, könnte dort ein Honey-Pot warten, der ihn so lange ins Unendliche laufen lassen würde, bis er erst durch eine Abbruchbedingung oder durch manuelle Intervention befreit würde. Leider mit dem bitteren Beigeschmack, dass dabei Daten von zufällig sinnfrei aneinandergereihten Wörtern ins Webarchiv gelangen könnten.
Für diese Fälle sind sehr knappe Speicherbudgets sogar ein Segen, weil in unentdeckten Fällen, nicht zu viel Speicherplatz verloren geht (aktuell pro Domain und Durchlauf max. zehn bzw. 100 MB).
Mit aktuellem Stand sind bisher 55 Prozent (über 120 TB) aller gesammelten Daten des österreichischen Webs über Domain Crawls ins Archiv gelangt. Auch wenn der Vorgang eines Domain Crawls nach sorgfältiger Vorbereitung automatisch ablaufen kann, ist man gut beraten, wenn man dennoch ein Auge auf ihn behält.
Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.
Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.
Fußnoten:
1 Änderung des Mediengesetzes: BGBl. I Nr. 8/2009, § 43: » https://web.archive.org/web/20151028093639/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html[25.11.2022]
2 Vgl. die Kriterien zur Einstufung von sogenannten Austriaca: Mayr, Michaela / Andreas Predikaka (2016): Nationale Grenzen im World Wide Web - Erfahrungen bei der Webarchivierung in der Österreichischen Nationalbibliothek. In: BIBLIOTHEK Forschung und Praxis 40/1, 91, [online] doi.org/10.1515/bfp-2016-0007 [25.11.2022]
3 Über Webformular oder Bookmarklet auf [online] » https://webarchiv.onb.ac.at/#nominierung [25.11.2022]
4 [online] » https://web.archive.org/web/20221017080623/https://www.nic.at/de/das-unternehmen/firmengeschichte [25.11.2022]
5 [online] » https://web.archive.org/web/20221017102027/http://www.vibe.at [25.11.2022]
6 [online] » https://de.wikipedia.org/wiki/Neue_Top-Level-Domains [25.11.2022]
7 [online] » https://web.archive.org/web/20221120160048/https://www.nic.wien/de/wien/projekt-wien [25.11.2022]
8 [online] » https://web.archive.org/web/20221120160154/http://www.nic.tirol/ueber-uns/ueber-punkt-tirol/ [25.11.2022]
9 [online] » https://de.wikipedia.org/wiki/Internet_Corporation_for_Assigned_Names_and_Numbers [25.11.2022]
10 Vgl.: Predikaka, Andreas (2020): "Wie das archivierte österreichische Web im Archiv landet", [online] » https://www.onb.ac.at/forschung/forschungsblog/artikel/wie-das-oesterreichische-web-im-archiv-landet [25.11.2022]
11[online] » https://github.com/netarchivesuite/netarchivesuite [25.11.2022]
12 z.B.: [online] » https://www.projecthoneypot.org [25.11.2022]
13 [online] » https://de.wikipedia.org/wiki/Robots_Exclusion_Standard [25.11.2022]
14 [online] » https://de.wikipedia.org/wiki/Meta-Element#Anweisungen_f%C3%BCr_Webcrawler [25.11.2022]
Autor: Andreas Predikaka
Durch das schnelle und stetige Anwachsen des österreichischen Webs benötigt das Webarchiv Österreich laufend weiteren Speicherplatz, um ein signifikantes Abbild des heimischen Webspaces für die Nachwelt bewahren zu können. Dabei gilt es, sorgsam mit dem bereitgestellten Speicher umzugehen und diesen optimal zu nutzen. Dafür sind zwei Vorgänge für das Webarchiv mittlerweile gängige Praxis und unverzichtbar geworden: Datenkomprimierung und Datendeduplizierung.
Datenkomprimierung
Wie in vielen anderen Bereichen kommt auch in der Webarchivierung Datenkompression zum Einsatz. Im Webarchiv Österreich wird jedes gecrawlte Web-Objekt vor dem Speichern verlustfrei mit dem quelloffenen gzip 1 Programm komprimiert und in einer Archiv-Datei gespeichert. Das Programm verwendet den gemeinfreien Deflate-Algorithmus 2 zur verlustfreien Datenkompression.
Abhängig vom jeweiligen Dateityp können dabei unterschiedliche Kompressionsraten erzielt werden. Textdateien, wie die im Web üblichen HTML-Dateien, können mit einer sehr hohen Rate komprimiert werden. Bei Bilddateien ist das hingegen oft nicht der Fall, da diese für die Verwendung im Web meist schon komprimiert wurden.
Im Webarchiv Österreich wird zurzeit für alle gecrawlten Web-Objekte (aktuell 138 Terabytes) eine Komprimierungsrate von 1,7 erreicht, was eine Speicherplatzersparnis von 42 Prozent bedeutet. Der auf den Festplatten benötige Speicher beträgt dadurch nur mehr knapp 80 Terabytes.
Für alle erzeugten Metadaten (aktuell 19,5 Terabytes), die aus gut komprimierbaren Textdateien bestehen, kann sogar eine Komprimierungsrate von knapp 11 erreicht werden, womit eine Speicherplatzersparnis von knapp 91 Prozent erzielt wird. Nur mehr knapp zwei Terabytes an Metadaten werden dafür im Speichersystem benötigt.
Datendeduplizierung
Ausgewählte Seiten aus dem Bereich Medien und Politik werden im Webarchiv Österreich seit über zehn Jahren in eigenen Kollektionen gespeichert. Da bei diesen Seiten eine hohe Änderungsfrequenz zu erwarten ist, werden diese, immer unter Berücksichtigung des aktuellen Speicherbudgets, mindestens einmal pro Tag gecrawlt. Dabei werden unvermeidbar immer wieder die gleichen Daten, wie z.B. Parteilogos oder Bilder von Personen gespeichert, was zu einer Vielzahl an Redundanzen führt und das vorhandene Speicherbudget schneller verbrauchen lässt.
Um diese Redundanzen teilweise einzuschränken, verwendet das Webarchiv die Methode der Deduplizierung. Sie ermöglicht es, einen großen Teil der binären Objekte (Bilder, Videos, Dokumente, Skripte, usw.) dieser regelmäßig gecrawlten Seiten nur als Referenz zum Erstauftreten des jeweiligen Objektes zu speichern. Wie funktioniert das?
Für jedes Objekt, das im Webarchiv gespeichert werden soll, wird ein Hashwert 3 erzeugt, der das Objekt eindeutig identifiziert. Beim erstmaligen Auftreten eines Objektes wird dieses archiviert und der dafür errechnete Hashwert bekommt die exakte Position des Objektes im Webarchiv hinterlegt. Dadurch kann beim wiederholten Crawlen eines bereits existierenden Objektes diese Position anstelle der Daten des Objektes gespeichert werden.
Ist ein auf diese Weise dedupliziertes Objekt Bestandteil einer archivierten Webseite, wird beim Aufruf dieser Seite in der Waybackmachine das Objekt von der referenzierten Position im Webarchiv geladen und angezeigt. 4
HTML-Dateien werden von der Deduplizierung ausgenommen, weil bei diesen Dateien in regelmäßigen Crawls die häufigsten Änderungen zu erwarten sind, wodurch sie nicht mehr für eine Deduplizierung in Frage kämen. Für unveränderte HTML-Dateien wäre eine Speicherplatzersparnis minimal, weil ihre Textinhalte bereits sehr gut komprimiert werden können.
Deduplizierung ist aber auch zu einem gewissen Grad risikobehaftet. Sollte es im Webarchiv zu Datenverlusten kommen und wären Objekte, die referenziert wurden, davon betroffen, könnten die Rückverweise nicht mehr aufgelöst werden und der Datenverlust würde sich um die Anzahl der Referenzen multiplizieren. Deshalb wird bei regelmäßigen Crawls auch immer wieder ein sogenannter "Clean Crawl" durchgeführt, der auf Deduplizierung verzichtet und dadurch wieder neue Ausgangsobjekte für neue Referenzen weiterer Deduplikationen bildet. Auf diese Weise streuen sich die Originalobjekte im Webarchiv, was den Schaden bei eventuellen Datenverlusten reduzieren kann.
Zu den am häufigsten deduplizierten Objekten im Webarchiv Österreich zählt eine 1x1 Pixel große transparente GIF-Datei mit 43 Bytes, die vor allem auf älteren archivierten Webseiten verwendet wurde, um das Layout dieser Seiten zu beeinflussen. Über 2,3 Millionen Mal wurde dieses Objekt auf unterschiedlichen Webseiten dedupliziert. Für diese kleine Datei ist der Speicherplatzgewinn aufgrund der nur unwesentlich kleineren Information über die Referenz aber sehr gering.
Ganz anders beim Objekt mit der meisten Speicherplatzersparnis, einem Video über eine Pressekonferenz 5, das zwar nur 1225-mal dedupliziert wurde, aber dadurch knapp 170 Gigabytes an Speicher einsparen konnte.
Gesamt wurden im Webarchiv Österreich bis jetzt 882 Millionen Objekte mit einer Gesamtgröße von über 59 Terabytes dedupliziert, was 30 Prozent der unkomprimierten Speichergröße des Archivs ausmacht.
Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.
Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.
Quellen:
1 [online] https://de.wikipedia.org/wiki/Gzip , [22.06.2022]
2 [online] https://de.wikipedia.org/wiki/Deflate , [22.06.2022]
3 [online] https://de.wikipedia.org/wiki/Hashfunktion , [22.06.2022]
4 Vgl.: Predikaka, Andreas (2020): "Wie das archivierte österreichische Web wieder auf den Bildschirm kommt", [online] https://www.onb.ac.at/forschung/forschungsblog/artikel/wie-das-archivierte-oesterreichische-web-wieder-auf-den-bildschirm-kommt , [22.06.2022]
5 Alle Zeitschnitte dieses Videos können im Webarchiv Österreich angezeigt werden: https://webarchiv.onb.ac.at/?q=http://www.wien-konkret.at/fileadmin/content/Politik/Wahlrecht/video-pk-faires-wahlrecht.flv
Autor: Andreas Predikaka
Von der vorwissenschaftlichen Arbeit über die Bachelorthesis bis hin zur Dissertation haben Zitierregeln für Quellen aus dem Web eines gemein: Neben dem Titel ist zusätzlich zur Webadresse auch das Zugriffsdatum anzugeben. Die Schreibenden stellen damit klar, welcher Zeitschnitt einer bestimmten Webadresse für ihre Arbeit relevant war. Nur selten gibt es aber einen Hinweis darauf, wie das jeweilige Web-Zitat am besten zu rekonstruieren ist.1 Die AutorInnen verlassen sich meist darauf, dass das Web nichts vergisst. Aber das Web vergisst leider viel von den Inhalten, die im Nachhinein als relevant erachtet werden.
Die LeserInnen sind meist darauf angewiesen, dass eine Webadresse zum oder rund um das Zugriffsdatum der Schreibenden von Webarchiven gespeichert wurde und sich der archivierte vom referenzierten Inhalt nicht (maßgeblich) unterscheidet.
Um ein Web-Zitat zu finden und um festzustellen, ob ein Zeitschnitt einer Adresse im archivierten Web vorhanden ist, gilt das Internet Archive2 als erste Anlaufstelle für die Suche und Anzeige von archivierten Webseiten. Seit 1996 versucht die gemeinnützige Organisation aus den Vereinigten Staaten das gesamte Web zu archivieren und seit 2001 bietet sie auch den Zugriff auf die archivierten Daten über die sogenannte „Wayback-Machine“ an.3 Kann man über die Eingabe einer Webadresse ein passendes Ergebnis finden und lässt sich diese archivierte Website auch noch wiederherstellen, so wird sie am Bildschirm angezeigt. Dass Inhalte aus Webarchiven öffentlich zugänglich sind, ist aber nicht selbstverständlich. Grundsätzlich unterliegen diese dem Urheberrecht und dürfen ohne Zustimmung der MedieninhaberInnen nicht angezeigt werden. Das Internet Archive nimmt für sich das sogenannte "Fair Use Prinzip”4 in Anspruch, das in den Vereinigten Staaten eine Nutzung von geschütztem Material zu Bildungszwecken erlaubt. Gleichzeitig gibt es für den Dienst eine Opt-Out-Möglichkeit. Wünschen MedieninhaberInnen die Entfernung ihrer Einträge aus dem Archiv, so wird dem Anliegen in der Regel nachgekommen. Es kann also durchaus passieren, dass archivierte, erfolgreich rekonstruierte Webinhalte, beim nächsten Aufruf nicht mehr verfügbar sind. Ein Dilemma.
Ab Ende der 1990er Jahre wurde die Archivierung des Webs immer mehr zu einer Aufgabe der Nationalbibliotheken. Der nationale Webspace wurde als Teil des kulturellen Erbes angesehen und dafür Umsetzungsinitiativen gestartet. Grundvoraussetzung für die Durchführung war in vielen europäischen Ländern eine gesetzliche Ermächtigung zum Sammeln des nationalen Webs. Diese Gesetze wurden nach und nach verabschiedet und ermöglichen seither den meisten Nationalbibliotheken das Sammeln ihres nationalen Webspace und regeln den Zugriff darauf. Auch wenn der Aufruf von gesuchten Webinhalten meist nur vor Ort erlaubt wird, bieten dutzende Webarchive eine öffentliche Suchmöglichkeit an. Kann man über das Internet Archive eine archivierte Webseite nicht finden, so hilft möglicherweise eine Suche in diesen Webarchiven.5
Auch der österreichische Gesetzgeber verbietet leider den Aufruf von archivierten Webseiten außerhalb der Räumlichkeiten der Österreichischen Nationalbibliothek und der dazu berechtigten anderen Bibliotheken.6 Er erlaubt jedoch die öffentliche Suche nach Webseiten über die Webadresse und im Volltext. Das folgende Beispiel zeigt, wie man eine erfolgreiche Suche im Webarchiv Österreich durchführt und sich Suchergebnisse mit Hilfe des Internet Archives, trotz der oben erwähnten Einschränkungen, anzeigen lassen kann.
Url-Suche
Als das Webarchiv Österreich vor über zehn Jahren startete, gab es eine Projektbeschreibung auf der Webseite der Österreichischen Nationalbibliothek. Einige Dokumente im Online-Web verweisen noch auf diese Adresse und den damaligen Inhalt.7 Aktuell wird man bei der Eingabe der damaligen Adresse "http://www.onb.ac.at/about/webarchivierung.htm" auf das aktuelle Webportal des Webarchivs Österreich "https://webarchiv.onb.ac.at "weitergeleitet und die ursprüngliche Seite wird nicht mehr angezeigt. Um zu erfahren wie die Webseite ausgesehen hat, gehen wir auf "https://webarchiv.onb.ac.at" und geben in das Sucheingabefeld die alte Webadresse ein und klicken auf "Suchen". Nach einem kurzen Moment erscheint das Suchergebnis in Form einer sogenannten „Heatmap“. Dabei werden die gefundenen Versionen als rote Punkte auf einem Kalenderraster angezeigt. Jeder rote Punkt stellt mindestens eine gespeicherte Version für den jeweiligen Tag dar. Je dunkler der Punkt, desto mehr Versionen der gesuchten Webadresse sind archiviert worden.
Abb. 1: Die Suche nach einer Webadresse im Webarchiv Österreich und die Anzeige im Internet Archive. Führen Sie diese Suche mit einem Klick auf diesen » Link aus.
Wir wählen den ersten roten Punkt aus, der zugleich die erste gespeicherte und damit älteste Version der gewählten Adresse darstellt. Beim Klick auf den Punkt öffnet sich ein Dialogfenster, in dem alle Zeitschnitte des ausgewählten Tages angezeigt werden. Sobald man auf den Verweis mit dem gewünschten Zeitstempel klickt (in diesem Fall 13:29:05 Uhr vom 16. April 2010), öffnet sich in einer neuen Lasche im Browser die sogenannte Wayback-Machine, die die ausgewählte Version der archivierten Webseite für uns aus den gespeicherten Einzeldateien zusammenstellt und anzeigt.
Abb. 2: Screenshot der ältesten Version unserer Projektwebseite im Webarchiv Österreich. [Online]
» https://webarchiv.onb.ac.at/web/20100416132905/http://www.onb.ac.at/about/webarchivierung.htm [7. Dezember 2021]
Dass wir die Adresse unserer Projektwebseite vor über zehn Jahren ausgesucht haben, hat einen besonderen Grund: Unsere eigenen Inhalte dürfen wir in archivierter Form auch online anzeigen. Für alle anderen Inhalte, für die keine speziellen Vereinbarungen mit Medieninhabenden bestehen, lässt sich die archivierte Version aufgrund des Mediengesetzes nicht außerhalb der Räumlichkeiten der Österreichischen Nationalbibliothek aufrufen. Bevor nun LeserInnen unsere Terminals im Haus besuchen, lohnt sich aber noch ein Klick auf den Verweis "Beste IA Version". Über diesen Link wird in einer neuen Lasche die Wayback-Machine des Internet Archives geladen, die die zeitlich näheste Version zum ausgewählten Zeitschnitt im Webarchiv Österreich zu laden versucht.
Bleibt auch diese Suche erfolglos, so bietet die Lasche "Andere Webarchive" eine Liste von Archiven mit öffentlicher Suchmöglichkeit an. Jeder Verweis startet im ausgewählten Webarchiv eine Suche nach allen Versionen der bestimmten Webadresse und zeigt das Ergebnis in einer neuen Lasche des Browsers an.
Volltextsuche
Nicht immer steht die exakte Adresse für den Aufruf einer archivierten Webseite zur Verfügung. Wie bei bekannten Suchmaschinen im Netz kann man auch im Webarchiv Österreich nach Begriffen suchen, um über diesen Weg eine archivierte Webseite zu finden. Auf unserer Projektseite schrieben wir vor zehn Jahren über unsere Mission: "Ziel der Webarchivierung ist die Sammlung und Archivierung des gesamten nationalen Webspace". Gibt man diesen Satz in das Sucheingabefeld ein und setzt die Suche ab, so wird im vorhandenen Volltext (umfasst zurzeit rund fünf Prozent aller archivierten Textdokumente) nach den eingegebenen Begriffen gesucht. Nach einem kurzen Moment erscheint ein Suchergebnis, das die jeweiligen Zeitschnitte einer Webadresse anzeigt, die die gesuchten Begriffe beinhalten. In jeder Ergebniszeile finden Sie den schon bekannten relevanten Zeitstempel oder den Verweis auf die "Beste IA Version", der das zeitlich näheste Ergebnis im Internet Archive für die Suche liefern kann.
Abb. 3: Die Suche nach Begriffen im Webarchiv Österreich und die Anzeige im Internet Archive. Führen Sie diese Suche mit einem Klick auf diesen » Link aus.
Auch wenn in unserem Fall die zeitlich näheste Version im Internet Archive einige Monate vom gewünschten Zeitpunkt entfernt ist, wird doch der gleiche Inhalt angezeigt, da sich die Webseite in diesem Zeitraum nicht verändert hat.
Die Suche nach archivierten Webseiten ist längst nicht so komfortabel wie die gewohnte Suche im Online-Web. Den ersten schnellen Einstieg bietet das Internet Archive mit seinem Webarchiv, das über eine URL- bzw. Schlüsselwortsuche für URLs, die Anzeige archivierter Webseiten bereitstellt. Doch das größte Web-Archiv der Welt ist keineswegs lückenlos. Nationale Webarchive tragen im Rahmen ihrer gesetzlichen Möglichkeiten dazu bei, diese Lücken so gut wie möglich zu schließen. Zudem bieten viele Nationalbibliotheken eine dem Internet Archive fehlende Volltextsuche an und können so Suchergebnisse liefern, die dann mit Hilfe des Internet Archives eventuell rekonstruiert werden können. Finden sich auch dort die gewünschten Inhalte nicht, lohnt sicher ein Besuch in der Nationalbibliothek oder in den berechtigten Bibliotheken, die die gesuchten Inhalte auf speziellen Terminals zur Verfügung stellen können.
Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtische Versicherungsverein für die Unterstützung des Webarchivs Österreich.
Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.
Quellen:
1 Schon ein Screenshot der besuchten Webseite im Anhang kann hilfreich sein. Auch das zählt als Webarchivierung. Vgl. Brügger, Niels (2018): The Archived Web. Doing History in the Digital Age, Cambridge London: The MIT Press, 80
2 Siehe [Online] https://web.archive.org [7. Dezember 2021]
3 Zum Auftrag des Internet Archive siehe Rossi, Alexis. Internet Archive. Hamburg University Press, 2016, [Online] https://web.archive.org/web/20210718222757/https://hup.sub.uni-hamburg.de/volltexte/2016/168/chapter/HamburgUP_DDB_KulturellesErbe_02_Vielfalt_USA.pdf [7. Dezember 2021]
4 Siehe [Online] https://web.archive.org/web/20211207104627/https://de.wikipedia.org/wiki/Fair_Use [7. Dezember 2021]
5 Siehe [Online] https://web.archive.org/web/20211207113207/https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives [7. Dezember 2021]
6 Siehe § 43d Abs.4: "die Österreichische Nationalbibliothek und die in § 43b Abs. 7 genannten Bibliotheken [dürfen] gemäß § 43b gesammelte oder abgelieferte Medieninhalte ihren Benutzern nur an ihrem Standort zugänglich machen", [Online] https://web.archive.org/web/20211207120200/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html [7. Dezember 2021]
7 z.B. [Online] https://de.slideshare.net/ATWebarchive/bedeutung-der-webarchivierung-nestordnb [7. Dezember 2021]
AutorInnen: Andrea Gruber, Lydia Jammernegg, Michaela Mayr, Andreas Predikaka
Wie entsteht die Kollektion Frau/Gender im Webarchiv? - WebkuratorInnen am Werk
Vom Webarchiv Österreich der Österreichischen Nationalbibliothek werden seit 2009 umfangreiche Web Crawls durchgeführt, um das digitale Kulturerbe im Web zu dokumentieren und langfristig zu sichern. Dabei standen zu Beginn vor allem technische Fragen im Vordergrund – Hardware, Software, Speicherkapazitäten, Crawl-Parameter, Speicher-Intervalle, Webtechnologien usw. Schon bald war klar, dass es neben den jährlichen umfangreichen Domain Crawls auch thematische Schwerpunkte braucht, die ein besonderes Augenmerk erfordern, damit nicht wesentliche Inhalte verloren gehen. So wurden die ersten Kollektionen im Webarchiv begründet, Webseiten aus den Bereichen Medien und Politik werden seither laufend archiviert.
Immer stärker zeigen sich auch in den unterschiedlichen Sammlungen der Österreichischen Nationalbibliothek die Anknüpfungspunkte zu born digital Medien. Die Kollektion Frau/Gender ist ein Paradebeispiel für die nachfolgend näher beschriebene Zusammenarbeit von Webarchiv-ExpertInnen und FachbibliothekarInnen, die als WebkuratorInnen wichtigen inhaltlichen Input leisten.
Entstehungsgeschichte – Rückblick
Im Rahmen einer Abschlussarbeit, die von Ariadne im Rahmen des Universitätslehrgangs für Library and Information Studies 2015 zum Thema „Ariadne 4.0. Dokumentation und Archivierung von digital born Quellen aus dem Gebiet der feministischen-, Frauen- und Geschlechterforschung“ vergeben wurde, entwickelte sich die Kooperation mit dem Webarchiv Österreich. Damit konnte Ariadne an das Thema Dokumentation und Archivierung von digital born Medien anknüpfen.
Ausgangsfrage dieser Abschlussarbeit war: Wie kann feministisches / Genderwissen, das zunehmend digital produziert wird, für die Zukunft erhalten und zugänglich bleiben? Was kann eine kleine Einrichtung wie Ariadne dazu beitragen oder umsetzen?
Mit der Digitalisierung und Globalisierung von Information und Wissen tritt die Frage, was passiert mit den zunehmend born digital erscheinenden und oft kurzlebigen Dokumenten, immer mehr in den Vordergrund:
Die Universitätslehrgangsgruppe hat sich dieses Themas angenommen und mit ihrer Arbeit eine Basis für ein gemeinsames Projekt mit dem Webarchiv Österreich geschaffen. Im Webarchiv werden Akquirierung, Bestandssicherung und Archivierung von born digital Medien bereits routinemäßig durchgeführt und es bestand Interesse an einer Zusammenarbeit. In Kooperation wurde eine kuratierte, inhaltlich fokussierte Kollektion Frau/ Gender entwickelt.
Feministisches/Genderwissen, das digital produziert wird, wird somit archiviert, für die Zukunft erhalten, (eingeschränkt) zugänglich gemacht und steht zukünftig für Forschung und Interessierte zur Verfügung.
Kuratierung der Kollektion Frau/Gender – Auswahlkriterien
2016 erfolgte die Umsetzung der Kollektion Frau/Gender im Webarchiv Österreich. Die Kollektion startete mit 60 frauen- und genderrelevanten Onlinequellen mit Österreich-Bezug und wird seitdem jährlich erweitert und ergänzt. 2021 beinhaltet die Kollektion bereits 160 Einträge.
Welche formalen und inhaltlichen Bearbeitungskriterien liegen der Kollektion zugrunde:
a. Inhaltliche Auswahlkriterien
b. Formale Kriterien
In den fünf Jahren, in denen die Kollektion Frau/Gender nun bereits besteht, wurde ersichtlich, dass Webauftritte und Onlinequellen einer unterschiedlichen Dauerhaftigkeit unterliegen. Dies aus verschiedensten Gründen:
Crawl der Kollektion
Im Idealfall kommt die kuratorische Betreuung eines Crawls, wie bei der Frau/Gender Kollektion, aus der Fachabteilung und das Webarchiv setzt auf Basis der erhobenen formalen Kriterien den technischen Crawl um. So wird für jede Ausgangsadresse einer Webseite (Seed) ein sogenanntes “Seed Scoping” durchgeführt. In diesem Prozess wird festgelegt, welche Webinhalte für welche Seite in welchem Umfang archiviert werden. Fallweise lässt sich eine gewünschte kuratorische Crawltiefe, aufgrund der Beschaffenheit einer Webseite, technisch nicht exakt beschreiben, was dazu führt, dass der Crawler entweder zu wenige oder zu viele Webinhalte speichert. Um die Webseite schließlich so gut wie gewünscht zu archivieren, werden mit Testcrawls die optimalen Einstellungen des Crawlers für die endgültige Archivierung ermittelt. Im Verlauf dieser Arbeit muss auch immer das für die Kollektion zur Verfügung stehende Speicherbudget im Auge behalten und die aktuellen medienrechtlichen Bestimmungen für das Webarchiv beachtet werden.
Die ausgewählten frauen- und genderrelevanten Onlinequellen werden zweimal jährlich im Rahmen des verfügbaren Speicherbudgets gecrawlt und bis zu einem Limit von 250 MB pro Domain gespeichert, was bei immer zahlreicheren Domains nicht mehr für ein komplettes Abbild ausreicht. Diese Problematik wird auch in der Abbildung 1 deutlich, die zeigt, dass in den ersten Jahren die gecrawlte Speichermenge mit der Anzahl der Seeds steigt, aber in den letzten Jahren deutlich abgeflacht ist, während die ausgewählten Onlinequellen im letzten Jahr ein Maximum erreichten.
Abb. 1: Die Entwicklung der Kollektion Frau/Gender im Jahresvergleich
Auch in Zukunft wollen die WebkuratorInnen der Ariadne gemeinsam mit dem Webarchiv-Team an den unterschiedlichen Herausforderungen weiterarbeiten. Die Kollektion Frau/Gender ist keine große, aber eine qualitativ sehr hochwertige, die als Vorbild für künftige weitere Kooperationen mit unterschiedlichen FachexpertInnen dienen kann.
Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtischen Versicherungsverein für die Unterstützung des Webarchivs Österreich.
Mag. Andrea Gruber MSc und Mag. Lydia Jammernegg MSc arbeiten in der Frauen-Dokumentationsstelle Ariadne, Mag. Michaela Mayr MSc und Mag. Andreas Predikaka im Webarchiv der Österreichischen Nationalbibliothek.
Autor: Andreas Predikaka
Die Österreichische Nationalbibliothek archiviert seit über zehn Jahren möglichst umfassend das österreichische Web in ihrem Webarchiv Österreich. Diese Webinhalte werden durch Crawler nach bestimmten Vorgaben gesammelt.[1]
Dabei verhält sich ein Crawler ähnlich einem Browser, der eine ausgewählte Webadresse aus dem Web abruft. Beide Programme kommunizieren über das "Hypertext Transfer Protocol" (HTTP) mit einem Webserver, von dem sie über einen "Uniform Resource Locator" (URL) eine "HyperText Markup Language"-Datei (HTML-Datei) laden.[2]
Diese Textdatei beinhaltet alle Anweisungen für den Browser, wie die angeforderte Webseite am Bildschirm angezeigt werden soll. Weitere zur Darstellung notwendige Dateien sind darin referenziert und werden ebenso geladen. Aus diesen technischen Web-Objekten erzeugt der Browser, eine für die BenutzerInnen sichtbare Oberfläche. Die zweite technische Ebene kann bei Bedarf im Browser eingeblendet werden.
Abbildung 1: Die sichtbare und unsichtbare Textebene einer Webseite: Ein Screenshot der Startseite der Österreichischen Nationalbibliothek mit dem dazugehörigen HTML-Code. [Online] » https://www.onb.ac.at [24.11.2020]
Die Dateien, die der Browser für die Darstellung der Webseite abruft, werden auch vom Crawler geladen und gespeichert. Während der Browser auf die nächste Interaktion der BenutzerInnen wartet, folgt ein Crawler automatisch allen Links in dieser und jeder weiteren HTML-Datei. Das passiert so lange, bis bestimmte vorher definierte Grenzen erreicht sind (Objektanzahl, Speichermenge, Crawltiefe). Alle dabei gesammelten Web-Objekte werden in Archivdateien mit den dazugehörigen Metadaten des Crawls gespeichert.
Im Webarchiv Österreich befinden sich über eine halbe Million dieser Archivdateien mit Milliarden von gecrawlten Web-Objekten, die mit einer URL und einem sekundengenauen Zeitstempel exakt identifiziert werden können. So kann man durch eine Art Zeitmaschine für das Web Zugriff auf das archivierte Web bekommen. Auf Basis aller URLs und der jeweiligen Zeitstempel, können alle vorhanden Zeitschnitte einer Webseite wieder rekonstruiert werden. Die bekannteste Zeitmaschine, die auf diese Weise eine Reise in die Vergangenheit des Webs ermöglicht, ist die sogenannte Wayback-Machine[3], die vom Internet Archive stammt und von der Österreichischen Nationalbibliothek und vielen anderen internationalen Webarchiven verwendet wird. Nach Eingabe einer Webadresse wird den BenutzerInnen eine Seite mit den einzelnen chronologisch geordneten Zeitschnitten dieser Webadresse angezeigt.
Abbildung 2: Nach Eingabe der Webadresse » http://www.onb.ac.at in der Wayback Machine des Webarchivs Österreich und des Internet Archives wird den BenutzerInnen eine Seite aller gesammelten Zeitschnitte chronologisch angezeigt. [Online] » https://webarchiv.onb.ac.at bzw. » https://archive.org/web/ [24.11.2020]
Wird ein bestimmter Zeitschnitt ausgewählt, wird diese gespeicherte Version aus dem Webarchiv mit den notwendigen referenzierten Dateien, in der zeitlich nähesten Version geladen und im Browser dargestellt. Um eine weitere Navigation im archivierten Web möglich zu machen, werden in jeder geladenen HTML-Datei alle Referenzen um eine zeitliche Komponente erweitert. Öffnen BenutzerInnen im Webarchiv eine Seite zu einem bestimmten Zeitschnitt und folgen im Browser einem Link, so wird ausgehend vom Zeitstempel der Ausgangsseite, der nächst liegende Zeitschnitt der verlinkten Seite aus dem Webarchiv geladen und angezeigt.
Abbildung 3: Die sichtbare und unsichtbare Textebene einer rekonstruierten Webseite: Ein Screenshot der Startseite der Österreichischen Nationalbibliothek vom 28.11.2011 mit dem dazugehörigen HTML-Code. Grün gekennzeichnet ist der Zeitstempel der veränderten Referenzen im HTML-Code. [Online] » https://webarchiv.onb.ac.at/web/20111128170118/http://www.onb.ac.at [24.11.2020]
Nur selten wird eine verlinkte Seite den gleichen sekundengenauen Zeitstempel besitzen, da während eines Crawlvorganges nie alle Web-Objekte zeitgleich abgerufen und gespeichert werden können. Daher kann nicht gewährleistet werden, ob sich eine Webseite während des Crawls verändert hat oder nicht. Theoretisch wäre ein "Einfrieren" des Onlinewebs für die Dauer des Crawlvorganges die einzige Lösung. Praktisch lässt sich das höchstens für einzelne Webseiten durchführen. Um festzustellen, ob sich eine Webseite innerhalb eines Zeitraumes verändert hat, müsste sie zweimal hintereinander gecrawlt und daraufhin beide Archivversionen miteinander verglichen werden. Weisen beiden Versionen keine Unterschiede auf, handelt es sich um einen kohärenten Crawl.[4]
Durch die Architektur und die Dynamik des Webs ist es "niemals nachvollziehbar, ob, wann und wo das Web aktualisiert wurde"[5]. Für eine archivierte Webseite könnte es ein Original geben, aber in den meisten Fällen wird es nicht mehr vorhanden sein. Zudem besteht beim Crawlen von komplexen Webseiten immer die Gefahr eines Informationsverlustes, wenn ein Crawler nicht dieselben Fähigkeiten eines Browsers besitzt. Wie bei einem nicht kohärenten Crawl, entstehen dabei archivierte Webseiten, die so nie existiert haben. Demnach wird das archivierte Web in seiner Rekonstruktion im Webarchiv sozusagen „wiedergeboren“, es wird als ein "reborn digital medium"[6] bezeichnet.
BenutzerInnen von Webarchiven müssen sich bewusst sein, dass trotz der enormen verfügbaren Datenmengen, immer wieder Lücken und Inkonsistenzen bei der Anzeige von archivierten Webseiten auftreten können. Das Wissen über die komplexe Struktur des Webs ist hilfreich beim Erkennen, wie nahe die Rekonstruktion einer Webseite dem nicht mehr vorhandenen Original gekommen ist.
Die Österreichische Nationalbibliothek bedankt sich sehr herzlich beim Wiener Städtischen Versicherungsverein für die Unterstützung des Webarchivs Österreich.
Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.
[1] Vgl. : Predikaka, Andreas (2020): "Wie das österreichische Web im Archiv landet", [online] » https://www.onb.ac.at/forschung/forschungsblog/artikel/wie-das-oesterreichische-web-im-archiv-landet [24.11.2020]
[2] Diese drei technischen Komponenten charakterisieren das Web. Vgl. Brügger, Niels (2018): The Archived Web. Doing History in the Digital Age, Cambridge London: The MIT Press, 23
[3] Benannt nach der Zeitmaschine WABAC, mit der die Hauptcharaktere der 1960er Zeichentrickserie "The Adventures of Rocky and Bullwinkle and Friends" durch die Geschichte reisen. [Online] » https://youtu.be/6V7M4AfTOrw?t=205 , [24.11.2020]
[4] Vgl. Spaniol, Marc et. al.: Data Quality in Web Archiving, [online] » https://web.archive.org/web/20201119235216/https://www.researchgate.net/profile/Marc_Spaniol/publication/221023143_Data_Quality_in_Web_Archiving/links/58764c5808ae8fce492dcd75/Data-Quality-in-Web-Archiving.pdf [24.11.2020]
[5] Brügger 2018: 87
[6] "digitized - born digital - reborn digital media". Vgl. Brügger 2018: 5f
Autor: Andreas Predikaka
Das Web, das seit über 30 Jahren immer stärker Geschehen und Wissen unserer Welt abbildet, erweist sich als äußerst flüchtiges Medium. Unterschiedlichen Studien zufolge haben Webseiten eine durchschnittliche Lebensdauer von 44 bis 100 Tagen[1]. Es gibt Webseiten, die bleiben Jahre unverändert, andere ändern sich mehrmals täglich, Social-Media-Seiten wiederum liefern gar bei jedem Aufruf einen anderen Inhalt.
Dass Webinhalte, genauso wie Handschriften, Bücher oder Zeitungen zum kulturellen Erbe eines Landes gehören und deshalb schützenswert sind, wird immer bekannter, wie die steigenden Zugriffszahlen auf das Webarchiv Österreich zeigen.
Seit am 1. März 2009 in Österreich die Mediengesetznovelle[2] in Kraft getreten ist, kümmert sich die Österreichische Nationalbibliothek um die Archivierung des österreichischen Web Contents. Dabei bewegt sich ein spezielles Programm, ein sogenannter Crawler, durch das österreichische Web und legt eine Kopie der österreichischen Webseiten im Archiv ab. Ausgehend von einer Liste mit Adressen von Webseiten (Seeds) ruft der Crawler die Inhalte der einzelnen Seeds ab, speichert sie, extrahiert alle verfügbaren Links und folgt diesen nach einer Reihe definierter Regeln, die beispielsweise Crawl-Tiefe, Objektanzahl oder Speichermenge bestimmen.
Abb. 1: Vereinfachte Darstellung der Funktionsweise eines Crawlers
Domain Crawl
Auf diese Weise wird versucht, einen signifikanten Teil des nationalen Webspaces zu sammeln und zu archivieren. Diese komplexe Aufgabe der Datensammlung wird durch die Kombination verschiedener Sammlungsmethoden bewerkstelligt. Beim sogenannten Domain Crawl werden alle Domains unterschiedlicher Top-Level-Domains anhand von Gesamtlisten der jeweiligen Registrierungsstelle als Ausgangsseeds für einen Crawl verwendet. Zusätzlich zur österreichischen .at Domain, inklusive aller Second-Level-Domains (.or.at, co.at, ac.at, gv.at, priv.at), werden seit Einführung von generischen Domains auch die kompletten Domainlisten der Top-Level-Domain .wien und .tirol verwendet. Ergänzt werden diese Listen mit Adressen von Webseiten österreichischer MedieninhaberInnen, die über andere Top-Level-Domains erreichbar sind. Da es dafür keine Verzeichnisse gibt, werden solche Adressen laufend von WebkuratorInnen für den Domain Crawl gesammelt. Auch LeserInnen sind aufgerufen dem Webarchiv Österreich auf https://webarchiv.onb.ac.at Webseiten mit Österreichbezug zur Archivierung zu übermitteln.
Um mit dem verfügbaren Speicherbudget eines Domain Crawls einen möglichst repräsentativen Ausschnitt aller Domains zu sammeln, wird ein Domain Crawl mehrstufig durchgeführt. In der ersten Stufe werden alle Domains bis zu einer bestimmten Speichergrenze gecrawlt. Die Domains, die diese Grenze überschritten haben, werden in der nächsten Stufe bis zu einer weiteren größeren Speichergrenze gecrawlt. Danach verbleiben nur mehr Domains mit sehr viel Content, die in einem abschließenden Crawl komplett gespeichert werden. Auch wenn aus Kapazitätsgründen das Webarchiv Österreich bisher immer zweistufig crawlte (Speichergrenzen von 10 und 100 Megabytes), so konnten in den ersten vier Domain Crawls dennoch über 95 Prozent aller Domains vollständig archiviert werden[3]. Wenngleich der Gesetzgeber der Österreichischen Nationalbibliothek erlaubt bis zu vier Domain Crawls im Jahr durchzuführen, so kann aufgrund der benötigten großen Speichermengen derzeit nur ein Domain Crawl pro Jahr stattfinden.
Selektiver Crawl
Aufgrund der geringen Frequenz von Domain Crawls würden besonders bei Webseiten, die häufigen Änderungen unterliegen, zahlreiche Inhalte für die Webarchivierung verloren gehen. Aus diesem Grund werden zu bestimmten Themenbereichen wie Medien, Politik, Wissenschaft und Behörden von WebkuratorInnen wichtige Webseiten ausgewählt. Für diese Seiten werden geeignete Crawl-Intervalle festgelegt und regelmäßig Selektive Crawls durchgeführt. So werden z.B. Nachrichten-Webseiten und Seiten politscher Parteien täglich gespeichert, um die wesentlichen Inhalte zu archivieren.
Event Crawl
Eine Sonderform des Selektiven Crawls ist der Event Crawl, bei dem Inhalte zu bestimmten Ereignissen archiviert werden. Zahlreiche Webseiten stehen oft nur für den Zeitraum eines Ereignisses zur Verfügung und verschwinden danach sehr rasch. Unter Berücksichtigung der geschätzten durchschnittlichen Lebensdauer einer Webseite besteht jedenfalls das Risiko, dass Seiten bis zum nächsten geplanten Domain Crawl bereits wieder verschwunden sind. Klassische Themen für Event Crawls sind z.B. Veranstaltungen oder Wahlen. In der Regel werden mit dem Event Crawl geplante Ereignisse abgedeckt, bei denen die Dauer bekannt ist und ausgehend davon eine bestimmte Crawl-Dauer definiert werden kann. Exakt planbar waren zum Beispiel die Crawls zu den Olympische Winterspielen 2010 und 2014 oder der Eurovision Song Contest 2015, der in Österreich stattfand. Die Crawl-Dauer wurde dabei über die Länge der Veranstaltung inklusive einer definierten Vor- und Nachlaufzeit bestimmt. Crawls zu Wahlen beginnen mit der Zulassung der wahlwerbenden Personen oder Parteien und enden mit dem Beginn der Amtstätigkeit der gewählten Person oder Regierung. Die Dauer dieser Crawls ist somit nicht präzise vorhersehbar, so dauerte der Crawl zur Bundespräsidentenwahl 2016 aufgrund mehrerer Wahlwiederholungen ungewöhnlich lange.
Ad-hoc Crawl
Es kann aber auch sein, dass es plötzlich notwendig wird, Webseiten zu einem bestimmten Thema zu archivieren. Diese spontanen Event Crawls werden auch Ad-hoc Crawls genannt. In so einem Fall ist es natürlich nicht absehbar, wie lange ein Crawl dauern wird. Die 2015 plötzlich auftretende Flüchtlingsbewegung bewirkte einen Event Crawl, der erst nach einigen Jahren beendet wurde. Das bekannte Ibiza Video löste einen Event Crawl zu einer Regierungskrise aus, der erst nach mehreren Folgeereignissen (Entlassung der Regierung, Übergangsregierung, Neuwahlen und Regierungsbildung) beendet werden konnte. In so einem Fall werden natürlich während des Events laufend Webseiten hinzugefügt und die Crawl-Intervalle nach deren Änderungsverhalten angepasst. Seit März dieses Jahres läuft der bisher größte Event Crawl zur Corona-Krise. Ein Ereignis, das in alle Bereiche der Gesellschaft eingriff und sich im gesamten österreichischen Web widerspiegelt. Ein Ende dieses Crawls ist noch lange nicht absehbar und laufend werden neue Seiten dafür ausgewählt und gespeichert. In diesem Fall bekommt der Domain Crawl für 2020 einen ganz besonderen Stellenwert, da so eine sehr große Anzahl an Seiten mit Corona-Bezug automatisch ins Archiv wandern werden, die ansonsten kuratorisch nicht berücksichtigt hätten werden können.
Abb. 2: Die kombinierte Crawling-Strategie der Österreichischen Nationalbibliothek. Nach Andersen, Bjarne (2006): The DKdomain: in words and figures, [online] https://web.archive.org/web/20200827125125/http://netarkivet.dk/wp-content/uploads/DFrevy_english.pdf [27.08.2020]
Eine laufende vollständige Sammlung des österreichischen Webs ist mit den derzeitigen Ressourcen nicht realistisch, es wird aber versucht mit der eben beschrieben Crawling-Strategie und bewusstem Mut zur Lücke ein möglichst umfangreiches und aussagekräftiges Abbild des österreichischen Webspaces für zukünftige Generationen zu sichern. Bis heute konnte so ein Datenbestand von über 145 Terabytes (entspricht über 3,8 Milliarden digitalen Objekten) aufgebaut werden.
Das Webarchiv Österreich wird bereits seit vielen Jahren vom Wiener Städtische Versicherungsverein unterstützt, wofür wir uns sehr herzlich bedanken.
Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.
[1] Taylor, Nicholas (2011): The Average Lifespan of a Webpage, [online] https://web.archive.org/save/https://blogs.loc.gov/thesignal/2011/11/the-average-lifespan-of-a-webpage/ [27.08.2020]
[2] Änderung des Mediengesetzes: BGBl. I Nr. 8/2009, [online] https://web.archive.org/web/20200827142329/https://www.ris.bka.gv.at/Dokumente/BgblAuth/BGBLA_2009_I_8/BGBLA_2009_I_8.html [27.08.2020]
[3] Mayr, Michaela / Andreas Predikaka (2016): Nationale Grenzen im World Wide Web - Erfahrungen bei der Webarchivierung in der Österreichischen Nationalbibliothek. In: BIBLIOTHEK Forschung und Praxis 40/1, 90–95, [online] https://doi.org/10.1515/bfp-2016-0007 [27.08.2020]
Die Authentifizierung erfolgt durch Übermittlung eines API-Keys. Dieser Key kann per Mail an webarchiv@onb.ac.at beantragt werden und wird in der Regel innerhalb kurzer Zeit erzeugt. Für Testzwecke kann der Demo-Api-Key Zz2tQls7fuaocX2pjrfc2npojqbGwXL2 verwendet werden.
Um mit der Webarchiv API zu arbeiten, wird ein Access-Token benötigt, der durch einen HTTP POST-Request mit dem API-Key erzeugt wird und für alle nachfolgenden Abfragen verwendbar bleibt. Dieser Token erlischt 30 Minuten nach der letzten Nutzung. Abhängig von der Serviceanfrage wird eine Antwort sofort ausgeliefert oder eine Request-ID zurückgegeben, die dazu verwendet werden kann den aktuellen Status der Anfrage zu erfahren. Sobald diese Statusabfrage HTTP-OK liefert, wird in der Antwort auch das Resultat mitgeliefert und die Abfrage ist abgeschlossen.
Die aktuelle Schnittstellenbeschreibung bietet neben der Dokumentation aller verfügbaren Aufrufe auch die Möglichkeit diese über ein Swagger-Webinterface zu testen. In den ÖNB Labs stehen Beispiele zur Benutzung der Webarchiv-API in Python zur Verfügung.