Autor: Andreas Predikaka
Wie zitiert man Webinhalte so, dass sie auch in Zukunft nachvollziehbar bleiben? Lesen Sie, wie Webarchive und der neue Persistent Web Identifier (PWID) das Zitieren sicherer, verlässlicher und zukunftsfähiger machen.
Wir alle kennen es: In wissenschaftlichen Arbeiten, Publikationen und ähnlichen Texten stehen hinter Zitaten aus dem Web Angaben wie "besucht am" oder "letzter Zugriff". Damit wird versucht, eine Quelle durch die URL und das Datum des Zugriffs nachzuweisen. Doch stellen Sie sich vor, Sie würden eine Seite aus einem Buch zitieren und gleichzeitig die Geokoordinaten des Regals angeben, aus dem Sie das Buch genommen haben – eine absurde Idee für gedruckte Publikationen. Im Web jedoch ist diese Praxis seit über 20 Jahren die Norm und wird bis heute unverändert empfohlen. Gerade beim Web, dessen Architektur und Dynamik ständige Veränderungen fördert, ist diese Zitierweise problematisch, denn "es ist niemals nachvollziehbar, ob, wann und wo das Web aktualisiert wurde"1. Es wird dabei lediglich dokumentiert, wo eine Information zu einem bestimmten Zeitpunkt abrufbar war, ohne sicherzustellen, dass diese langfristig zugänglich bleibt.
Im Laufe der Zeit hat sich gezeigt, wie problematisch diese Praxis der Zitierung von Webquellen sein kann: Viele der ursprünglich referenzierten Inhalte sind inzwischen nicht mehr erreichbar, ein Phänomen, das als "link rot" bekannt ist. Selbst bei noch funktionierenden Links bleibt oft unklar, ob die aktuellen Inhalte, mit denen zum Zeitpunkt der Zitation übereinstimmen ("content drift")2. Webarchive spielen eine wichtige Rolle, indem sie Webinhalte sichern und zugänglich machen. Doch begrenzte Kapazitäten und rechtliche Hürden bedeuten, dass viele Inhalte nicht umfassend archiviert werden können.
Das Zitieren einer Live-Seite ist zwar schneller, doch ein Verweis auf eine archivierte Version sichert die langfristige Zugänglichkeit und Integrität der Quelle. Das größte existierende Webarchiv, das Internet Archive, bietet öffentlichen Zugriff und ist bequem online erreichbar. Für Inhalte, die in diesem oder anderen Archiven nicht gefunden werden können, führte das Internet-Archive 2013 das Tool „Save Page Now“ ein, das Webseiten auf Wunsch archiviert und eine Archiv-URL generiert. Auch andere Archive bieten ähnliche Dienste an.3
Im Webarchiv der Österreichischen Nationalbibliothek können nur Seiten mit österreichischen Medieninhaber*innen nach Prüfung und Information archiviert werden, da medienrechtliche Vorgaben dies vorschreiben. Nach der Speicherung ist der Zugriff auf diese Seiten jedoch nur vor Ort in den Räumen der Institution möglich – eine Einschränkung, die auch für viele andere europäische Webarchive gilt.4
Wie können archivierte Webressourcen zitiert werden – unabhängig davon, ob sie in offenen oder geschlossenen Archiven gespeichert sind? Hier bietet der Persistent Web Identifier (PWID) eine standardisierte Lösung, um archivierte Inhalte eindeutig und dauerhaft zu referenzieren.
Der Persistent Web Identifier (PWID) ist ein standardisierter5, maschinenlesbarer und für Menschen verständlicher Identifier, der archivierte Inhalte eindeutig und dauerhaft referenzieren kann – unabhängig davon, ob sie in offenen oder geschlossenen Archiven gespeichert sind.
Ein PWID besteht aus mehreren Komponenten, die seine Struktur und Funktionalität bestimmen:
Beispiel:
urn:pwid:webarchiv.onb.ac.at:2009-10-22T12:18:32Z:page:http://onb.ac.at/prunksaal.htm
PWIDs eignen sich nur für archivierte Websites und lassen sich nicht auf Live-Seiten anwenden. Die Seite muss entweder bereits archiviert oder in einem bestehenden Archiv gefunden werden.
Tools wie der PWID-Generator des Webarchivs Österreich ermöglichen es, eine Archiv-URL automatisch in einen PWID umzuwandeln. Alternativ kann ein PWID auch manuell erstellt werden, indem die fünf Bestandteile (Präfix, Webarchiv-Kennung, Archivierungszeitpunkt, Präzisierung und archivierte URL) entsprechend der oben beschriebenen Struktur kombiniert werden. Die Nutzung des Tools erleichtert diesen Prozess jedoch erheblich.
Um einen PWID zu nutzen, kann der PWID-Resolver der Österreichischen Nationalbibliothek verwendet werden. Dieser ist unter https://webarchiv.onb.ac.at/resolve.jsp erreichbar und wandelt einen PWID in die zugehörige Archiv-URL um, auf die anschließend weitergeleitet wird.
Beispiel:
Der PWID urn:pwid:webarchiv.onb.ac.at:2009-10-22T12:18:32Z:page:http://onb.ac.at/prunksaal.htm wird mithilfe des Resolvers in folgende Archiv-URL aufgelöst: https://webarchiv.onb.ac.at/web/20091022121832/http://onb.ac.at/prunksaal.htm
Befindet sich die archivierte Website in einem nicht öffentlich zugänglichen Archiv, stellt der Resolver Informationen bereit, wie der Zugriff erfolgen kann.
Beispiel:
Der PWID urn:pwid:webarchiv.onb.ac.at:2016-04-21T19:48:28Z:page:http://www.bmi.gv.at/cms/bmi_minister/ wird aufgelöst mit dem Hinweis, dass die Seite nur in berechtigten Bibliotheken zugänglich ist. Nutzer*innen können den PWID speichern, um die Seite später in einer Bibliothek aufzurufen.
Um einen PWID zu verlinken kann dieser direkt an die Resolver-URL angehängt werden, z.B.: https://webarchiv.onb.ac.at/resolve.jsp?pwid=urn:pwid:webarchiv.onb.ac.at:2009-10-22T12:18:32Z:page:http://onb.ac.at/prunksaal.htm
Der PWID-Resolver der Österreichischen Nationalbibliothek unterstützt derzeit das Webarchiv Österreich, das Internet Archive, das Portugiesische Webarchiv und das Isländische Webarchiv. Ein universeller Resolver für alle Webarchive steht bisher nicht zur Verfügung. Diese Aufgabe könnte künftig vom International Internet Preservation Consortium (IIPC)7 übernommen werden. Erste Vorarbeiten dafür sind bereits im Gange. Bis dahin bietet der Resolver der Österreichischen Nationalbibliothek eine zuverlässige Möglichkeit, PWIDs aufzulösen.
Wer langfristige Quellenangaben für Webinhalte sicherstellen will, sollte die Möglichkeiten von Webarchiven nutzen. Ein PWID bietet aktuell die zuverlässigste Methode, um archivierte Websites eindeutig und dauerhaft zu zitieren. Ist dies zu komplex, empfiehlt es sich zumindest, eine Archiv-URL anstelle einer Live-URL zu verwenden. Sowohl Archiv-Links als auch PWIDs haben eine höhere Überlebenschance. Der PWID bietet zusätzlich die Möglichkeit, archivierte Inhalte standardisiert und maschinenlesbar zu referenzieren, was ihn zur bevorzugten Methode für langfristige Zitationen macht.
Die Österreichische Nationalbibliothek bedankt sich sehr herzlich bei der Wiener Städtischen Versicherung für die Unterstützung des Webarchivs Österreich.
Über den Autor: Mag. Andreas Predikaka ist technisch Verantwortlicher des Webarchivs Österreich an der Österreichischen Nationalbibliothek.
1 Vgl. Brügger, Niels (2018): The Archived Web. Doing History in the Digital Age, Cambridge London: The MIT Press, 87
3 Das Internet Archive auf https://web.archive.org/save und das Portugiesische Webarchiv auf https://arquivo.pt/services/savepagenow?l=en bieten Dienste an, mit denen Live-Webseiten auf Knopfdruck archiviert werden können. Der nach dem Archivierungsvorgang generierte Archiv-Link kann anschließend mithilfe des PWID-Generators des Webarchivs Österreich auf https://webarchiv.onb.ac.at#pwid in einen weiter verwendbaren PWID umgewandelt werden.
4 Für die Nutzung des Webarchivs stehen spezielle Terminals im CIM (Center für Information und Medienkompetenz) im Tiefparterre der Österreichischen Nationalbibliothek zur Verfügung. Die Öffnungszeiten sind montags bis freitags von 9:00 bis 21:00 Uhr. Vor Ort erhalten Nutzer:innen Unterstützung bei der Großformatebuchausgabe.
5 Die für Verwaltung und Registrierung von URN-Namensräume zuständige IANA (Internet Assigned Numbers Authority) genehmigte 2022 den PWID. Vgl. urn:pwid:archive.org:2022-11-27T18:33:21Z:page:https://www.iana.org/assignments/urn-formal/pwid
6 UTC ist unabhängig von Zeitzonen und gewährleistet eine einheitliche Zeitangabe für archivierte Inhalte weltweit. Ein Timestamp wie 2009-10-22T12:18:32Z folgt dem ISO-8601-Standard und gibt den Zeitpunkt der Archivierung in UTC (Koordinierter Weltzeit) an. Der Buchstabe 'T' trennt das Datum (2009-10-22) von der Uhrzeit (12:18:32), während das 'Z' am Ende für 'Zulu Time' steht - eine standardisierte Kennzeichnung für die UTC-Zeit. Vgl. urn:pwid:archive.org:2024-06-22T22:44:02Z:page:https://de.wikipedia.org/wiki/Koordinierte_Weltzeit
7 Das International Internet Preservation Consortium (IIPC) ist ein internationales Netzwerk von Bibliotheken, Archiven und anderen Institutionen, das 2003 gegründet wurde. Ziel des Konsortiums ist es, Technologien, Standards und bewährte Verfahren zur Erhaltung und Archivierung von Webinhalten zu entwickeln und zu fördern. Vgl. urn:pwid:archive.org:2024-06-18T04:13:28Z:part:https://de.wikipedia.org/wiki/International_Internet_Preservation_Consortium
Die Sammlung sowie der Lesesaal von Bildarchiv und Grafiksammlung bleiben am 22. Jänner 2025 geschlossen.