Internetquellen zitieren: von Web-Archiven, Persistenz und Permalinks
tags: zitieren, quellen, webcite, archive.org, literaturDas Internet vergisst für solche Anwendungsfälle leider nicht nicht [sic] und man sollte daher folgende Überlegungen durchaus ernst nehmen. Der Beitrag soll weniger den Aspekt beleuchten, welche Quelle denn tatsächlich zitierwürdig, oder etwa „gerade so“ zitierfähig ist. Es soll darum gehen, Bedingungen zu schaffen, um Online-Ressourcen als Quelle (Nach-) nutzbar zu machen. Anbieter sind durchaus nicht in der Lage oder Willens, technische Voraussetzungen für eine dauerhafte Überprüfbarkeit zu bieten. Gibt es Bedingungen und Erfahrungen, die darauf hindeuten, dass eine permanente Verfügbarkeit nicht gewährleistet werden kann oder soll, kann es wichtig sein, Diese zu schaffen.
Verwenden von permanenten Links
Wird vom Anbieter die technische Möglichkeit von sogenannten Permalinks angeboten, sollten diese auch verwendet werden. Die Bereitstellung von Permalinks kann als Absichtserklärung verstanden werden, Inhalte über eine dauerhaften URL vor zuhalten, unabhängig davon, ob sich eine dahinterliegende Struktur (Zieladresse) ändert. Etwa bei technisch bedingten Änderungen in Datenbankanwendungen. Der Anbieter kümmert sich darum etwaige Weiterleitungen einzurichten. Bekannte Beispiel sind das Documents-Object-Identifier-System (DOI), Handle.NET (HDL) oder Uniform Resource Name-System (URN). Derartige Permalinks sollten der Lesbarkeit wegen, möglichst wenige Zeichen enthalten. Dieser Beitrag ist z.B. über den Permalink kreidefossilien.de/1835 zu erreichen. Die Permalinks finden sich über jedem Beitrag oben rechts neben der Überschrift.
Weitere bekannte Anwendungsfälle sind die Versionslinks bei Wikipedia-Artikeln. Beispiel: de.wikipedia.org/w/index.php?title=Heidenschanze_bei_Dresden&oldid=182438876 (Version vom 4.11.2018). Dort findet sich unter der Bezeichnung „Permanenter Link“ im linken Seitenbereich der Verweis auf die derzeitige Artikelversion. Wobei die oben angesprochene Lesbarkeit i.S. einer einfachen Nachnutzbarkeit nicht gegeben ist. Dieser permanente Link ist wenig benutzerfreundlich.
Das Vorhandensein von permanenten Links heißt nicht automatisch, dass die entsprechende Zielressource auch tatsächlich dauerhaft — persistent — zugänglich ist. Verschwindet z.B. aus wirtschaftlichen Gründen eine Online-Ressource/eine Webseite, ist u.U. auch das Vorhandensein eines Permalinks kein Garant für die spätere Verfügbarkeit. Es ist also angebracht, auf Hilfsmittel Dritter zurückzugreifen.
Archivieren von Webseiten mit externen Hilfsmitteln
An erster Stelle sei auf die Internet Archive Wayback Machine web.archive.org verwiesen. Dort kann über die „Save Page Now“ Funktion ein aktueller Schnappschuss (Snapshot) erzeugt werden, der auf den Servern des Internet Archive gespeichert wird. Es gibt für Firefox eine Erweiterung mit der bequem Snapshots erzeugt werden können. Ein Schnappschuss von diesem Beitrag, findet sich unter web.archive.org/web/*/https://www.kreidefossilien.de/konglomerat/internetquellen-zitieren .
ABER: Bei dem Web-Crawler der Wayback-Machine ist zu beachten, dass die Anweisungen in der sogenannten robots.txt normalerweise berücksichtigt werden. Wird darin dem Crawler die Anweisung gegeben ein Verzeichnis oder gleich die ganze Webseite nicht zu erfassen, tut er dies auch nicht. Anweisungen in der robots.txt stellen keine technisch wirksame Sperre dar, als vielmehr eine Bitte, an die sich „seriöse“ Web-Crawler normalerweise auch halten. Hinzu kommt, dass z.B. auf Bitten der Webseitenbetreiber URLs aus der Wayback Machine entfernt, oder zumindest der Zugriff gesperrt werden können.
Wechselt außerdem eine Webseite den Betreiber, kann dieser über eine — vorher nicht vorhandene — Anweisung in der robots.txt der Wayback Machine mitteilen, keine weiteren Schnappschüsse zu erstellen. Dabei werden auch alte Schnappschüsse gesperrt und sind nicht mehr zugänglich.
Beispiele: Dokumente der Landesdirektion Sachsen und die GK25 des LfuLG Sachsen
So können aufgrund der Anweisungen der robots.txt die Dokumente (PDF, ZIP-Dateien, etc.) unter lds.sachsen.de/bekanntmachung/ nicht über die Wayback Machine gesichert werden. Üblicherweise werden nach einigen Monaten die Dokumente von lds.sachsen.de depubliziert. Abhilfe schafft in diesem Fall zum einen das WebCite des International Internet Preservation Consortiums und das anonym betriebene archive.is. Schnappschüsse werden bei diesen beiden Projekten nur durch aktives Wirken eines Benutzers erzeugt und ignorieren daher Anweisungen in der robots.txt.
Die „Bekanntmachung über die Planfeststellung „Europäische Gas-Anbindungsleitung (EUGAL ), Abschnitt Dresden“ vom 30.10.2018 unter lds.sachsen.de/bekanntmachung/?ID=14489&art_param=615 kann über über das Internet Archive (IA-Memento vom 1.11.2018) dauerhaft eingesehen werden. Jedoch werden die dort verlinkten PDF-Dateien nicht gesichert oder sind zumindest nicht einsehbar. Beim Versuch diese PDF-Datei in der Wayback Machine zu sichern oder herunterzuladen, wird dies mit dem Verweis auf die Eintragungen der robots.txt abgeblockt.
Verschwindet z.B. die Datei unter lds.sachsen.de/bekanntmachung/anlagen/PFB_EUGAL_Seite_1_50.pdf, hilft einem hier das Internet Archive nicht weiter. Daher muss man z.B. aktiv webcitation.org bemühen. Der erste Teil der Bekanntmachung ist so (wahrscheinlich) nun dauerhaft über webcitation.org/73bjQr1dU verfügbar. Archive.is hat bei (größeren) PDF-Dateien offenbar Probleme und funktioniert bei diesem konkreten Beispiel nicht.
Ein weiteres Beispiel ist bei den Karten und Erläuterungen der GK25 Sachsen nachzuvollziehen. Das LfULG hat bis vor einigen Jahren einige Sektionen als shape-Dateien zur Verfügung gestellt. Die Originallinks führen ins Leere (Beispiel der GK25Ndig_5046.zip). Die Datei ist aber dank eines Memento vom 11. April 2016 im Internet Archive weiterhin über https://web.archive.org/http://www.umwelt.sachsen.de/umwelt/download/geologie/GK25Ndig_5046.zip verfügbar.
Kennt man also die Adresse zu einer nicht mehr verfügbaren Ressource, kann man versuchen, ob sich nicht ein Snapshot unter web.archive.org finden lässt. Man sollte sich bei Zitieren aber nicht darauf verlassen, dass der Wayback-Webcrawler irgendwann ein Memento erstellt, sondern aktiv darauf hinwirken und ggfl. die anderen Archivierungsmaßnahmen anstoßen.
Beim Nutzen des Hilfsdienst https://xyz2bbox.kreidefossilien.de bin ich auf das Problem gestoßen,… vor 1 Jahr, 5 Monaten
Blatt 42 (4840) Borna ist leider nicht korrekt verlinkt. vor 1 Jahr, 8 Monaten
Der Kockelsbergtunnel wird südlich wieder in die Strecke Berlin-Dresden einbinden, nicht auf… vor 2 Jahren, 11 Monaten
Sehr schöne Anleitung, danke! vor 3 Jahren, 10 Monaten
Digitalisat von Tafel II aus Schulze, 1770 in guter Qualität hinzugefügt. Quelle: https://books.google.de/books?id=nHJlAAAAcAAJ&pg=PA37 vor 4 Jahren, 8 Monaten