Wie langzeitarchiviert man Enhanced Publications?

Ben Kaden & Michael Kleineberg

2015-11-10

Eine Notiz von Ben Kaden (@bkaden)

1.

Das Thema Datenjournalismus bleibt, erwartungsgemäß, überall dort ein zentrales Diskursobjekt, wo es um digitalen Journalismus geht. Auf der Technologieseite von Vox Media arbeitet Simon Rogers entsprechende Chancen (Zugang) und Herausforderungen (Archivierung) auf und erneut zeigen sich Parallelen zu den Digital Humanities.

„[T]he web has revolutionized online journalism so that the way we consume the news changes daily; the basics of modern data journalism are grounded in that ability to visualize that data in more and more sophisticated ways.“

Ersetzen wir „online journalism“ durch „digital research“, „news“ durch „research publications“ sowie „modern data journalism“ durch „Digital Humanities“, lässt sich der Satz problemlos in jeden Sammelbandbeitrag für eine Tagung zum Thema Digitalisierung der Geisteswissenschaften einpassen.

Hervorzugeben ist ein Aspekt, der uns aus Sicht der Bibliothekswissenschaft abstrakt und bei Fu-PusH sehr konkret beschäftigt. Für die Datenvisualisierung, bekanntermaßen auch Kernelement erweiterter Forschungsdatenpublikationen, ist die Langzeitarchivierung ein ungelöstes Problem. Was man vom Forschungsoutput der Projektwissenschaft sehr gut kennt, steht auch hier im virtuellen Raum:

„Much of it has become a victim of code rot – allowed to collapse or degrade so much that as software libraries update or improve, it is left far behind. Now when you try to find examples of this work, as likely as not you will end up at a 404 page.“

Im Unterschied zu der sehr im Umbruch befindlichen Welt des Journalismus, in der viele hauseigene Archive eingedampft bis eingestampft wurden und oft im besten Fall noch als Volltextdatenbanken bleiben, gibt es in der Wissenschaft glücklicherweise mit den Bibliotheken und zunehmend auch digitalen Publikations- bzw. Forschungsdatenrepositorien (hoffentlich) zeitstabile Infrastrukturen, die es ermöglichen sollten, sämtlichen Forschungsoutput, vielleicht auch -input sowie die jeweiligen Werkzeuge aufzubewahren. Pionierarbeit zum Thema Softwarearchivierung, die auch das Erkennen der entsprechenden Hürden beinhaltet, wird dabei wiederum im Bereich der Computerspiele geleistet (vgl. exemplarisch diesen Beitrag bei Golem).

Die Archivierung von Software ist bekanntlich deshalb weitaus anspruchsvoller als die Archivierung vieler Formen von Inhaltsdaten bzw. Dokumenten, weil sie erheblich stärker als diese an bestimmte System- bzw. Hardwarevoraussetzungen gebunden ist. Für digitale Werkzeuge muss folglich auch der konkrete Funktionsrahmen mitarchiviert und verfügbar gehalten werden. Angebote wie Github, die aktuell als eine Lösung zur Softwarearchivierung gesehen werden, werfen auch jenseits der Grenzen der Systemarchivierbarkeit genug offene Fragen auf. Sie sind daher vermutlich bestenfalls Zwischenschritte und keine stabilen Lösungen.

Regelmäßige Migrationen, bisher angedachtes Allheilmittel der digitalen Langzeitarchivierung, sind beim Anspruch, den jeweiligen Systemrahmen zu bewahren, naturgemäß nicht möglich. Eine wirklich umfassende Dokumentation der jeweiligen Systemkonstellationen könnte in der Zukunft immerhin eventuelle Rekonstruktionen der jeweiligen Produktions- und Rezeptionssettings ermöglichen. Angesichts der dabei auflaufenden Kosten wird deutlich, dass solche Archivierungsansätze unbedingt priorisieren werden müssen und dass daher sehr sicher ein großer Teil der Geschichte der Digitalität bestenfalls als Narration überleben wird.

2.

Das Phänomen des Datenjournalismus illustriert ebenso wie andere Formen des digitalen Enhanced Publishing, wie viel größer die Herausforderung sich dann darstellt, wenn Inhalte, deren Anzeige und die dafür notwendigen Werkzeuge bzw. Software untrennbar sind. Je offener, dynamischer und vernetzter ein Inhaltsobjekt desto komplizierter wird eine Archivierung. Konsequent gedacht handelt es sich nämlich nicht um fixe Dokumente sondern um situativ und ephemer erzeugte Repräsentationen. Vermutlich werden wir bei diesen Formen von vernetzten und erweiterten Publikationsstrukturen aus medientheoretischer Sicht bald mit Ephemertheorien für einst stabil aufzeichenbare und reproduzierbare Kommunikationen (Text, Bild, Ton) umgehen müssen, die in ihrer Komplexität an das erinnern, was man von vergänglichen und bislang für die Erkenntnisproduktion eher verdrängten Sinneseindrücken kennt (z.B. Düften). Womöglich braucht es bei der digitalen Langzeitarchivierung eine Differenzierung und regelmäßige Redefinition der gewünschten und der praktikablen Zeithorizonte.

Wolfgang Ernst vertrat jedenfalls unlängst eine archivtheoretische Position, die für digitale Zusammenhänge ein neues Verständnis der Zeitlichkeit feststellte und daher die Konzentration auf die Bewahrung eines Ergebnisses durch das Prinzip der Speicherung von Zwischen(zu)ständen ersetzt:

„Die algorithmischen Forschungsmethoden der Digital Humanities praktizieren längst schon eine andere Form der »historischen« Forschung, die den non-human agencies (der Software) den entscheidenden Part überlässt. Zum Zweck der Bereitstellung von Big Data als Zeitzeugnis obliegt es Gedächtnisinstitutionen weiterhin, wohldefinierte Datenbanken vorzuhalten. Lineare Datenströme lassen sich im Normalfall nicht in Echtzeit, sondern erst nachträglich analysieren; die Zwischenarchivierung von Datenströmen ist daher notwendig wie je.“ (Ernst, 2015)

Eine faszinierende Verschiebung in solchen digitalen Erkenntnis- bzw. besser noch Handlungszusammenhängen besteht weiterhin darin, dass man mit der Software bzw. den Algorithmen die Aktanten und nicht nur das Ergebnis der Handlung dokumentieren und nach Möglichkeit auch archivieren muss. Wo das Handlungsmedium Mensch aus diversen Gründen nur als Metainformation in der Zeit bewahrbar ist, sind handelnde technische Systeme mutmaßlich prinzipiell leichter in der Zeit zu stabilisieren. Wichtig scheint die Einsicht, dass bei genauerer Betrachtung die „Datenströme“ allein kaum zureichend sein werden, um ein nachvollziehbares Abbild der in diesen virtuellen Handlungsumgebungen erzeugten Erkenntnisse und Analysen zu bewahren. Die Gesamterhaltung bleibt auch deshalb ein wichtiges Anliegen, weil der erkenntnisprägende Anteil von Algorithmen und Software Konsequenzen für die Verantwortungszuschreibung hat. Oder wie es Susan Schuppli formuliert:

„The idea that an actual human being or ‘legal person’ stands behind the invention of every machine who might ultimately be found responsible when things go wrong, or even when they go right, is no longer tenable and obfuscates the fact that complex systems are rarely, if ever, the product of single authorship; nor do humans and machines operate in autonomous realms. Indeed, both are so thoroughly entangled with each other that the notion of a sovereign human agent functioning outside the realm of machinic mediation seems wholly improbable.” (Schuppli, 2014)

Wo ein Algorithmus maßgeblich an der Erkenntnis mitarbeitet ergibt zudem sich die Frage, welcher Anteil den menschlichen Entwicklern dieses Algorithmus‘ als Teil der Erkenntnisfindung zugeschrieben wird, welche Portion der Credits Datenerhebern zukommt und wer am Ende als feder- bzw. mouseführende_r Autor_in einer Publikation gilt. Digitale Wissenschaft beinhalt folglich auch die Notwendigkeit einer Neuverhandlung von Handlungsrollen und, zurück zum Archiv, eine Nachvollziehbarkeit des Forschungsverlaufs, der zu einer (Zwischen)Erkenntnis führte. Auch hier bleibt noch ungeklärt, wie sehr man versuchen sollte, neben der möglichst detaillierten Systembeschreibung das gesamte dahinter stehende technische System zu archivieren.

3.

Simon Rogers fordert sehr berechtigt ein „Data Journalism Archive“. Sein Artikel demonstriert aber zugleich, dass die Entwicklung von Lösungen der Langzeitarchivierung und -verfügbarkeit für digitale Inhalte, Werkzeuge und eventuell auch Strukturen offenbar weithin entkoppelt von der Entwicklung der jeweils gegenwärtigen Möglichkeiten für die Darstellung digitaler Inhalte verläuft. Als es noch hauptsächlich um statische Webseiten, abgeschlossene Datenbanken und an Endgeräte gebundene Software ging, schien das nicht übermäßig aussichtslos und eine Lösung vielleicht nicht präsent, aber doch irgendwie naheliegend und mutmaßlich machbar. In vielen auch aktuellen Diskussionen zur digitalen Langzeitarchivierung scheint man noch in diesen Mustern zu denken. Für komplexe adaptive Darstellungen, wie sie den Datenjournalismus und die Visualisierungsbestrebungen der Digital Humanities gleichermaßen kennzeichnen, wird jedoch bei der Archivierungsfrage vor allem eine neue Ratlosigkeit sichtbar. Die Verlagerung sowohl der Inhalte als auch der Anwendungen in die Cloud verstärkt dies zusätzlich.

Selbstverständlich kommen wir nicht um den Aspekt herum, den Simon Rogers betont:

„Nobody says archiving is easy, but what will be left otherwise?“

Auf Archivierung zu verzichten ist, jedenfalls aus wissenschaftlicher Sicht, keine Option. Vielmehr wird die technische Archivierung und Verfügbarhaltung angesichts des Nachvollziehbarkeitsanspruchs in der Wissenschaft umso notwendiger, je komplexer und technikgestützter sich Forschung vollzieht. Aber eine solche Archivierung ist nicht nur nicht leicht, sondern auch teuer. Sie sollte systematisch, koordiniert und übergreifend angegangen werden. Derzeit jedoch fehlen Standards oder überhaupt nur überzeugende Best-Practice-Lösungen, mitunter sogar das Bewusstsein.

Die treibenden Kräfte der Digitalindustrie scheinen diesem Aspekt über die einfache Dateiarchivierung hinaus bisher wenig Aufmerksamkeit zu schenken. Kompatibilitätssicherung findet nur in sehr begrenzten Zeitfenstern und über wenige Softwaregenerationen statt. Von Seiten der Nutzer_innen fehlen möglicherweise bislang die Nachfrage oder überhaupt ein Problemverständnis, das immerhin Softwareentwickler_innen mittlerweile mitbringen und das, wie der Beitrag von Simon Rogers zeigt, den Journalismus erreicht. Die klassischen Gedächtnisinstitutionen und insbesondere die Bibliotheken behandeln das Thema dagegen eher nur peripher in ihren Diskursen zur Digitalität und Technologie. Die Bibliothekswissenschaft, deren informatische Wende derzeit in Berlin durch die Ausschreibung einer entsprechenden Professur nochmals unterstrichen wird, wäre sicherlich die Disziplin, die die Herausforderungen einer digitalen Langzeitarchivierung über die reine Daten- und Dokumentenbewahrung hinaus aufgreifen müsste. Bibliothekswissenschaftlich geprägte Projekte wie das unsere können sich immerhin um entsprechende Impulse bemühen. Was u.a. mit diesem Beitrag geschehen soll.

(Berlin, 10.11.2015)

Wolfgang Ernst: Memorisierung des Web – Von der emphatischen Archivierung zur Zwischenarchivierung. In: Zeitschrift für Bibliothekswesen und Bibliographie (ZfBB), Mai-Aug 2015, Vol. 62 Issue 3/4, S. 144-152. DOI: 10.3196/1864295015623424

Simon Rogers: We need a Data Journalism Archive. Before it becomes just another 404 error. In: Vox Technology, 09.11.2015

Susan Schippli: Deadly algorithms: Can legal codes hold software accountable for code that kills? In: Radical Philosophy, No. 187, Sept/Oct 2014, S. 2-8

Lizenz

Icon für Creative Commons Namensnennung-Weitergabe unter gleichen Bedinungen 4.0 International

Das Fu-PusH-Weblog Copyright © 2016 by Ben Kaden & Michael Kleineberg is licensed under a Creative Commons Namensnennung-Weitergabe unter gleichen Bedinungen 4.0 International, except where otherwise noted.

Lizenz

Dieses Buch teilen