OAWeek2022: Das PDF ist nicht genug: Warum die Wissenschaft offene Formate braucht

In der Projektlaufzeit von 2019 bis 2021 bündelte das Projekt Modernes Publizieren im Rahmen der Initiative Hamburg Open Science (HOS) langjährige Erfahrungen der Technischen Universität Hamburg (TUHH) und der Staats- und Universitätsbibliothek Hamburg (SUB). Das Ziel: Die Entwicklung eines sozio-technischen Systems für Single Source Publishing, also für die Generierung verschiedener Ausgabeformate aus einem Quellformat. Grundlage waren Open-Source-Lösungen wie GitLab und Open Journal Systems (OJS), um einen offenen alternativen Ansatz für die Veröffentlichung wissenschaftlicher Ergebnisse gegenüber kommerziellen und proprietären Verlagsangeboten zu ermöglichen.

Ein offenes System zum Schreiben und Publizieren

Ein erster Architekturentwurf des Projekts wurde bei den Open-Access-Tagen 2019 vorgestellt. Zu diesem Zeitpunkt war die Toolkette um GitLab und OJS bereits erweitert um Markdown, pandoc-scholar, Docker und Hypothesis. So wurden u. a. auch Aspekte der Kollaboration und Partizipation in Schreibprozessen im Rahmen von Veröffentlichungsprozessen integriert.

Abgebildet ist dieser Status des sozio-technischen Systems, also der Verknüpfung von Menschen und Technik, auch im Posterbeitrag zu den OA-Tagen 2019.

Mit den Open-Access-Tagen 2019 war die Arbeit jedoch nicht beendet. Feedback wurde eingeholt und die Prozesskette Dank der Hilfe vieler Fachkolleg*innen aus unterschiedlichen Perspektiven weitergedacht. Das Ergebnis dieser Weiterarbeit war Single-Source-Publishing mit Swapfire und OJS, das auch im Rahmen verschiedener Workshops und Veranstaltungen vorgestellt wurde.

Die wie eine Spirale anmutende Darstellung zeigt den Single-Source-Publishing-Workflow für eine Journalpublikation. Markdown-Texte können hier mit statischen Seitengeneratoren und Konvertern beispielsweise in PDF- und HTML-Dateien umgewandelt werden – je nachdem welche Zielformate (zum Beispiel Journalbeiträge, aber auch Lehr-Lern-Skripte oder Webseiten) angestrebt werden.

Die unterschiedlichen Möglichkeiten der Prozesskette wurden mit Fachkolleg*innen verschiedener Einrichtungen erprobt und u. a. für den Relaunch der frei verfügbaren und begutachteten wissenschaftlichen Zeitschrift kommunikation@gesellschaft eingesetzt. Auch mit Projektende war die Arbeit an offenen Single Source Publishing-Ansätzen nicht beendet.

Gründung der Single Source Publishing Community

Ehemalige Teammitglieder des Projekts haben die Single Source Publishing Community (SSPC) gegründet. Diese konzentriert sich auf das wissenschaftliche Schreiben und Publizieren mit offenen Tools und Formaten und ist ein Treffpunkt für Forscher*innen, Dozent*innen, Verleger*innen und Entwickler*innen. Unter dem Motto “Collaborate more, compete less” tauschen sich die Aktiven der Community in ihren monatlichen Treffen zu aktuellen Entwicklungen in ihren Projekten aus und diskutieren Strategien zum Kulturwandel im wissenschaftlichen Publikationsbereich.

Offene Tools für offene Formate

Zahlreiche quelloffene Tools begünstigen die angestrebte Souveränität: Softwareprojekte wie Open Journal Systems, Vivliostyle, Paged.js, Swapfire, FidusWriter, HedgeDoc, Quarto und nicht zuletzt pandoc werden in den Projekten der Community auf unterschiedliche Weise kombiniert, um alternative offene Systeme zu kreieren.

Viele Projekte nutzen das Markdown-Format als Quelle, um daraus komplementäre Versionen zum PDF in Form von HTML, JATS/XML und EPUB zu erzeugen. Letztere bieten den Vorteil, dass sie die semantische Auszeichnung der enthaltenen Informationen bewahren und damit in automatisierten Prozessen des Textminings vielfältige Anwendungsmöglichkeiten eröffnen. Gleichzeitig erhöht sich die Nutzbarkeit und Reichweite publizierter wissenschaftlicher Erkenntnisse.

Formats For Future in der Open-Access-Woche 2022

Wie wichtig offene Formate für wissenschaftliche Publikationen sind, zeigt der aktuelle Report des IPCC zum Klimawandel, der als PDF mit mehreren tausend Seiten erscheint. Gespickt mit Abkürzungen und Jargon sind die wichtigen Informationen zur Klimakrise nur für eine Fachcommunity verständlich und für Maschinen unlesbar. Dass einige Teile seit Kurzem auch im HTML-Format erscheinen, ist erfreulich.

Die Gruppe #semanticClimate um den Chemiker und Open-Knowledge-Aktivisten Peter Murray-Rust hat es sich daher zur Aufgabe gemacht, die PDF-Dokumente des IPCC in HTML und XML zu konvertieren und semantisch auszuzeichnen - eine wertvolle und aufwändige Arbeit, die nicht nötig wäre, wenn das IPCC von vornherein in semantisch ausgezeichneten Formaten publizieren würde.

Vor diesem Hintergrund haben sich Aktive der Single Source Publishing Community und #semanticClimate zusammengeschlossen, um in der Open-Access-Woche 2022, die unter dem Motto “Open for Climate Justice” stattfindet, gemeinsam auf zukunftsfähige Publikationsworkflows und -formate aufmerksam zu machen.

In einem einwöchigen Hackathon mit dem Titel “Formats For Future: Liberating and Semantify IPCC Reports” können die Tools der Gruppe #semanticClimate erprobt und weitere Kapitel des IPCC-Reports befreit werden. Bei der Organisation unterstützen die Universitätsbibliothek der TU Hamburg, das Open Science Lab der TIB Hannover, die Hamburg Open Online University an der TU Hamburg und viele weitere Personen, die in den vergangenen Wochen Zeit und Expertise eingebracht haben.

Mitmachen!

Die Treffen der Single Source Publishing Community finden einmal im Monat statt und sind offen für alle Interessierten. Weiterführende Informationen sind auf GitHub zu finden.

Der internationale Hackathon “Formats For Future: Liberating and Semantify IPCC Reports” startet am 24.10.2022 und dauert bis zum Ende der Open-Access-Woche am 30.10.2022. Weiterführende Informationen sind zu lesen in diesem Blogpost sowie auf der Website der Gruppe.

Unter dem Motto “Formats For Future” sind weitere Aktivitäten für die Zukunft geplant, um wissenschaftliches Publizieren offener, unabhängiger und zukunftsfähig aufzustellen.


Anmerkung: Dieser Beitrag erschien zuerst am 25.10.2022 zum Start der Open-Access-Woche 2022 im Blog der Universitätsbiblitothek der Technischen Universität Hamburg unter CC BY.

Avatar
Axel Dürkop
Teamleiter, Systemarchitekt und technische Umsetzung