17. | Kurzeinführung pandoc

Als heutiges Adventskalendertürchen gibt es eine Kurzvorstellung von pandoc, dem universellen Dokumentenkonverter.

Zweck

Die Hauptfunktion pandocs ist das Umwandeln von Dokumenten von einem Format in ein anderes. Beispielsweise können mit Microsoft Word erzeugte docx Dateien in HTML gewandelt werden, LibreOffice odt Dateien nach PDF oder Markdown in das eBook-Format EPUB. Klartext-Formate, wie das bei Wikipedia verwendete mediawiki, können ebenso gelesen und geschrieben werden wie Publikationsformate à la JATS.

Das Augenmerk liegt bei der Konvertierung auf Inhalt und Bedeutung, also auf dem Beibehalten von semantischer Information wie “Überschrift” und “Zitat”. Das Erscheinungsbild ist dabei nachranging, kann aber von Benutzer:in flexibel angepasst werden.

Funktionsweise

Um die riesige Menge an möglichen Konvertierungen bewerkstelligen zu, können nutzt Pandoc einen Trick: Eingelesene Dokumente werden in ein einfaches, internes Format konvertiert. Dieses interne Format wird dann in das angestrebte Ausgabeformat umgewandelt. Durch diesen Kniff kann jedes einlesbare Format in jedes unterstützte Ausgabeformat umgewandelt werden.

Das einheitliche interne Format bietet zudem die Möglichkeit, das Dokument automatisiert zu bearbeiten. Mit sogenannten Filtern können Formate um neue Funktionen erweitert werden und Dokumente an Vorgaben angepasst werden. Eine Sammlung vorgefertigter Filter steht zur freien Nutzung zur Verfügung.

Ausprobieren

Pandoc ist ein reines Kommandozeilenprogramm, muss also durch Eingabe von Textkommandos gesteuert werden. Installationshinweise und Hilfe zu ersten Schritten sind auf der Webseite https://pandoc.org zu finden (auf Englisch).

Geschichte

Pandoc begann als lockeres Experiment. John MacFarlane, Professor für Philosophie an der University of California, Berkeley, wollte nur die außergewöhnliche Programmiersprache Haskell austesten und schrieb einen Konverter zwischen Markdown und reStructuredText. In den bisher 14 Jahren seit diesem Anfang kamen immer mehr Formate dazu. Immer mehr Menschen trugen zu dem Open-Source Projekt bei. Mittlerweile haben sich über 300 Leute mit Code beteiligt, zahlreiche mehr brachten und bringen sich mit Vorschlägen zu Verbesserungsmöglichkeiten ein. Das Programm wird millionenfach heruntergeladen und wird auch kommerziell verwendet.

Avatar
Albert Krewinkel
Freier Software-Entwickler

Albert ist Software-Entwickler mit Abschlüssen in den Lebenswissenschaften und der angewandten Mathematik. Er ist leidenschaftlicher Open-Source-Entwickler mit besonderem Interesse an Open-Science und Publishing. Er ist Teil des Kernentwicklerteams des Dokumentenkonverters “pandoc”. Albert lebt mit seiner Familie in Berlin.

Ähnliches