Dateiformate und Umwandlungsstrategien

Gebräuchliche Dateiformate für Texte im World Wide Web

Generell gilt: Verweise auf Texte, z.B. in digitalen Bibliotheken, lassen auch ohne explizite Kennzeichnung des jeweiligen Dokumenttyps vorab eine sofortige Bestimmung des zugrundeliegenden Dateiformats zu. Gleiten Sie nämlich mit dem Mauszeiger über den betreffenden Link, erscheint in der Statusleiste am unteren Bildschirmrand des Browsers neben der Adresse (URL), unter der der Text erreichbar ist, auch eine Extensionsangabe zum Dateityp (manchmal kann diese freilich etwas versteckt eingeschachtelt sein). Wollen Sie nun z. B. PDF- oder Word-Dateien nicht an Ort und Stelle öffnen, sondern zunächst einmal herunterladen, stehen Ihnen auf diese Weise die nötigen Informationen, die bei großen Dateien eine längere Ladezeit des betreffenden Dokuments vermeiden helfen, zur Verfügung. Die wichtigsten Formate, in denen Texte im Web präsentiert werden, seien hier – unter Nennung der jeweiligen Erweiterung – noch einmal kurz beschrieben:

  • *.html (bzw. *.htm): das gebräuchliche Format für Webseiten; schreibt man das Kürzel aus (Hypertext Markup Language), werden bereits wesentliche Erscheinungsformen des Internets greifbar: allgemeine Verweisungsstruktur und Fundierung in einer Auszeichnungssprache (beim Herunterladen von Webseiten kann übrigens eine Wahl zwischen verschiedenen Speichermethoden getroffen werden: Webseite komplett, Webseite nur HTML oder Textformat)
  • *.xml: die kennzeichnende Endung für Dokumente, die auf der Extensible Markup Language bzw. deren verschiedenen Dokumentgrammatiken beruhen; im Browser zugänglich durch die Verwendung spezieller Stylesheets (bzw. durch die Transformation in andere Dokumenttypen)
  • *.epub: auf der Paketierung von Web-Standardformaten wie (X)HTML, CSS, SVG, MathML und JavaScript beruhendes Format für digitale Bücher (Ebooks); im Gegensatz zu PDF und DjVu flexible Darstellung der Text- und Bildinhalte unter Berücksichtigung von Bildschirmgröße und Fensterbreite
  • *.pdf: das Portable-Document-Format, das von der Firma Adobe auf der Grundlage der Drucker- und Seitenbeschreibungssprache Postscript entwickelt wurde und demzufolge die seiten- und elementgenaue Darstellung von Büchern und Dokumenten aller Art (inklusive Grafiken, Formeln, Sonderschriften, etc.) ermöglicht; anzumerken ist allerdings, dass es sich bei PDF einerseits um ein proprietäres Format handelt (mit dem auch Zugriffsrechte der Nutzer/innen eingeschränkt werden können), und dass andererseits ein weiter gehendes Markup der Texte, wie es moderne wissenschaftliche Webeditionen grundsätzlich erfordern, nicht möglich ist
  • *.djvu: relativ neues Format, in dem Texte und Bücher aller Art als durchsuchbare Images zur Verfügung gestellt werden können; im Gegensatz zu PDF nicht proprietär gebunden
  • *.txt: gleichsam das roheste aller Textformate, die Speicherung als reiner Text, wodurch indes eine beliebige Weiterverwendung des Textes in anderen Formatzusammenhängen gesichert ist
  • *.rtf: das sog. »Rich Text Format«, das ein Öffnen des Textes durch jede beliebige Textverarbeitung ermöglicht
  • *.docx bzw. früher *.doc: das Dateiformat von Microsoft Word, als *.docx XML-basiert
  • *.odt: die Textvariante des mittlerweile ISO-zertifizierten Open-Document-Formats, ab Version 2 das Dateiformat von zunächst OpenOffice.org Writer, in der Folge dann von LibreOffice Writer (XML-basiert, mit einer speziellen, Speicherplatz sparenden Kompression; die Vorgängerversion dieses Formats – kenntlich an der Endung *.sxw – ist übrigens auch noch nicht gänzlich entschwunden)

Neben diesen bekannten Dateitypen seien pauschal noch die diversen Ebook-Formate erwähnt, in denen Texte zum Download angeboten werden: das Palm-Format (*.pdb), das MS-Reader-Format (*.lit), das Rocket-eBook-Format (*.rb), und mehrere andere. Will man die so kodierten Texte nicht nur unterwegs auf den entsprechenden elektronischen Ausgabegeräten lesen, muss natürlich ein spezieller Reader auf dem PC installiert sein.

Möglichkeiten der Umwandlung von Dateiformaten

Immer wieder einmal steht man vor der Notwendigkeit, Texte aus einem Format in ein anderes zu transformieren (zur Durchführung textstatistischer Untersuchungen mit verschiedenen Textanalyse-Tools, zum Import in spezialisierte Anwendungen beispielsweise im Information-Retrieval-Bereich, zur einheitlichen Präsentation in einem speziellen Publikationsrahmen, zur Sicherung von Textinhalten aus einem nicht mehr unterstützten Dateiformat heraus oder auch nur zur Erleichterung der Druckfunktion).

Nachstehend sollen daher einige der zur Verfügung stehenden Möglichkeiten zur Umwandlung von Dateiformaten bzw. Dateitypen kurz aufgeführt werden:

  • Überführung von PDF- in Text-Dateien: Es sind grundsätzlich zwei Vorgehensweisen möglich: 1. Sie wählen im installierten PDF-Reader, meist über den Datei-Dialog, die Option des direkten Exports ins Text-Format (Voraussetzung ist hier wie auch in der zweiten Variante freilich immer, dass das PDF-Dokument über erkannten Text verfügt!); 2. Sie markieren den kompletten Text der PDF-Datei, kopieren diesen in die Zwischenablage und fügen ihn in einen geöffneten Texteditor ein. Wird der so entstandene Neu-Text nun mit der passenden Zeichenkodierung (möglichst UTF-8) abgespeichert, ist eine Ausgangsbasis für die weitere Verarbeitung des Textes in Anwendungen, die das TXT-Format erfordern, hergestellt. Grafische Elemente oder das genaue Seitenlayout der Vorlage gehen bei beiden Vorgehensweisen allerdings verloren. (Statt in einen Editor lässt sich der markierte und kopierte PDF-Text natürlich auch in eine beliebige Textverarbeitung einfügen und dort im eigenen (oder einem anderen) Dokumentformat bzw. im Rich Text Format abspeichern.)
  • Umwandlung eines Textdokuments ins PDF-Format: Verwendet man als Textverarbeitung LibreOffice Writer, ist die Umwandlung denkbar einfach, da LibreOffice über eine eigene Exportfunktion nach PDF verfügt. Bedenkt man zudem, dass LibreOffice die verschiedensten Dateitypen öffnen kann, so ist über diese Anwendung eine generelle Möglichkeit des Transfers aus Fremdformaten ins PDF-Format gegeben. Der gängigste Weg der Umwandlung läuft allerdings über die Installation separater Tools oder Programme, die den PDF-Export bewerkstelligen. Zur Umwandlung eines geöffneten Textes rufen Sie in der Textverarbeitung die Druckfunktion auf; dort findet sich auf der Liste der Drucker auch das PDF-Tool wieder, das nun statt des Druckers gewählt werden muss. Nach Betätigen des Druck-Befehls wird das Textdokument in eine PDF-Datei umgewandelt.
  • Abspeichern von Texten im HTML-Format: Textverarbeitungen bieten den Nutzer_innen prinzipiell verschiedene Speicheroptionen, so auch die Möglichkeit, den geöffneten Text im Webseiten-Format zu speichern. Allerdings wird dabei meist auch viel überflüssiger Code produziert, der den Stilkriterien wohlgeformter HTML-Dokumente geradezu Hohn spricht. Insbesondere ist dies bei Word der Fall, LibreOffice liefert hier zwar deutlich bessere Ergebnisse, ist aber auch nicht gerade perfekt. Dave Raggetts Tool → HTML Tidy kann hier Abhilfe schaffen; von diesem freien Tool sind inzwischen auch Versionen mit grafischer Benutzerober­fläche herunterladbar. Übrigens können markierte und kopierte Texte immer auch in HTML-Editoren eingefügt und dort über die erhalten gebliebenen mehr oder minder rudimentären Formatierungsmerkmale hinaus weiter bearbeitet werden.
  • Erzeugen von PDF-Dateien aus HTML-Dokumenten: Mit Hilfe eines Tools wie → HTMLDOC lassen sich aus heruntergeladenen oder selbst edierten HTML-Dateien navigierbare PDF-Dateien (unter Erhalt der ursprünglichen Link-Struktur) generieren. Erstreckt sich ein HTML-Text über mehrere (Unter-)Seiten, stellt auch dies kein Hindernis dar. Hat man mit HTMLDOC aus HTML-Files nun ein PDF-Dokument erzeugt, lassen sich übrigens einige der Probleme, die das Drucken von Webseiten heraufbeschwören kann, relativ wirkungsvoll umgehen.

Weitere Konvertierungsmöglichkeiten:

  • Installation und Nutzung des Kommandozeilenprogramms → Pandoc: es handelt sich hierbei um einen universell intendierten Dokumentenkonverter, der Konvertierungen zwischen unterschiedlichsten Markupformaten (im weiteren Sinn), aber auch nach PDF (in dem Fall jedoch nicht andersherum) ermöglicht
  • Nutzung des Online-Konvertierungsdienstes → TEIGarage der Text Encoding Initiative: auch hier kann man zwischen verschiedenen Markupformaten hin- und herkonvertieren; zusätzlich Einbezug von Formaten aus dem Bereich Präsentation und Tabellenkalkulation

Generelle Informationen zu Dateikennzeichnungen

Copyright © 2006 / 2025 Manfred Musch
Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.3

↓ Verknüpfung

Textanker