Katalog archivischer Dateiformate Version 5.0, Juli 2016

HTML


Kategorie

Text, Hypertextdaten

Abkürzungen

HTML
.html und .htm
text/html und application/xhtml+xml
fmt/96, fmt/97, fmt/98, fmt/99, fmt/100, fmt/102, fmt/103

Titel

Hypertext Markup Language
Hypertext-Auszeichnungssprache

Versionen

HTML 2.0 ist die erste vom World Wide Web Consortium (W3C) 1995 formal spezifizierte Version, anschliessende Hauptversionen sind 3.2 und 4.0. Erweitert wurden sie 2002 durch XHTML, nach einer längeren Entwicklungspause abgelöst Ende 2014 durch HTML5.

Beschreibung

HTML ist eine textbasierte Auszeichnungssprache zur Strukturierung digitaler Dokumente. HTML verwendet mehr oder weniger sprechende Tags zur semantischen Strukturierung, die genaue Formatierung der Auszeichnung bleibt der Anzeigesoftware (Browser) und der Gestaltungsvorlage (CSS) überlassen. Neben der Strukturierung können weiterführende Links, Metadaten und Bilder eingebettet werden. HTML ist eine vereinfachte Form der Auszeichnungsspreche SGML, speziell für das World Wide Web entwickelt.

Bewertung



Offenheit 4

Die HTML-Spezifikation wird durch das World Wide Web Consortium (W3C) verwaltet und weiterentwickelt.

Lizenzfreiheit 4

Es existieren soweit bekannt keine Patente zu HTML.
Es gab aber mehrere Versuche, Markup Languages als solche und den Hypertextmechanismus als Ganzes zu patentieren, siehe https://en.wikipedia.org/wiki/Eolas.

Verbreitung 4

Das Format ist durch das World Wide Web eines der verbreitetsten der Informatik.

Funktionalitaet 2

Die Hypertextdaten-Funktionalität wird von HTML vollumfänglich abgedeckt. Die Trennung von Semantik und Form hingegen hat im Laufe der Zeit an Bedeutung verloren, obwohl mit der Trennung HTML/CSS eine klare Regelung gegeben wäre. Viele Webseiten fokussieren auf die graphische Darstellung im Browserfenster.

Implementierung 4

Es existieren mehrere technisch voneinander unabhängige Browserimplementierungen für HTML 2.0 bis 4.1.

Speicherdichte 2

Die Speicherdichte ist durch die Verwendung von redundanten Tags nicht sehr hoch.

Verifizierbarkeit 2

Bei neueren HTML-Versionen sind sowohl die Version wie auch die Zeichenkodierung aus Dateiheader und Metadaten ersichtlich. Ältere Versionen sind in dieser Hinsicht unzuverlässig. Es existiert eine Vielzahl von HTML-Validatoren, bedingt durch die hohe Fehlertoleranz der meisten Browser existiert aber auch sehr viel fehlerhafter HTML-Code.

Best Practice 1

HTML wird eigentlich nicht als Archivformat empfohlen und benutzt.

Perspektive 1

Ein Entwicklungspotential Richtung archivtaugliches Format besteht allenfalls bei HTML5.

Formatklasse A

Es handelt sich um eines der älteren Formate der Informatik.


Fazit

Bedingt durch die Trennung von inhaltlicher Struktur und formaler Darstellung würde das Format eigentlich grundlegende Bedürfnisse der digitalen Archivierung erfüllen, da damit eine Archivierung unabhängig von der Entwicklung der darstellenden Software gegeben wäre. Leider hat die rasante Entwicklung der Browsertechnologie das Format fortwährend verändert, und es hat sich gezeigt, dass viele Webseiten nur bei korrekter graphischer Darstellung inhaltlich verständlich sind. Das heisst, dass die Abwärtskompatibilität der Browser heute weitgehend Garant dafür ist, dass wir ältere Webseiten noch in ihrer ursprünglichen Erscheinungsform betrachten und deren Inhalt verstehen können.
Die Notwendigkeit, zu jeder HTML-Seite externe Ressourcen gesondert mitzuarchivieren, wirkt sich sehr negativ aus und hat zu Containerformaten für HTML-Seiten wie MHTML, ARC und WARC geführt.

Referenz

Hypertext Markup Language - 2.0, September 22, 1995
http://www.w3.org/MarkUp/html-spec/html-spec_toc.html
HTML 3.2 Reference Specification, W3C Recommendation 14-Jan-1997
http://www.w3.org/TR/REC-html32
HTML 4.01 Specification, W3C Recommendation 24 December 1999
http://www.w3.org/TR/html4/
XHTML™ 1.0 The Extensible HyperText Markup Language (Second Edition), A Reformulation of HTML 4 in XML 1.0, W3C Recommendation 26 January 2000, revised 1 August 2002
http://www.w3.org/TR/xhtml1/

Literatur

Ian S. Graham "The HTML SourceBook" New York, 1995
Rainer Klute "Das World Wide Web" Bonn Addison-Wesley, 1996
Erik Wilde "World Wide Web, Technische Grundlagen" Berlin Heidelberg, 1999

Verbindungen

HTML5
MHTML
last update: claire.roethlisberger - Mon, 04 Jul 2016 [15:32:59]
Copyright © by Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen
Copyright © by Centre de coordination pour l'archivage à long terme de documents électroniques