von Thomas Salvador.
HTML steht für HyperText Markup Language.
In diesem einführenden Teil wollen wir kurz besprechen, was HTML ist und wie es prinzipiell funktioniert. Details folgen später.
HTML ist eine Dokumentbeschreibungssprache, mit der Sie die logische Struktur Ihres Dokumentes beschreiben.
Zur logischen Struktur gehören etwa Überschriften, Listen u.ä. Dies geschieht in HTML plattformunabhängig, was erfordert, dass die Dokumente selbst plattformunabhängig sind. HTML baut auf dem Zeichensatz ISO-Latin-1 auf. Wie wir sehen werden, entsprechen die ersten 128 Zeichen des 256 Zeichen starken Satzes ISO-Latin-1 dem auf vielen Maschinen verbreiteten ASCII. Die eigentliche Struktur des Dokumentes wird mit Tags ausgedrückt.
HTML steht, wie erwähnt, für HyperText Markup Language.
Was heißt das?
Hypertext bezeichnet eine bestimmte Darstellungsweise von Dokumenten.
Sie wissen, dass man sich im WWW über Verweise, sog. HyperLinks, Hypertext Links oder kurz Links genannt, bewegt. Mit solchen Verweisen ausgestattete Dokumente lassen sich (leichter) interaktiv lesen, weil man Links folgen kann oder auch nicht.
Der vom Buch bekannte lineare Lesefluss von vorne nach hinten wird aufgebrochen, und die von dort bekannten Verweise werden verallgemeinert und optimiert.
Bei der direkten Nutzung im Netz hat dies noch den Vorteil, dass das eigentliche Dokument in mehrere Teile zerlegt werden kann. D.h., dass der Leser stets nur das laden muss, was gerade interessant ist. Die Zerlegung eines Dokumentes in Teile ist nicht immer eine leichte Aufgabe.
Markup bezeichnet die Art und Weise, in der die Dokumente beschrieben werden, nämlich durch Markierung.
Diese Markierung geschieht mit sog. Tags und ordnet Bereichen des Dokumentes eine logische Bedeutung zu.
Eine logische Bedeutung eines Textbereiches ist etwa: dies ist eine Überschrift, das ist ein Zitat, jenes ist ein Verweis und das ist wichtig, soll entsprechend hervorgehoben werden.
Language verdeutlicht, dass es sich bei HTML um eine Sprache handelt, die wie jede Sprache eine gewisse Syntax hat.
Die Syntax beschreibt, wie etwas ausgedrückt wird. Dabei kann man Language in der Tat wörtlich nehmen, denn die HTML-Datei (der Quellcode, Sourcecode) wird vom Browser (Compiler, Transpiler) in eine andere Darstellung (die im Browser schließlich angezeigte) übersetzt.
Dies geschieht dann plattformabhängig, da zum Beispiel in rein-textuellen Systemen so etwas wie kursive oder größere Schrift ggf. nicht verfügbar ist.
Die Betonung des Titel dieser Artikelreihe liegt auf "Einsteiger". D.h., Sie werden zahlreiche Beispiele finden, ebenso wie Begründungen, warum etwas ist, wie es ist, und warum es so günstig ist. Auch werden Sie mit einigen Tipps und Meinungen des Autors "konfrontiert".
Dies wäre sicher nicht der Fall bei einer HTML-Referenz.
Als Voraussetzung muss der Leser dementsprechend eigentlich nur das notwendige Interesse mitbringen. D.h. nach Meinung des Autors sollte das Dokument selbst für völlige Neulinge geeignet sein.
Lesern, die schon einige Erfahrungen mit HTML haben, ist die Möglichkeit gegeben, das ein oder andere anders beschrieben und mit den erwähnten Bemerkungen versehen zu lesen, und hier und da ggf. nützliche Erweiterungen kennenzulernen.
Da dieses Dokument selbst in HTML verfaßt wurde, benötigen Sie nur Ihren (bevorzugten) Browser, der nach Möglichkeit dem Standard gehorchen sollte, und Ihren Lieblings-Text-Editor.
Es wird ausgesprochen sparsam mit Grafiken umgegangen. Es genügt daher auch ein nicht-grafischer Browser.
"Welchen Texteditor Sie nehmen sollen?"
Ihren Lieblingseditor.
Grafisch oder nicht, auf welcher Plattform auch immer (DOS, Windows, UNIX,..), völlig egal.
Notepad ist vielleicht nicht sehr komfortabel, genügt aber vollkommen.
HTML ist eine Dokumentbeschreibungssprache mit der die (logische) Struktur des Dokuments beschrieben wird. Sie ist dadurch plattformunabhängig, d.h. das Dokument kann auf den verschiedensten Rechnern und Betriebssystemen (na ja – zumindest theoretisch) dargestellt werden, auf denen ein HTML-Browser zur Verfügung steht.
Zur logischen Struktur gehören beispielsweise Überschriften, Absätze, Aufzählungen, usw. und im Falle von HTML freilich auch Referenzen auf andere Dokumente bzw. auf andere Stellen im selben Dokument (Querverweise).
Es wird nicht festgelegt, wie es dargestellt werden soll. Nur so kann garantiert werden, dass die Dokumente selbst plattformunabhängig sind, also auf Rechnern jeden Typs prinzipiell ohne Informationsverlust dargestellt werden können.
Plattformabhängig sind trivialerweise die darstellenden Programme, die sogenannten HTML-Browser. Und genau daran muss ein HTML-Autor auch denken, wenn er sicherstellen will, dass seine Dokumente tatsächlich auch von jedem gelesen werden können.
Jeder Leser benutzt möglicherweise andere Zeichensätze, sei es, weil es nicht anders geht (z.B. bei Browser, die im Textmodus arbeiten) oder weil jeder seinen Browser mehr oder weniger nach seinen persönlichen Vorlieben konfiguriert hat.
Im Textmodus arbeitende Browser verwenden Ersatzdarstellungen für Grafiken, Links oder andere Gestaltungselemente, weshalb Gestaltungselemente nur nach ihrer logischen Bedeutung eingesetzt werden sollten. Bspw. steht es Browsern frei, wie sie Überschriften darstellen.
HTML ist nicht dafür vorgesehen, Informationen zur exakten Darstellungsweise zu transportieren. Sie können sich daher nicht auf punktgenaue Replikation ihrer Dokumente verlassen.
Das fängt bei unterschiedlichen Auflösungen und unterschiedlichen Zeichensätzen an, geht über die unterschiedliche Hintergrundfarben oder der Unverfügbarkeit von Farben und hört bei der Nicht-Darstellbarkeit von Grafiken auf. Wer dies benötigt ist mit Postscript oder PDF (beides von Adobe) besser beraten.
Plattformunabhängige Dokumente erfordern nicht nur eine plattformunabhängige Beschreibung, sondern müssen selbst in Dateien geliefert werden, die plattformunabhängig sind.
HTML-Dokumente werden daher in ISO-Latin-1-Dateien beschrieben und transportiert, einem 256 Zeichen umfassenden Satz, dessen erste 128 Zeichen dem ASCII-Zeichensatz entsprechen. Für deutsche Texte heißt dies insbesondere, dass Umlaute u.ä. sowie einige Sonderzeichen nicht direkt in HTML-Dateien verwendet werden können (da diese in der Erweiterung zum ASCII liegen).
Schließlich brauchen wir noch eine Möglichkeit, die Struktur selbst zu beschreiben. Dies geschieht in HTML mit sog. Tags und Attributen, deren Form und Verwendung wir nun besprechen wollen.
Die Beschreibung der logischen Struktur der Dokumente erfolgt in HTML mit Hilfe von sogenannten Tags. Die allgemeine Syntax lautet
<ID [Attribute]> ... </ID>
Dabei ist ID der Name des Tags. Einige Tags können durch weitere Angaben, sog. Attribute, genauer spezifiziert werden. Groß- und Kleinschreibung werden bei Tags ignoriert, d.h. tag, TAG oder auch tAg meinen alle dasselbe.
Der Text, auf den sich der Tag beziehen soll, wird durch den Starttag (<ID>) und den entsprechenden Endtag (</ID>) eingeschlossen.
Somit kann <ID> ... </ID> als Block bezeichnet werden.
Ich empfehle Ihnen dringend, sich daran zu gewöhnen, Tags vollständig klein zu schreiben. Während HTML die Schreibweise egal ist, erwartet XML, dass Tags klein geschrieben werden. Es ist daher gut, wenn Sie sich von Anfang an daran gewöhnen. Abgesehen davon, tippt es sich schneller.
Einige wenige Tags, wie z.B. der erzwungene Zeilenumbruch kommen ohne Endtag aus, bei einigen anderen sind sie mehr oder weniger optional, d.h. viele Browser verkraften das Fehlen der Endtags.
Tags können geschachtelt werden, solange die Blockeigenschaft beachtet wird, d.h. weitere innen liegende Tags müssen beendet sein, bevor ein äußerer beendet werden kann. Erlaubt wäre z.B.
<tag1> ... <tag2> ... </tag2> ... </tag1>
Nicht erlaubt wäre z.B.
<tag1> ... <tag2> ... </tag1> ... </tag2>
da hier der innere Tag (tag2) bei Schließung des äußeren (tag1) noch offen ist.
Benutzt man die Anschauung mit den Blöcken, so kann man hier Parallelen zu den meisten block-orientierten Programmiersprachen, wie etwa PASCAL, ziehen. Starttag wäre hier begin, Endtag end.
Nicht bekannte Tags werden vom Browser normalerweise einfach ignoriert. Dies hat den Sinn, dass von einem Browser nicht unterstützte Formatierungselemente nicht zu einem vollen Verlust der (gekapselten) Daten führen, sondern nur zu einem Verlust der Formatierung. Gleiches gilt auch für nicht unterstützte Attribute.
Attribute können in beliebiger Reihenfolge angegeben werden. Manche Attribute dienen als Flag, d.h. sie bedeuten, dass etwa etwas an- oder abgeschaltet wird, andere als Variable, die einen Wert erhält. Die folgenden beiden Tags sind gleichwertig:
<TAG attrA="attrA" attrB="wertB" attrC="wertC"> <TAG attrC="wertC" attrA="attrA" attrB="wertB">
Dabei ist attrA ein Flag, die beiden andere sind Variablen. In den Anfangszeiten genügte es bei Flags nur den Namen zu nennen, um es zu aktivieren. Später ging man jedoch dazu über, stets eine Wertzuweisung zu fordern. Verbreitet hat sich der Ansatz, den eigenen Namen zuzuweisen, da der Wert keinerlei Bedeutung hat. Aus flag wurde flag="flag".
Schließen Sie die Werte in Anführungsstrichen ein.