nadir selbst aktuell | periodika | archiv | netz | initiativ | suche

Wörtersee

Wissenswertes über Text im ASCII-Format

ASCII steht für American Standard Code for Information Interchange. Dies ist ein reines Buchstabenformat, Layout ist nur rudimentär in Form von Einrückungen, Unterstreichungen etc möglich. Dieses Format ist das Standardformat, um Text ueber Computernetze, via News oder Mail, zu verbreiten. Es stellt sozusagen einen Minimalkonsens dar, den nahezu alle Textverarbeitungssysteme erzeugen und verarbeiten können.

Da die in einschlägigen Kreisen beliebte Firma Microsoft, deren Produkte gerade in unbedarfteren Zusammenhängen merkwürdigerweise Verbreitung gefunden haben, jeglichen Versuch der Standartisierung als einen Angriff auf Ihr Firmenvermögen ansieht (mensch könnte ja ohne ihre Produkte auskommen, eines Tages), bannt sie Standards selbst in der Sprache und nennt ASCII-Text "Nur-Text" oder auch "Text mit Zeilenumbrüchen" oder auch, je nach Tagesstimmung oder Programmversion, "Dos-Text". Das stiftet hier und da etwas Verwirrung, da wie gesagt viel mit Microsoft-Produkten ("MS-DOS", "Windows", "Word" etc) gearbeitet wird - aber auch in diesen Programmen gibt es immer eine Möglichkeit, ASCII-Text zu exportieren (mensch muss sie nur finden :( ).

Das generellere Problem mit ASCII ist, daß Layout und Text nicht logisch voneinander getrennt sind (Interessierten sei hier die Beschäftigung mit SGML ans Herz gelegt). Da es keine unterschiedlichen Schriftgrößen gibt, werden, wie bei Großmutter auf der Schreibmaschine, die Textzeichen "_", "=", oder, je nach Tagesform des Schreibenden auch "-" verwendet. Da sich ASCII-Text nicht automatisch der Größe des Bildschirmes / Textfensters anpasst, ist es meist in nicht- 80x25-Fenstern nicht lesbar, und es werden abwechselnd Tabulatorzeichen (die natürlich wieder auf jedem Rechner anders eingestellt sind) oder Leerzeichen zum Einrücken benutzt. Zudem werden Worttrennungen mit dem Zeichen "-" am Ende einer Zeile formuliert usw. usf.

Alle diese Mechanismen formulieren Layoutvorgaben uncodiert im Text und nicht in einer Metasprache und sind daher beim Weiterverarbeiten nicht mehr vom Text zu trennen. Zudem variiereren sie je nach Autor und verwendetem Betriebssystem. Alles in allem keine wirklich gute Idee - aber besser als gar nichts.

Es gibt folgende Unterarten von ASCII:

Der vernünftigste Charset, den mensch verwenden kann, und gleichzeitig der einzige, in dem ASCII-Texte im Archiv landen dürfen, heißt ISO-Latin1 oder auch ISO-8859-1. Dieser Zeichensatz ist die Referenz und sollte eingentlich nur noch verwendet werden. Auf den Unixmaschinen, auf denen das Archiv läuft, ist dieser Zeichensatz auch problemlos darstellbar. Merkwürdigerweise benutzt selbst MS-Windows diesen Zeichensatz (Todlustigerweise lassen sich also Windows-Texte nicht unter MS-DOS lesen). Text im ISO-Latin1-Zeichensatz können auch über das World-Wide-Web transportiert und mit WWW-Browsern dargestellt werden, deshalb sind solche Texte auch im Archiv "zugelassen".

MIME-codiertes ASCII

MIME ist ein Standard, um ASCII-Text in verschiedenen Zeichensätzen im Netz auszutauschen. MIME basiert im Wesentlichen darauf, entweder bei jedem Text dazuzuschreiben, in welchem Zeichensatz er codiert ist, oder die Sonderzeichen zu ersetzen und auch das oben drüberzuschreiben. Details dazu stehen in den entsprechenden RFCs (RFC 1521 und RFC 1522). Für die EndanwenderIn ist nur interessant, daß sich, wer ein MIME-fähiges Mailprogramm besitzt, um Zeichensatzprobleme beim Transport nicht mehr zu kümmern braucht - alles sollte automatisch geschehen und alle 8 Bits können benutzt werden. Mailprogramme wie Eudora oder Elm koennen MIME-Mails versenden, und diese können direkt an die Archiv-Mailadresse geschickt werden.


Zurück zur Material-Seite