Search the FAQ Archives

3 - A - B - C - D - E - F - G - H - I - J - K - L - M
N - O - P - Q - R - S - T - U - V - W - X - Y - Z
faqs.org - Internet FAQ Archives

Umlaute im deutschsprachigen Usenet FAQ


[ Usenet FAQs | Web FAQs | Documents | RFC Index | Forum ]
Archive-name: de-usenet-umlaute
Version: 1.16
Last-modified: Thu, 12 Feb 98
Posting-Frequency: monthly

See reader questions & answers on this topic! - Help others by sharing your knowledge
{
    This article is written in German and explains how to read/write
    (not only) German Umlaut characters using ISO 8859-1 and MIME in
    the German Usenet hierarchy de.*
}

Hallo Leute!

Dieser Artikel ist ein Umlaute-FAQ fuer das deutschsprachige Usenet
und wird in "de.comp.standards", "de.answers" und "news.answers"
veroeffentlicht.

Bitte schickt saemtliche Anregungen an

	umlaute@live.robin.de (Kosta Kostis)

damit dieser Text schrittweise verbessert werden kann.

Die aktuelle Version des FAQ findet man ab sofort unter

	http://www.kostis.net/de/faq/umlaute/

Vielen Dank fuer wertvolle Hinweise an:

  Joachim Astel, Heiko Bobzin, Carsten Bormann, Lothar Borrmann,
  Karl Brodowsky, Tilman Burmester, Roman Czyborra, Andr Deparade,
  Lutz Donnerhacke, Hans-Ch. Eckert, Hans Fischer, Helmut Fromberger,
  Andreas Heidemann, Ulli Horlacher, Robert Joop, Wolfgang Keller,
  Ulrich Klauer, Klaus Kretschel, Markus Kuhn, Martin v. Loewis,
  Peter Mandrella, Gerold Meerkoetter, Ulrich Mueller, Thilo Pfennig,
  Christian Schaefer, Heiko Schlichting, Martin, Sojka, Michael Staats,
  Wolfgang Strobl, Maximilian Vogt, Christian Weisgerber,
  Lueko Willms, Dr. Klaus Wolferts, Wolfgang Zenker

Sollten weitere Leute Mails an mich geschickt haben, so sind diese
leider verloren gegangen bzw. in meinem Mail-Durcheinander "verschuett"
gegangen, sorry. Meldet euch einfach ggf. nochmal. :)

Aus gegebenem Anlass bitte ich um Verstaendnis dafuer, dass nicht jeder
Hinweis gleich in den FAQ hereinkommen kann. Ich verdiene mein Geld
nun mal nicht mit dem Erstellen und Warten von FAQs und ich habe noch
andere Hobbies. Also: bitte etwas Geduld oder Freiwillige vor!  :)

Weiterhin sind nicht alle Informationen auf meinem Mist gewachsen.
Ich bin bei manchen Details also 100% abhaengig von der Zuverlaessigkeit
der Beitraege. Damit sind alle Angaben ohne Gewaehr. Der Rechtsweg ist
ausgeschlossen.  =;^)

===========================================================================
Umlaute im deutschsprachigen Teil des Usenet
===========================================================================

Inhaltsverzeichnis:

Kapitel   Bezeichnung

    1.    Intro
    2.    Zeichenkodierungen
    3.    MIME-Header
    4.    Einstellungen fuer ISO 8859-1 und MIME

Anhang    Bezeichnung

    D.    Definitionen
    F.    ISO 8859 Fonts
    G.    ISO 8859-1 Gueltigkeitsbereiche
    P.    ISO 8859-1 Peripherie etc.
    T.    ISO 8859 Tools zur Konvertierung von Zeichenkodierungen
    V.    Verschiedene Informationsquellen zu Zeichenkodierungen
    Z.    Zeichenkodierungsbeschreibung von ISO 8859-1 (Kodes A0 bis FF)

===========================================================================
1. Intro
===========================================================================

Dieser Artikel ist fuer diejenigen gedacht, die wissen moechten, wie sie
an die nach ISO 8859-1 kodierten Umlaute (und andere) Zeichen in News
kommen. Er soll beschreiben, was moeglich ist und nicht diskutieren, ob
alle damit "gluecklich" werden, ausser vielleicht:

Niemand sollte "angemacht" werden wegen der Verwendung von Umschreibungen
fuer Umlaute wie z. B. "ae". Aehnliches gilt fuer die TeX-Schreibweise.
Genauso sollte aber auch niemand "angemacht" werden wegen der Verwendung
von RFC-2045-2049 konformen Zeichen nach ISO 8859-1 kodiert mit
entsprechenden MIME-Headerzeilen.

Der obige Satz ist ein Aufruf zur Toleranz und kein Freibrief. Es
sollte eine einheitliche Verwendung angestrebt werden, die in der
ersten Naeherung ISO 8859-1 als Kodierung und die entsprechenden
MIME-Headerzeilen verwendet.

Dieser Artikel kann und will nicht beschreiben, wie jedes Geraet
auf ISO 8859-1 umgestellt wird (z. B. Drucker).

Um die Zielgruppe auch erreichen zu koennen, wurde dieser Artikel, bis
auf die Zeichentabelle im Anhang Z, konvertiert (d. h. die Umlaute
wurden "expandiert"). Das verwendete Programm entspricht im
wesentlichen dem Programm "iso2asc", das spaeter noch einmal
angesprochen wird.

Nach Moeglichkeit sollte sich jeder Betreiber eines Usenet-Knotens mit
deutschsprachigen Benutzern bemuehen, dass Texte per MIME/ISO 8859-1
korrekt dargestellt werden (zur Not kann auf alten Terminals auch auf
eine Ersatzdarstellung konvertiert werden). Weniger dringend, aber
ebenfalls wuenschenswert, ist die Moeglichkeit zur Eingabe von Zeichen
ausserhalb der US-ASCII-Zeichenkodierung, wie z. B. Umlaute.

Der Usenet-Standard zur 8-bit-Kodierung in den deutschsprachigen
Gruppen de.* ist ISO 8859-1 (vgl. dazu RFC-2045-2049).

Gateways sollten beim Uebergang in das Usenet entsprechende
Zeichenkodierungskonvertierungen vornehmen und entsprechende Header
verwenden. Das wird bei einigen Gateways bereits getan (z. B.
beim MausNet, einem deutschsprachigem Mailboxnetz).

Wer Fragen zu Umlauten im Usenet diskutieren moechte, moege das bitte
in der Gruppe de.comp.standards tun. Diese Gruppe wurde nach einigen
unschoenen Fehden 1992 unter anderem genau dafuer eingerichtet.  ;)

In anderen News-Hierarchien werden 8-bit-Zeichenkodierungen bereits seit
langer Zeit erfolgreich eingesetzt, wie z. B. koi8-r in den relcom-Gruppen.
Dort werden allerdings keine MIME-Header verwendet und bisher auch sonst
kein besonderer Wert auf Kompatibilitaet gelegt.

===========================================================================
2.  Zeichenkodierungen
===========================================================================

===========================================================================
2.1  Geschichte der Zeichenkodierungen
===========================================================================

Ich bin mir bewusst, dass diese Auflistung sowohl unvollstaendig als auch
einigermassen willkuerlich ist - man moege mir das nachsehen.

Ende April 1965 wurde ECMA-6 verabschiedet. ECMA-6 ist die 7-bit
Zeichenkodierung, die auch als US-ASCII oder auch als ISO 646 bzw.
als DIN 66003 (Juni 1974) bekannt und weit verbreitet ist.
(Eigentlich sollte man denken, dass der US-ASCII auch aus den USA
stammt, jedoch ist mir keine US-amerikanische Quelle bekannt, die
aelter als April 1965 ist - kann das sein?)

Mit der Zeit wurde den EDV-Treibenden das Umschreiben von Umlauten
zu laestig  ;)  und sie entwarfen nationale Varianten von ISO 646.
Das fuehrte dazu, dass man sich z. B. in Deutschland zwischen Umlauten
und eckigen sowie geschweiften Klammern entscheiden musste oder mit
Escape-Sequenzen arbeiten.

Bekannte Terminals, die ISO 646 als Zeichenkodierung verwendet haben:

	DEC VT52, DEC VT100

Im Jahre 1981 kam der IBM PC mit einer 8-bit Zeichenkodierung heraus.
Leider schienen die Entwickler bei der Reihenfolge der Zeichen
gewuerfelt zu haben. Das Ergebnis: die IBM Codepage 437.

Im Jahre 1982 wurden die ersten DEC VT220 und VT240 auf den
Markt gebracht, die einen Vorlaeufer von ISO 8859-1 im Einsatz
hatten: DEC MCS (DEC Multinational Character Set).

Im Jahre 1985 kam der Commodore Amiga auf den Markt, der bereits
damals im wesentlichen ISO 8859-1 verwendet hat. Microsoft Windows
erblickte 1984 das Licht der Welt und war auch mit einer Kodierung
ausgestattet, die im wesentlichen ISO 8859-1 entspricht.

Im Maerz 1985 wurde ECMA-94 verabschiedet. Dieser Standard ist
auch als ISO 8859-1 bis ISO 8859-4 bekannt. ISO 8859-1 wurde 1987
verabschiedet. Die Europaeer waren mehr als 2 Jahre voraus.  ;)

Im Jahre 1987 kam MS-DOS 3.3 auf den Markt und damit die
IBM Codepage 850. Diese Codepage enthaelt saemtliche Zeichen,
die auch in ISO 8859-1 vorkommen, allerdings in einer anderen
Reihenfolge, so dass eine verlustfreie Konvertierung moeglich wurde.

Andere Rechner haben wieder andere Zeichenkodierungen, die sich aber
im Zweifel mit geringen Aufwand von/nach ISO 8859-1 wandeln lassen.

===========================================================================
2.2  Warum ISO 8859-1?
===========================================================================

Vorteile von ISO 8859-1 gegenueber anderen 8-bit-Zeichenkodierungen:

   - ISO 8859-1 ist eine herstellerunabhaengige internationale Norm.
   - Viele Hersteller unterstuetzen mittlerweile ISO 8859-1.
   - Es gibt eine Fuelle von Konvertern von/nach ISO 8859-1.
   - RFC-2045-2049 (MIME) unterstuetzt ISO 8859-1.
   - ISO 8859 ist so konzipiert, dass Zeichen im Bereich 0x80 bis 0x9F
     nicht vorkommen duerfen bzw. sie sind nicht durch druckbare Zeichen
     belegt. Das ist besonders in einem so heterogenen Netz wie dem Usenet
     wichtig, da dieser Bereich bei 8-bit Terminals (z. B. DEC VT3xx) fuer
     Steuerzeichen vorgesehen ist. Wird beim einem ISO 8859 Zeichen das
     hoechstwertige Bit "abgeschnitten", so entsteht ein darstellbares
     US-ASCII Zeichen.

     Sobald ISO/IEC 10646-1 und UTF-8 (siehe unten) eingefuehrt werden und
     Verbreitung finden, wird dieses Argument allerdings an Bedeutung
     verlieren. Fuer UTF-8 werden die Kodes zwischen 0x80 und 0x9F
     benoetigt. Es ist daher sinnvoll, News-Software auf Dauer auf diese
     Tatsache einzustellen.

   - MS-DOS Codepages, Apple Mac Zeichenkodierungen und auch der NeXTSTEP
     Encoding Vector verwenden leider Kodes im Bereich 0x80 bis 0x9F.
     Das ist, wie gesagt, zum aktuellen Zeitpunkt nicht vorteilhaft.
     
Die Anzahl der zu unterstuetzenden Kodierungen sollte man aus technischen
Gruenden ohnehin moeglichst gering halten, um die Komplexitaet der Programme
nicht auch noch durch aufwendige Konverter zu ueberfrachten. Es ist schon
muehselig genug, von den "Hauszeichenkodierungen" in die von RFC-2045-2049
genannten Zeichenkodierungen konvertieren zu koennen.

Allgemeine Einschraenkungen von ISO 8859-1 als 8-bit-Zeichenkodierung:

Diese Zeichenkodierung deckt zwar die wichtigsten Zeichen, die auf den
Schreibmaschinen fuer ueber 14 (hauptsaechlich westeuropaeische) Sprachen
zu finden sind, aber als langfristige, weltweit akzeptable Zeichenkodierung
ist ISO 8859-1 ungeeignet, da z. B. nicht mal alle europaeischen Sprachen
abgedeckt werden. Ausserdem fehlen auch fuer deutschsprachige Benutzer viele
Zeichen, wie sie etwa im wissenschaftlichen Bereich sehr wuenschenswert
waeren (z. B. deutsche Anfuehrungszeichen, mathematische Symbole, usw.).

In anderen Laendern koennen auch andere Zeichenkodierungen von Interesse
sein, so z. B. ISO 8859-2 fuer Tschechien und Polen etc. oder ISO 8859-7
fuer Griechenland. Die Russen bevorzugen koi8-r und nicht ISO 8859-5. Hier
wurde wohl am "Markt" vorbei genormt. Dies aber nur am Rande zur Info.

Es sei vermerkt, dass ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-9
und ISO 8859-10 die fuer Deutsch notwendigen Umlaute nicht nur
beinhalten, sondern vor allen Dingen mit den gleichen Kodes.
Wer also osteuropaeische Texte genauso lesen koennen moechte wie
deutsche, dem sei ISO 8859-2 empfohlen. ISO 8859-9 fuer Leute, die
tuerkische und deutsche Texte lesen koennen wollen.

Auf lange Sicht:

Als langfristige Loesung bietet sich ISO/IEC 10646-1/Unicode 2.0 an.
Entwickler von Usenet-Software sollten sich mit dieser Alternative
vertraut machen, insbesondere mit der UTF-8 Kodierung, die fuer das
Usenet besonders geeignet erscheint, da ASCII-Texte ohne Veraenderung
dargestellt werden koennen.

Weitere Informationen zum Thema ISO/IEC 10646-1:1993 und UTF-8 finden
Entwickler und andere Interessierte in Anhang V.

===========================================================================
3.   MIME-Header
===========================================================================

RFC-2045-2049 beschreibt die Multipurpose Internet Mail Extensions,
auch als MIME bekannt. Nach MIME ist ISO 8859-1 eine gueltige
Zeichenkodierung. Dieser muss allerdings den Mail- und News-Readern
angezeigt werden. Zu diesem Zweck gibt es entsprechende MIME
Header-Zeilen:

        MIME-Version: 1.0
        Content-Type: text/plain; charset=ISO-8859-1
        Content-Transfer-Encoding: 8bit

Diese Header-Zeilen sind fuer MIME-kompatible Software wichtig
und beschreiben die im Message Body verwendete Kodierung.
Wer ISO 8859-1 Zeichen ohne diese Header verschickt, ist durch
RFC-2045-2049 nicht sanktioniert.

Wer auf Umlaute etc. auch in den Header-Zeilen nicht verzichten
moechte, der sollte sich RFC-2045-2049 zu diesem Thema anschauen und
sich ueberlegen, ob er/sie das dann immer noch will...  ;)

8-bit-Zeichen in den Header-Zeilen haben in der Vergangenheit immer
wieder zu Problemen gefuehrt. Manche Antik-Software soll sogar ob
dieser Zeichen einfach abstuerzen. Also nie ohne Kodierung verwenden.

===========================================================================
4.   Einstellungen fuer ISO 8859-1 und MIME
===========================================================================

Folgende Tips entstammen zu einem gewissen Teil dem Umlaute-FAQ
ftp://ftp.cs.tu-berlin.de/projects/umlaute/install. Weitere Tips habe
ich u. a. vielen Postings in diversen Gruppen entnommen. Eine
Nennung der einzelnen Personen ist dabei leider nicht mehr moeglich.
Trotzdem vielen Dank an alle!

In diesem Kapitel sind wohl noch die groessten Luecken.
Bitte schickt mir was immer ihr zu diesem Thema beitragen
koennt, damit dieses Teil moeglichst vielen Leuten hilft.

Die Reihenfolge der genannten Plattformen ist alphabetisch...

---------------------------------------------------------------------------
4.1  Acorn RISC OS
---------------------------------------------------------------------------

Einer der Standard-Zeichenkodierungen ist ISO 8859-1.
Eine Zeichenkonvertierung ist daher nicht notwendig.

---------------------------------------------------------------------------
4.2  Amiga OS
---------------------------------------------------------------------------

Die Standard-Zeichenkodierung ist ISO 8859-1.
Eine Zeichenkonvertierung ist daher nicht notwendig.

---------------------------------------------------------------------------
4.3  Apple Macintosh (System 7)
---------------------------------------------------------------------------

Die Zeichenkodierunge Apple Roman ist von der Zeichenmenge weitgehend
identisch mit ISO 8859-1, jedoch ist eine andere Kodierung vorhanden.
Konverter lassen sich leicht mit den in Anhang T genannten Tools erzeugen.
Software wie Eudora und Iride unterstuetzen MIME. News-Reader wie Newswatcher
unterstuetzen ISO 8859-1, rnMac und TheNews arbeiten unter Verwendung
von funktionierenden XLATS Resourcen, welche man auf dem FTP-Server
ftp.uni-passau.de im Mac Archiv findet. Weitere Mac-Software, die MIME
unterstuetzt: Claris Emailer, MacSOUP (Newsreader).

---------------------------------------------------------------------------
4.4  Atari (GEM)
---------------------------------------------------------------------------

Die Zeichenkodierungen des Atari ist weitgehend identisch mit der IBM
Codepage 437. Siehe PC. Konverter lassen sich leicht mit den in Anhang T
genannten Tools erzeugen. Die gaengige Usenet Software fuer den Atari
nimmt diese Konvertierung bereits automatisch vor (z. B. HERMES).

---------------------------------------------------------------------------
4.5  NeXTSTEP
---------------------------------------------------------------------------

Der NeXTSTEP Encoding Vector ist von der Zeichenmenge her weitgehend
identisch mit ISO 8859-1, jedoch ist eine andere Kodierung vorhanden.
Konverter lassen sich leicht mit den in Anhang T genannten Tools erzeugen.
NeXTSTEP ist in diesem Zusammenhang als U*IX-Derivat zu betrachten.

Ansonsten laesst sich die ISO 8859-1 Darstellung wie folgt erreichen:

    Einloggen via rlogin -8
    stty pass8
    stty pass8out

---------------------------------------------------------------------------
4.6  PC
---------------------------------------------------------------------------

PC sind in der Regel mit folgenden Video-Karten bestueckt:

MDA, HGC, CGA, EGA und VGA. Die Standard-Zeichenkodierung fuer diese
Videoadapter ist IBM Codepage 437. Diese Zeichenkodierung umfasst
US-ASCII, die fuer einige europaeische Sprachen notwendigen Zeichen,
Rahmenzeichen und einiges mehr.

Bei EGA und VGA lassen sich andere Zeichenkodierungen nachladen, was durch
manche Betriebssysteme unterstuetzt wird und durch andere leider nicht.

---------------------------------------------------------------------------
4.6.1  PC unter Coherent 3.x, 4.x
---------------------------------------------------------------------------

Coherent unterstuetzt 8-bit und die IBM Codepage 437 generell.
Fuer Coherent 4.2 gibt es optional X11.
Coherent ist in diesem Zusammenhang als U*IX-Derivat zu betrachten.

---------------------------------------------------------------------------
4.6.2  PC unter Linux
---------------------------------------------------------------------------

Linux unterstuetzt im Console-Betrieb ISO 8859-1 in der Form,
dass Linux die in der IBM Codepage 437 vorhandenen Zeichen auf
ISO 8859-1 abbildet und umgekehrt. Es gibt auch die Moeglichkeit
Fonts zu laden (VGA), bitte fragt mich aber nicht wie.  :)
Linux ist in diesem Zusammenhang als U*IX-Derivat zu betrachten.

---------------------------------------------------------------------------
4.6.3  PC unter Minix
---------------------------------------------------------------------------

Soweit mir bekannt ist, unterstuetzt Minix 8-bit und die IBM Codepage 437.
Es gilt, bis auf den Hinweis zu X11, das gleiche wie beim PC unter
Coherent. Minix ist in diesem Zusammenhang als U*IX-Derivat zu betrachten.

---------------------------------------------------------------------------
4.6.4  PC unter MS-DOS
---------------------------------------------------------------------------

Die Standard-Zeichenkodierung fuer MS-DOS in Deutschland ist in der Regel
IBM Codepage 437. Seit MS-DOS 5.0 versucht das Installationsprogramm
die IBM Codepage 850 zu installieren. Diese hat gegenueber der Codepage
437 den Vorteil, dass saemtliche Zeichen aus ISO 8859-1 vorhanden sind,
was aber zu Lasten einiger Rahmenzeichen ging. Weiterhin kosten die
entsprechenden Geraetetreiber ein paar KB. Konverter lassen sich leicht
mit den im Anhang T genannten Tools erzeugen. Es gibt auch Freeware
ISO 8859 Codepages fuer MS-DOS (z. B. Codepage 819) - siehe Anhang F.

---------------------------------------------------------------------------
4.6.4.1 PC unter MS-DOS und MS-DOS Waffle 1.65
---------------------------------------------------------------------------

Fuer MS-DOS Waffle 1.65 gibt es einen einfachen MIME-Patch. Siehe Anhang T.

---------------------------------------------------------------------------
4.6.4.2  PC unter MS-DOS mit CrossPoint
---------------------------------------------------------------------------

CrossPoint arbeitet intern ausschliesslich mit Codepage 437, konvertiert
diese beim Verarbeiten oder Erzeugen von RFC-Nachrichten aber
automatisch nach ISO-8859-1. Nicht vorhandene Zeichen werden dabei in
moeglichst aehnlich aussehende Zeichen umgewandelt.

In Mails werden generell die entsprechenden MIME-Zeilen erzeugt. Fuer
News muss MIME unter Config/Optionen/Netze/Verschiedenes eingeschaltet
werden.

---------------------------------------------------------------------------
4.6.4.3 PC unter MS-DOS und Microsoft Windows
---------------------------------------------------------------------------

Microsoft Windows verwendet in der Regel ISO 8859-1. Es gibt aber
mittlerweile auch Versionen fuer andere Sprachraeume (z. B. Russisch
mit kyrillischer Zeichenkodierung).

---------------------------------------------------------------------------
4.6.5  PC unter OS/2
---------------------------------------------------------------------------

IBM OS/2 verwendet intern leider immer noch IBM Codepage 850 und nicht
ISO 8859-1 aka IBM Codepage 819. Das Windows Sub-System zeigt ISO 8859-1
jedoch korrekt an. Die Konvertierung zwischen IBM Codepage 850 und
ISO 8859-1 ist recht einfach und sogar "verlustfrei".

---------------------------------------------------------------------------
4.6.6 PC unter Microsoft Windows 95
---------------------------------------------------------------------------

Microsoft Windows 95 verwendet in der Regel ISO 8859-1. Mitgeliefert
werden aber auch osteuropaeische, griechische, kyrillische und tuerkische
Fonts, welche im wesentlichen ISO 8859-2, -7, -5 und -9 entsprechen.

---------------------------------------------------------------------------
4.6.7  PC unter Windows NT
---------------------------------------------------------------------------

Microsoft Windows NT verwendet intern Unicode. Als Untermenge ist
daher ISO 8859-1 vorhanden. Die Zeichenkodierung macht hier keine
besonderen Probleme. Leider liefert Microsoft auch in der Version 4.x
keine auch nur annaeherungsweise vollstaendigen Unicode Fonts mit.

---------------------------------------------------------------------------
4.7  U*IX Umgebungen
---------------------------------------------------------------------------

Tip zum Auffinden systemspezifischer Informationen zur
Internationalisierung:

   man -k locale
   man -k international

---------------------------------------------------------------------------
(a) 7-bit Terminal (VT52 oder VT100)
---------------------------------------------------------------------------

Da hilft dann nur noch das Programm iso2asc von Markus Kuhn
(siehe Anhang T)

---------------------------------------------------------------------------
(b) falsch eingestelltes 8-bit Terminal (VT2xx oder neuer)
---------------------------------------------------------------------------

Das Terminal muss per Setup eingestellt werden. Bei DEC Terminals
geht das in der Regel durch Druck auf die Taste F3.
Der Rest ist menuegefuehrt - Speichern nicht vergessen!

---------------------------------------------------------------------------
(c) BNews lokal oder im Pfad
---------------------------------------------------------------------------

Ist es lokal im Einsatz, hilft entweder nur patchen (entfernen von
"& 0x7F" aus den Quellen) oder Patches des Binaries oder Installation
von z. B. CNews.

Ist BNews auf einem Rechner im Pfad im Einsatz, hilft nur das Aufspueren
des entsprechenden Rechners und der Versuch den dortigen System-Admin
zu bitten entweder zu patchen oder neu zu installieren.
Alternativ kann man auch versuchen, sich andere Feeds fuer News zu
suchen, die keine "Steinzeit-Software" fahren...

---------------------------------------------------------------------------
(d) 7-bit tty
---------------------------------------------------------------------------

Manche ttys sind default-maessig auf 7-bit eingestellt. Da hilft meist

BSD     : stty pass8
System V: stty -istrip -8

ggf. wird stattdessen benoetigt:

          stty -istrip cs8

(unter Ultrix 4.2, HP-UX 9.01, SunOS 4.1.1 und 5.3 sowie SysV68)

Suns "moegen" in ihrer /etc/gettytab statt "ap" den Eintrag "p8"
Manche ttys sollen auch "-even -odd" benoetigen...

---------------------------------------------------------------------------
(e) auf 7-bit eingestellte Shell
---------------------------------------------------------------------------

Abhilfe durch: setenv LC_CTYPE iso_8859_1
oder           LC_CTYPE=iso_8859_1 ; export LC_CTYPE

Manche Systeme benoetigen andere Werte fuer diese Variable, so ist
z.B. unter Ultrix 4.2 LC_CTYPE=GER_DE.8859 angesagt.

---------------------------------------------------------------------------
(f) less
---------------------------------------------------------------------------

Abhilfe durch: setenv LESSCHARSET latin1
oder           LESSCHARSET=latin1 ; export LESSCHARSET

---------------------------------------------------------------------------
(g) nn
---------------------------------------------------------------------------

Man schreibe am besten in die init-Datei der nn-Installation
(je nach Installation z. B. "/usr/local/lib/nn/init")

        set data-bits 8

Wer dafuer keine Privilegien hat, kann das auch in die Datei
"~/.nn/init" schreiben. Dann gilt es nur fuer diesen Benutzer.

Es gibt fuer 7-bit Terminal Benutzer einen Patch fuer nn, der iso2asc
von Markus Kuhn verwendet um z. B. Umlaute zu konvertieren.

---------------------------------------------------------------------------
(h) rlogin mit 7-bit
---------------------------------------------------------------------------

Abhilfe durch: rlogin -L
oder           rlogin -8

---------------------------------------------------------------------------
(i) kermit (C-Kermit 5A)
---------------------------------------------------------------------------

Kermit ist ein Kommunikationsprogramm, mit dem man sich etwa via Modem
auf anderen Rechnern einloggen kann. Um eine 8bit durchlaessige
Terminal-Session zu bekommen, muss man folgende Befehle etwa per Hand
oder in einer Initialisierungsdatei ausfuehren:

        set terminal bytesize 8
        set command  bytesize 8

---------------------------------------------------------------------------
(j) emacs (ab Version 19)
---------------------------------------------------------------------------

Man schreibe am besten in die Datei ".../site-lisp/default.el"

	(standard-display-european 1)
und
	(require 'iso-syntax)

Wenn das nicht geht, sollte das in die Datei ~/.emacs geschrieben werden.

Folgende Zeilen sollen die Eingabe (von Umlauten etc.) erleichtern:

(set-input-mode
    (car (current-input-mode))
    (nth 1 (current-input-mode))
0)

Ab der Version 19.26 beachtet emacs die Environment-Variable LC_CTYPE.
Die oben angegebenen Zeilen sind dann nicht mehr notwendig.

---------------------------------------------------------------------------
4.8  VAX/VMS, OpenVMS
---------------------------------------------------------------------------

VAX/VMS ist 8-bit clean. Alle Transportprotokolle sind in der Regel 8-bit
clean. Die Terminals ab VT2xx koennen 8-bit uebertragen. Newsreader und
Editoren sind 8-bit clean. Theoretisch sind auch die Mailer 8-bit clean,
aber so mancher "Hack" macht dieses Feature wieder unbrauchbar.
Die folgende Eingabe stellt ein Terminal auf 8-bit Betrieb:

   set terminal /eightbit

---------------------------------------------------------------------------
4.7.1  AIX (3.1, 3.2)
---------------------------------------------------------------------------

Kodierung wird ueber LANG gesteuert:

   1. Buchstabe gross (z.B. En_US) = PC-Kodierung,
   1. Buchstabe klein (z.B. en_US) = ISO Kodierung.

Beim Schreiben von Applikationen entsprechenden setlocale Aufruf
nicht vergessen, sonst geht die Umlaut-Eingabe nicht.

===========================================================================
Anhang D: Definitionen
===========================================================================

7-bit Text:
	ein 7-bit Text besteht nur aus Zeichen im Bereich 32 bis 126
	sowie ausgewaehlter Steuerzeichen aus dem Bereich 0 bis 31.
	(in der Regel HT (9), LF (10) und ggf. auch FF (12))
	Eine implizite Zeichenkodierung ist damit nur im Verbund mit
	MIME gegeben: ISO 646.IRV
	Das ist zwar mit Sicherheit die am meisten verwendete 7-bit
	Kodierung, aber es gibt eben noch andere.

8-bit clean:
	wie 7-bit Text mit der folgenden Erweiterung: Zeichen im
	Bereich 160 bis 255 sind zusaetzlich zulaessig.
	Eine implizite Zeichenkodierung ist damit nur im Verbund mit
	MIME gegeben: ISO 8859-1
	Besser ist es jedoch die verwendete Zeichenkodierung
	explizit anzugeben (z. B. durch MIME charset).

===========================================================================
Anhang F: ISO 8859 Fonts
===========================================================================

ISO 8859 Codepages fuer MS-DOS

      ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/

ISO 8859 Fonts fuer EGA/VGA (z. B. fuer U*IX auf PC)

      ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/

===========================================================================
Anhang G: ISO 8859-1 Gueltigkeitsbereiche
===========================================================================

Alle ISO 8859 Zeichenkodierungen haben folgende Dinge gemeinsam:

Die Kodes 00-1F und 7F-9F sind Steuerkodes bzw. undefiniert.
Die Kodes 20-7F sind identisch mit den Kodes 20-7F in ISO 646 (IRV).
Die Kodes A0 (NO-BREAK SPACE) und AD (SOFT HYPHEN) sind allen gemeinsam.
Diesen Kodes haben eine besondere Bedeutung und sollten in Editoren
Anwendungen finden (koennen).

IRV steht fuer "International Reference Version".
---------------------------------------------------------------------------
ISO 8859-1 aka ECMA-94 aka LATIN ALPHABET No. 1
---------------------------------------------------------------------------

Die folgenden Sprachen werden durch ISO 8859-1 unterstuetzt:

Daenisch, Deutsch, Englisch, Faeroeisch, Finnisch, Franzoesisch,
Irisch, Islaendisch, Italienisch, Niederlaendisch, Norwegisch,
Portugiesisch, Spanisch und Schwedisch.

Im Franzoesischen werden zwar (theoretisch) auch die oe/OE-Ligaturen
"benoetigt", jedoch waren es gerade die Franzosen, die bei der
Erstellung der Norm der Meinung waren, man koenne auf diese Zeichen
verzichten.

===========================================================================
Anhang P: ISO 8859-1 Peripherie etc.
===========================================================================

Die folgenden drei Listen sind absolut unvollstaendig.
Bitte schickt mir an Informationen, was ihr habt. Danke!

---------------------------------------------------------------------------
Betriebssysteme und Oberflaechen, die ISO 8859-1 direkt unterstuetzen
---------------------------------------------------------------------------

AIX, Acorn RISC-OS, Amiga-OS, DEC ULTRIX, IRIX, Linux,
Microsoft Windows, Microsoft Windows NT, OpenVMS, Sun OS,
VAX/VMS, X11

---------------------------------------------------------------------------
Terminals, die ISO 8859-1 direkt unterstuetzen
---------------------------------------------------------------------------

DEC VT2xx[1], DEC VT3xx, DEC VT4xx und neuer.

---------------------------------------------------------------------------
Drucker, die ISO 8859-1 direkt unterstuetzen
---------------------------------------------------------------------------

DEClaser xxxx, DEC LA xx, DEC LA xxx, DEC LN03[1], HP DeskJet,
HP LaserJet (II und neuer), Kyocera F-xxx, Kyocera F-xxxx u.v.m.

[1] unterstuetzt nur DEC MCS (Untermenge von ISO 8859-1, bis auf 2 Zeichen)

===========================================================================
Anhang T: ISO 8859 Tools zur Konvertierung von Zeichenkodierungen
===========================================================================

transtab
    ANSI-C Quellen fuer einen Zeichenkodierungskonvertergenerator
    Enthaelt Klartextbeschreibungen fuer ueber 78 Zeichenkodierungen.

      ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/

GNU-recode
    GNU Konverter, basiert auf RFC-1345.

      ftp://ftp.cs.tu-berlin.de/pub/gnu/recode-3.3.tar.gz

tcs
    translate character set - Plan 9 utility

      ftp://research.att.com/dist/

iso2asc
    Programm zur Wandlung von ISO 8859-1 Zeichen in eine 7bit
    US-ASCII-Ersatzdarstellung (z. B. "ae").

      ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/
      ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/


konvers.el
    Konvertierung zwischen TeX-Schreibweise und ISO 8859-1 fuer EMACS

      ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/

Es gibt auch einen primitiven MIME-Patch fuer MS-DOS Waffle 1.65
auf dem ftp-Server in Erlangen (MIME*.ZIP). Dieser wird aber nicht
mehr gepflegt und ist nur spaerlich dokumentiert.  =;^)

Randbemerkung:
    tcs und Recode lassen sich nur mit hohem Aufwand unter MS-DOS
    uebersetzen und benoetigen unangenehm viel Arbeitsspeicher.

===========================================================================
Anhang V: Verschiedene Informationsquellen zu Zeichenkodierungen
===========================================================================

	http://www.unicode.org/
	http://www.vlsivie.tuwien.ac.at/mike/i18n.html
	http://www.iro.umontreal.ca/labs/ltp/accents_toc.html
	http://www.cs.tu-berlin.de/~czyborra/charsets/
	http://www.kostis.net/charsets/

	ftp://dkuug.dk/
	ftp://ftp.informatik.uni-erlangen.de/pub/doc/ISO/charsets/
	ftp://research.att.com/
	ftp://ftp.unicode.org/

===========================================================================
Anhang Z: Zeichenkodierungsbeschreibung ISO 8859-1 (Kodes A0 bis FF)
===========================================================================

Die Zeichenkodes 20 bis 7E sind identisch mit ISO 646.IRV (US-ASCII).
Eine Auflistung dieser Zeichen kann ich mir (hoffentlich) sparen... ;)
Die Zeichenkodes 00 bis 1F und 7F bis 9F sind in ISO 8859-1 nicht als
druckbare Zeichen deklariert.
Ich habe diese Zeichen daher nicht in diese Liste aufgenommen.
Die "Syntax" der Liste ist:

Hex     8bit    ISO/IEC 10646-1:1993(E)
Code    Zeichen Zeichenname

A0             NO-BREAK SPACE
A1             INVERTED EXCLAMATION MARK
A2             CENT SIGN
A3             POUND SIGN
A4             CURRENCY SIGN
A5             YEN SIGN
A6             BROKEN BAR
A7             SECTION SIGN
A8             DIAERESIS
A9             COPYRIGHT SIGN
AA             FEMININE ORDINAL INDICATOR
AB             LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
AC             NOT SIGN
AD             SOFT HYPHEN
AE             REGISTERED SIGN
AF             MACRON
B0             DEGREE SIGN
B1             PLUS-MINUS SIGN
B2             SUPERSCRIPT TWO
B3             SUPERSCRIPT THREE
B4             ACUTE ACCENT
B5             MICRO SIGN
B6             PILCROW SIGN
B7             MIDDLE DOT
B8             CEDILLA
B9             SUPERSCRIPT ONE
BA             MASCULINE ORDINAL INDICATOR
BB             RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK
BC             VULGAR FRACTION ONE QUARTER
BD             VULGAR FRACTION ONE HALF
BE             VULGAR FRACTION THREE QUARTERS
BF             INVERTED QUESTION MARK
C0             LATIN CAPITAL LETTER A WITH GRAVE
C1             LATIN CAPITAL LETTER A WITH ACUTE
C2             LATIN CAPITAL LETTER A WITH CIRCUMFLEX
C3             LATIN CAPITAL LETTER A WITH TILDE
C4             LATIN CAPITAL LETTER A WITH DIAERESIS
C5             LATIN CAPITAL LETTER A WITH RING ABOVE
C6             LATIN CAPITAL LIGATURE AE
C7             LATIN CAPITAL LETTER C WITH CEDILLA
C8             LATIN CAPITAL LETTER E WITH GRAVE
C9             LATIN CAPITAL LETTER E WITH ACUTE
CA             LATIN CAPITAL LETTER E WITH CIRCUMFLEX
CB             LATIN CAPITAL LETTER E WITH DIAERESIS
CC             LATIN CAPITAL LETTER I WITH GRAVE
CD             LATIN CAPITAL LETTER I WITH ACUTE
CE             LATIN CAPITAL LETTER I WITH CIRCUMFLEX
CF             LATIN CAPITAL LETTER I WITH DIAERESIS
D0             LATIN CAPITAL LETTER ETH
D1             LATIN CAPITAL LETTER N WITH TILDE
D2             LATIN CAPITAL LETTER O WITH GRAVE
D3             LATIN CAPITAL LETTER O WITH ACUTE
D4             LATIN CAPITAL LETTER O WITH CIRCUMFLEX
D5             LATIN CAPITAL LETTER O WITH TILDE
D6             LATIN CAPITAL LETTER O WITH DIAERESIS
D7             MULTIPLICATION SIGN
D8             LATIN CAPITAL LETTER O WITH STROKE
D9             LATIN CAPITAL LETTER U WITH GRAVE
DA             LATIN CAPITAL LETTER U WITH ACUTE
DB             LATIN CAPITAL LETTER U WITH CIRCUMFLEX
DC             LATIN CAPITAL LETTER U WITH DIAERESIS
DD             LATIN CAPITAL LETTER Y WITH ACUTE
DE             LATIN CAPITAL LETTER THORN
DF             LATIN SMALL LETTER SHARP S
E0             LATIN SMALL LETTER A WITH GRAVE
E1             LATIN SMALL LETTER A WITH ACUTE
E2             LATIN SMALL LETTER A WITH CIRCUMFLEX
E3             LATIN SMALL LETTER A WITH TILDE
E4             LATIN SMALL LETTER A WITH DIAERESIS
E5             LATIN SMALL LETTER A WITH RING ABOVE
E6             LATIN SMALL LIGATURE AE
E7             LATIN SMALL LETTER C WITH CEDILLA
E8             LATIN SMALL LETTER E WITH GRAVE
E9             LATIN SMALL LETTER E WITH ACUTE
EA             LATIN SMALL LETTER E WITH CIRCUMFLEX
EB             LATIN SMALL LETTER E WITH DIAERESIS
EC             LATIN SMALL LETTER I WITH GRAVE
ED             LATIN SMALL LETTER I WITH ACUTE
EE             LATIN SMALL LETTER I WITH CIRCUMFLEX
EF             LATIN SMALL LETTER I WITH DIAERESIS
F0             LATIN SMALL LETTER ETH
F1             LATIN SMALL LETTER N WITH TILDE
F2             LATIN SMALL LETTER O WITH GRAVE
F3             LATIN SMALL LETTER O WITH ACUTE
F4             LATIN SMALL LETTER O WITH CIRCUMFLEX
F5             LATIN SMALL LETTER O WITH TILDE
F6             LATIN SMALL LETTER O WITH DIAERESIS
F7             DIVISION SIGN
F8             LATIN SMALL LETTER O WITH STROKE
F9             LATIN SMALL LETTER U WITH GRAVE
FA             LATIN SMALL LETTER U WITH ACUTE
FB             LATIN SMALL LETTER U WITH CIRCUMFLEX
FC             LATIN SMALL LETTER U WITH DIAERESIS
FD             LATIN SMALL LETTER Y WITH ACUTE
FE             LATIN SMALL LETTER THORN
FF             LATIN SMALL LETTER Y WITH DIAERESIS
-- 
  Kosta Kostis, Talstr. 25, D-63322 Rdermark, Germany
  http://www.kostis.net/de/privat/

User Contributions:

Comment about this article, ask questions, or add new information about this topic:

CAPTCHA


[ Usenet FAQs | Web FAQs | Documents | RFC Index ]

Send corrections/additions to the FAQ Maintainer:
umlaute@live.robin.de





Last Update March 27 2014 @ 02:11 PM