Studium, Ausbildung und Beruf

web uni-protokolle.de
 powered by
NachrichtenLexikonProtokolleBücherForenDienstag, 22. Oktober 2019 

Unicode


Dieser Artikel von Wikipedia ist u.U. veraltet. Die neue Version gibt es hier.
Unicode ist ein internationaler Standard dessen Ziel es ist einen Code für jedes graphische Zeichen oder Element aller bekannten Schriftkulturen und festzulegen. Er will das Problem der verschiedenen inkompatiblen Kodierungen in den unterschiedlichen Ländern beseitigen. Die bestehenden Standards erforderten einen Konvertierungsaufwand beim Datenaustausch wenn eine Konvertierung überhaupt war. Dadurch dass die meisten Zeichenkodierungen nur Sprachen unterstützen war es in der Praxis unmöglich verschiedene Sprachen im selben Text zu

Inhaltsverzeichnis

Unicode Consortium

Das Unicode Consortium (eine Vereinigung mit Domizil in Kalifornien ) publizierte 1991 eine erste Fassung des Standards und seither regelmäßig neue Fassungen herausgegeben die jeweils geleisteten Standardisierungsarbeit entsprechen.

Das Konsortium arbeitet mit der ISO-Organisation die den Standard ISO 10646 herausgibt. Unicode und ISO 10646 sind was die entsprechenden Codes für die Zeichen aber der Unicode-Standard enthält bedeutend mehr Angaben die Implementierer von Textverarbeitungslösungen (Darstellung Sortierreihenfolgen Schriften von rechts nach links laufen etc).

Codes

Basic Latin
die ersten 128 Zeichen U+0000 - entsprechen dem ASCII-Zeichensatz
Ergänzende Zeichen für Sprachen die das Alphabet benützen
U+0080 - U+024F
IPA Ergänzungen
U+0250 - U+02FF
Kombinierende diakritische Zeichen
U+0300 - U+036F
Griechisch und Koptisch
U+0370 - U+03FF
Kyrillisch
U+0400 - U+052F
Armenisch
U+0530 - U+058F
Hebräisch
U+0590 - U+05FF
Arabisch
U+05600 - U+06FF
Syrisch
U+0700 - U+074F
....

Schriftarten

Für die meisten Unicode-Zeichen gibt es erhältliche Schriftarten. Es werden auch kommerziell erhältliche angeboten.

Zu beachten ist dass für eine die dem Unicode-Standard folgt nur gilt dass Zeichen die vorkommen an dem vom Unicode Platz zu finden sind. Es heißt nicht ein entsprechendes Zeichen tatsächlich vorhanden sein muss. gibt einige Schriftarten die nur ca. 600 implementieren was aber für viele Zwecke bereits und einen bedeutenden Fortschritt gegenüber den 255 der 8-Bit-Schriftarten darstellt.

Versionen

Beispiel

Anwendung der Tabellen

Will man ein Unicode-Zeichen (z.B. ⊕) HTML oder XML verwenden sucht man es zunächst aus entsprechenden Tabelle (hier: Mathematische Symbole). Dort ist Zeichennummer hexadezimal angegeben. Mit dieser Zeichennummer erstellt man eine Zeichenentität durch Voranstellen von "&#x" und ";" eben "⊕" das ergibt dann das Zeichen: "⊕". Die Zeichennummer kann in der auch dezimal dann ohne führendes "x" angegeben z.B. "⊕" für das gleiche Zeichen.

Im Vi Improved kann man Unicode-Zeichen (Voraussetzung: Unicode-basierte Locale als Unicode z.B. UTF-8 erkannte Datei) eingeben man Strg+V U und dann die hexadezimale drückt also z.B. Strg+V U 2 0 C für das Euro-Zeichen.

Ob das entsprechende Unicode-Zeichen auch tatsächlich Bildschirm erscheint hängt davon ab ob die Schriftart eine Glyphe für das gewünschte Symbol (also eine Grafik für die gewünschte enthält.

Unicode Transformation Formats

Für die Repräsentation der Unicode Zeichen Zweck der elektronischen Datenverarbeitung gibt es verschiedene genannte Transformation Formats. In jedem der Formate sich alle in Unicode enthaltenen Zeichen darstellen Zeichenketten lassen sich beliebig zwischen den Formaten Einige Formate:

UTF-32 - UCS-4

Jedes Zeichen wird durch einen 32 langen Code repräsentiert. Das hat z.B. den dass man schon an der Länge einer erkennen kann wieviele Zeichen enthalten sind. Ein ist dass mehr Speicherplatz verbraucht wird als UTF-16.

UTF-16 - UCS-2

Dies ist das älteste Format. Die sind entweder 16 oder 32 Bit lang. Zeichen der lebenden Sprachen lassen sich so 2 Byte darstellen.

UTF-8

UTF-8 ist auf Unix -Systemen die populärste Kodierung für Unicode. Der Vorteil gegenüber fast allen anderen Formaten ist alle ASCII-Zeichen unverändert gültige Zeichen in UTF-8 So funktionieren viele Programme die den ASCII-Zeichensatz unverändert auch mit UTF-8.

UTF-7

UTF-7 stellt Unicode Zeichen aus einer Reihe ASCII-Zeichen mit jeweils nur 7 Bit dar.

Siehe auch: Alphabet

Siehe auch

Weblinks

Standards:

  • RFC 2152 (UTF-7 A Mail-Safe Transformation Format of
  • RFC 3629 (UTF-8 a transformation format of ISO

Konverter:

  • Unicode Characters to HTML Entities Converter -- http://pioneer.stereo.lu/converter.html -- konvertiert Unicode-Zeichen in dezimale und HTML-Entities (von Shaun Moss adaptiert von "ASCII HEX to Unicode Converter" von Mike Golding)



Bücher zum Thema Unicode

Dieser Artikel von Wikipedia unterliegt der GNU FDL.

ImpressumLesezeichen setzenSeite versendenSeite drucken

HTML-Code zum Verweis auf diese Seite:
<a href="http://www.uni-protokolle.de/Lexikon/ISO_10646.html">Unicode </a>