Aug 26 2011

Standards für die Zeichenkodierung

DAA WI 29.11.10

Standards für die Zeichenkodierung

ASCII

Der American Standard Code for Information Interchange kann als Basis-Zeichensatz heutiger Computer gelten. Er codiert Zeichen in 7Bit, im erweiterten ASCII in 8Bit. Mit 7Bit können 128 verschiedene Zeichen dargestellt werden. Dies reicht für Texte ohne Umlaute.  Bei Codierung in 7Bit wurde entweder versucht, bei längeren Texten Platz zu sparen, als Speicher noch stark begrenzt war, oder das achte Bit wurde als Prüfbit verwandt. Bei der 8Bit-Codierung können 256 verschiedene Zeichen dargestellt werden. Da die ersten 128 Zeichen fest vorgegeben sind, der zweite, erweiterte Block mit ebenfalls 128 Zeichen jedoch nicht überall Verwendung fand, wurden sogenannte Codeseiten eingeführt. Diese ermöglichten es, den zweiten Block von 128 Zeichen in vordefinierter Weise zu verwenden. So wurden beispielsweise Umlaute und landesspezifische Sonderzeichen darstellbar. Auch die deutschen Umlaute haben ASCII Werte oberhalb von 128 und werden nur bei korrekt eingestellter Codeseite „German“ dargestellt.
ASCII wurde 1967 als Standard veröffentlicht und 1986 das letzte Mal aktualisiert. Der Bereich 0-32 enthält nicht druckbare und Steuerzeichen. So dient 10+13 als CR + LF, Carriage Return und Line Feed, was soviel wie Wagenrücklauf und Zeilenvorschub bedeutet und sich an Schreibmaschinen orientierte.
Einen Überblick über STANDARD-ASCII gibt es hier.

UNICODE

Unicode ist neuer als ASCII und durch die Gnade der späten Geburt nicht mehr darauf verpflichtet Speicherplatz sparen zu müssen. Das Unicode-Projekt versucht, jedes Schriftsymbol das weltweit existiert in seinen Standard aufzunehmen. Unicode verwendet 8, 16 oder 32 Bit für die Darstellung eines einzelnen Zeichens. Ob ein Zeichen in 8 oder mehr Bit codiert ist, wird über Shift-Codes gehändelt. Unicode ist ein Konsortium dem viele namhafte Computerfirmen angehören, so u.a. IBM, Microsoft, Adobe und SAP. Unicode ist seit ca. 2000 in Windows installiert. Aktuell sind bereits über 1,1 Mio Zeichen verwendet, das System kann aktuell bis zu ca. 4,3 Mio Zeichen fassen.. und wenn es mehr bräuchte.. ich wüßte da einen passenden Shift-Code 😉
Hier noch der Link zur Webseite des Unicode-Konsortiums.

Zeichenvorrat

Als Zeichenvorrat bezeichnet man die Menge der Zeichen, die für die Darstellung der jeweils notwendigen Daten erforderlich sind. Der Zeichenvorrat für rein binäre Daten wäre also beispielsweise nur „0“ und „1“.  Der Zeichenvorrat für
numerische Zeichen ist „0-9“, für
alphabetische Zeichen „a-z“ + „A-Z“ und für
alphanumerische Zeichen alles vorgenannte sowie zusätzlich Sonderzeichen.

Weitere ähnliche Artikel

Permanentlink zu diesem Beitrag: http://www.betriebswirtblog.de/standards-fur-die-zeichenkodierung/

Schreibe einen Kommentar

Your email address will not be published.