Michael Neuhold Homepage
Startseite > Altgriechisch und Latein auf dem Computer > Kodierungen des Griechischen

Kodierungen des Griechischen


An Englisch version of this page is available.

Diese Seite beschreibt einige der wichtigsten Möglichkeiten, griechische Texte mit Akzenten auf Computern digital zu kodieren, und inwieweit diese von greekconverter unterstützt werden.

  1. Unicode
  2. Betacode
  3. ASCII
  4. HTML-Entities
  5. BibleWorks
  6. SPIonic, SGreek
  7. GreekKeys
  8. Offizielle Zeichennamen
  9. Andere

Unicode

Kodierung mit 16-Bit-Zeichen, auf dem Wege zu einem weithin akzeptieren Standard. Die kanonische Darstellung von Buchstaben mit diakritischen Zeichen ist eine Abfolge des Buchstabens gefolgt von seinen diakritischen Zusatzzeichen. In vielen Fällen (z.B. beim Griechischen) existieren viele mögliche Kombinationen von Zeichen und diakritischen Zeichen auch als zusammengesetzte (precomposed) Zeichen (vermutlich aus Gründen der Kompatibilität mit anderen Kodierungssystemen und um die Herstellung von Fonts zu erleichtern). Die Stapelabfolge (stacking order) für griechische Diakritika ist: Hauchzeichen - Akzent - Iota subscriptum bzw. Trema (Diaeresis) - Akzent. Nehmen wir z.B. den Dativ Singular des weiblichen Artikels:

Kanonisch: 03C4 - 03B7 - 0342 - 0345
Teilweise zusammengesetzt: 03C4 - 1FC6 - 0345
Teilweise zusammengesetzt, andere Möglichkeit: 03C4 - 1FC3 - 0342
Vollständig zusammengesetzt: 03C4 - 1FC7

Nur die letzte Möglichkeit wird von den Konvertierungsprozeduren von greekconverter vollständig unterstützt. Denn in Unicode ist jede Kombination erlaubt, auch wenn sie kein gültiges griechisches Zeichen darstellt. Wie soll z.B. Alpha + Gravis + Akut + Zirkumflex bei der Konvertierung behandelt werden?

Unicode hat zweifelsohne eine Menge Vorzüge, aber auch Nachteile. Es laboriert vor allem an dem Versuch, zu allem kompatibel zu sein. Denn viele Zeichen sind mehrmals mit unterschiedlichen Codes definiert. Wer weiß, wann er welches Zeichen verwenden muß oder in was er es konvertieren soll. Nehmen wir z.B. das Zeichen, das wie ein spatiierender (spacing) (d.h. als eigenes Zeichen verwendeter, nicht den vorherigen Buchstaben veränderndes diakritisches Zeichen) Akut - ´ - aussieht:

Detailierte Zeichenlisten sind verfügbar beim Unicode Consortium. Die folgenden Tabellen sollen nur einen ersten Eindruck vermitteln.

Unicode - Sich verbindende diaktitischen Zeichen
Sich verbindende (combining) diakritische Zeichen (0300-036F). Den grauen Positionen sind keine Zeichen zugeordnet, an den leeren Positionen sind Zeichen, die normalerweise nicht in griechischen Texten vorkommen. Man beachte, daß Zirkumflex (0302), Tilde (0303) und Perispomeni (0342) drei verschiedene Zeichen sind.
Unicode - Erweitertes Griechisch
Erweitertes Griechisch (1F00-1FFF). In früheren Versionen der offiziellen Unicode-Zeichenlisten war das Iota adscriptum unter die Großbuchstaben subskribiert, in der aktuellen Version ist es adskribiert (wie in Textausgaben üblich). Dies scheint nur eine Variation der Schriftgestaltung zu sein.
Unicode - Griechisch und Koptisch
Griechisch und Koptisch (0370-03FF). Die leeren Positionen sind die nur dem Koptischen eigenen Buchstaben, die zu zeichnen ich zu faul war.

Was ist UTF(-8, -16)?

Unicode definiert nur die Zuordnung eines Zeichens zu einem Zahlenwert, aber nicht, wie dieser Zahlenwert verspeichert wird (Anzahl Bytes, Byteorder usw.). Hierfür gibt es die UTF (Unicode Transformation Format). In UTF-8 z.B. werden Zeichen aus dem Bereich US-ASCII nur mit einem Byte abgespeichert. Das hat den Vorteil, daß diese Zeichen auch ein nicht Unicode-fähiger Editor korrekt interpretieren kann.

Betacode

7-Bit-sichere Kodierung die nur Zeichen des US-ASCII-Zeichensatzes verwendet. Jedes diakritische Zeichen wird durch einen eigenen Buchstaben dargestellt (Ausnahmen gibt es lediglich bei einigen spatiierenden diakritischen Zeichen). Das obige Beispiel in Betacode: TH=| (oder th=|) - Gleichheitszeichen steht für Zirkumflex, senkrechter Balken für Iota subscriptum.

Griechischer Betacode unterscheidet nicht zwischen Klein-/Großschreibung, Griechische Großbuchstaben werden durch Voranstellung von * bezeichnet. Einige Projekte benutzen nur Großbuchstaben (z.B. TLG, für das Betacode erfunden wurde), andere nur Kleinbuchstaben (z.B. das Perseus Project).

Ich habe nicht herausgefunden, ob es eine bestimmte Stapelanordnung für diakritische Zeichen gibt. Aber alle Beispiele, die ich bisher gesehen habe, verwenden: Hauchzeichen - Akzent - Iota subscriptum bzw. Akzent - Trema (letzteres unterscheidet sich von Unicode). Bei Großbuchstaben stehen die Diakritika zwischen dem * und dem Buchstaben selbst (z.B. *)/ARHS), ansonsten werden sie dem Buchstaben nachgestellt (z.B. A)/RSHN).

Ähnlich wie Unicode kodiert Betacode Zeichenfunktionen, nicht Glyphen (konkretes Aussehen von Zeichen). Daher kann eine Glyphe verschiedenen Zeichenfunktionen entsprechen. Die folgenden drei Zeichen sehen alle aus, wie ein Schrägstrich - / -:

Betacode verfügt über eine Menge sogenannter Escapesequenzen für editoriale, papyrologische, inschriftliche, mathematische, musikalische, astronomische, metrische usw. Zeichen und Symbole. Die meisten von ihnen haben keine Entsprechung in Unicode (zumindest keine, von der ich wüßte) und werden daher von greekconverter nicht unterstützt.

Betacode-Zeichenbelegung
Betacode-Zeichenbelegung in Auszügen

ASCII

Transliteration mit ASCII-Zeichen, die die meisten diakritischen Zeichen übergeht (außer daß Spiritus asper als h wiedergegeben wird) und einige Zeichen in Abhängigkeit vom vorhergehenden Zeichen wiedergibt (z.B. Alpha-Ypsilon meistens als au).

ASCII-Transliteration
Ersetzungstabelle für die Transliteration. Für Eta und Omega wird oft auch einfach e und o genommen (kein Unterschied zu Epsilon und Omikron).

HTML-Entities

Seit Version 4.0 benützt HTML den sog. Universal Character Set (UCS), der auf dem Unicode-System beruht. Somit kann jedes beliebige Unicode-Zeichen als numerische Entität notiert werden, entweder dezimal in der Form ü oder hexadezimal als ü. Für Buchstaben ohne Akzente gibt es benannte Entitäten wie α. Das obige Beispiel mit HTML-Entitäten: τῇ (zusammengesetzt, benannte und hexadezimale numerische Entitäten) oder τῇ (kanonisch, nur dezimale numerische Entitäten).

Alternativ dazu kann man die HTML-Datei im Unicodeformat erzeugen und dem Browser mitteilen, wie er den Inhalt der Datei interpretieren muß, indem man die Charset-Eigenschaft in einem Meta-Tag im Head-Abschnitt der HTML-Seite setzt:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

BibleWorks

Proprietäre 8-Bit-Kodierung, optimiert für die Anzeige von Bibeltexten mit TrueType-Schriften, ähnlich wie Betacode. Das obige Beispiele in BibleWorks: th/|. Wenn man eine der griechischen TrueType-Schriften verwendet, die mit BibleWorks mitgeliefert werden (© Michael Bushell), dann werden die sich verbindenden diakritischen Zeichen mit Hilfe von Kerning über oder unter das vorhergehende Zeichen gesetzt.

BibleWorks-Zeichenbelegung
Die Zeichenbelegung von BibleWorks, erschlossen aus der griechischen TrueTrype-Schrift Bwgrkn, im Vergleich zur Zeichenbelegung von Latin-1.

SPIonic, SGreek

Die TrueType-Fonts SPIonic (© Scholars Press) und Sgreek (© Silver Mountain Software) verwenden im wesentlichen die Zeichenbelegung von Betacode. Diakritische Zeichen werden wie bei BibleWorks durch Kerning positioniert. Es bestehen allerdings folgende Abweichungen von Betacode:

Sgreek hat wesentlich mehr Varianten als SPIonic, und natürlich an ganz anderen Positionen. Zwischen Sgreek Medium und Sgreek Fixed gibt es ein paar marginale Unterschiede, einer ist aber wichtig: das Pipe-Zeichen | produziert in Sgreek Medium kein Iota subscriptum, sondern eben ein Pipe-Zeichen. Man muß bei Sgreek Medium also #, $ und % verwenden.

SPIonic-Zeichenbelegung
Die Zeichenbelegung von SPIonic. Die gelb hinterlegten Zeichen sind Varianten mit geringerem Kerning. Man beachte, daß SPIonic keine Ziffern enthält.

Sgreek-Zeichenbelegung
Die Zeichenbelegung von Sgreek Fixed. Die gelb hinterlegten Zeichen sind Varianten mit geringerem, die rot hinterlegten mit stärkerem Kerning als die Standardzeichen. Die grün hinterlegten Zeichen haben die Glyphen etwas höher positioniert. In einigen Fällen zeigt die Windows-Zeichentabelle etwas anderes an als WinWord. Mir ist nicht klar, was von beidem beabsichtigt ist.

Die Konvertierung nach SPIonic/Sgreek unterstützt nur die Zeichen, die auch in Betacode so definiert sind. Mit anderen Worten: die Kerningvarianten und die zusammengesetzten Zeichen werden nicht berücksichtigt.

GreekKeys

8-Bit-Kodierung, ein Quasi-Standard auf Apple-Computern bis OS 9 (seither unterstützt MacOS Unicode). Es vermeidet Kerning und benutzt stattdessen nur zusammengesetzte Zeichen. Das hat den Nachteil, daß Konstrukte wie MNE=MA IATRO= (Grabmal eines Arztes, verwendet in der Wiedergabe von Inschriften) nicht angezeigt werden können.

GreekKeys-Zeichenbelegung
Die Zeichenbelegung von GreekKeys, erschlossen aus der TrueType-Schrift Athenian (© American Philological Association). Man bemerke, daß DisplayGreek A(=| konsequenterweise an Position 160 hat, während es bei Athenian auf 170 liegt.

Offizielle Zeichennamen

Die offiziellen Unicode-Zeichennamen stellen keine eigene Kodierung dar, aber greekconverter kann sie ausgeben, um eine menschenlesbare Ausgabe von fehlerhaftem Unicode erzeugen zu können, der auf andere Weise nicht konvertiert werden kann.

Andere

Viele Konvertierungen kann man durch Mehrfachkonvertierung erreichen, z.B. BibleWorks in GreekKeys: BibleWorks -> Unicode -> GreekKeys.

Gegenwärtig nicht unterstützt werden Kodierungen, die für ein einzelnes Programm erfunden wurden, wie Logos, WinGreek etc.


Autor: Michael Neuhold (E-Mail-Kontakt)
Letzte Änderung: 24. März 2017