Re: Unicode Latin combining diacritics - Looking for real-world example documents

From: Mark Davis (mark@macchiato.com)
Date: Tue Apr 02 2002 - 11:38:37 EST


Quite a number of standard transliterations use combinations of
accents that do not correspond to precomposed forms. For example, the
UN transliteration for Hindi uses an L with a dieresis below. Ones
like this are particularly noticeable since the double-dot looks like
it goes on the previous letter on Windows:

il\u0324 => il̤

See http://www.eki.ee/wgrs/rom1_hi.pdf

Another example is Greek transliteration for the UN, which uses
underbar under V, F, N, I, O to distinguish ambiguous cases
(http://www.eki.ee/wgrs/rom1_el.pdf). Here is the first part of "What
is Unicode", first in Greek, then in romanization.

Τι είναι το Unicode?

Η κωδικοσελίδα Unicode προτείνει έναν και μοναδικό αριθμό για κάθε
χαρακτήρα,
ανεξάρτητα από το λειτουργικό σύστημα,
ανεξάρτητα από το λογισμικό,
ανεξάρτητα από την γλώσσα.

Οι ηλεκτρονικοί υπολογιστές, σε τελική ανάλυση, χειρίζονται απλώς
αριθμούς. Αποθηκεύουν γράμματα και άλλους χαρακτήρες αντιστοιχώντας
στο καθένα τους από έναν αριθμό (ονομάζουμε μία τέτοια αντιστοιχία
κωδικοσελίδα). Πριν την εφεύρεση του Unicode, υπήρχαν εκατοντάδες
διαφορετικές κωδικοσελίδες. Λόγω περιορισμών μεγέθους όμως, σε καμία
κωδικοσελίδα δεν χωρούσαν αρκετοί χαρακτήρες: λόγου χάριν, η Ευρωπαϊκή
Ένωση χρειαζόταν πλήθος διαφορετικών κωδικοσελίδων για να καλύψει όλες
τις γλώσσες των χωρών-μελών της. Ακόμα και για μία και μόνη γλώσσα,
όπως π.χ. τα Αγγλικά, μία κωδικοσελίδα δεν επαρκούσε για να καλύψει
όλα τα γράμματα, σημεία στίξης και τεχνικά σύμβολα ευρείας χρήσης.

Ti eínai to Unicode?

I̱ ko̱dikoselída Unicode proteínei énan kai monadikó arithmó gia káthe
charaktí̱ra,
anexárti̱ta apó to leitov̱rgikó sýsti̱ma,
anexárti̱ta apó to logismikó,
anexárti̱ta apó ti̱n gló̱ssa.

Oi i̱lektronikoí ypologistés, se telikí̱ análysi̱, cheirízontai apló̱s
arithmóf̱s. Apothi̱kef̱́ov̱n grámmata kai állof̱s charaktí̱res
antistoichó̱ntas sto kathéna tof̱s apó énan arithmó (onomázov̱me mía
tétoia antistoichía ko̱dikoselída). Prin ti̱n eféf̱resi̱ tof̱
Unicode, ypí̱rchan ekatontádes diaforetikés ko̱dikoselídes. Lógo̱
periorismó̱n megéthof̱s ómo̱s, se kamía ko̱dikoselída den cho̱róf̱san
arketoí charaktí̱res: lógof̱ chárin, i̱ Ev̱ro̱païkí̱ Éno̱si̱
chreiazótan plí̱thos diaforetikó̱n ko̱dikoselído̱n gia na kalýpsei
óles tis gló̱sses to̱n cho̱ró̱n-meló̱n ti̱s. Akóma kai gia mía kai
móni̱ gló̱ssa, ópo̱s p.ch. ta Angliká, mía ko̱dikoselída den
eparkóf̱se gia na kalýpsei óla ta grámmata, si̱meía stíxi̱s kai
techniká sýmvola ev̱reías chrí̱si̱s.

Notice again how the under-accents get displaced.

For other samples, you might look at
http://oss.software.ibm.com/cgi-bin/icu/tr. For pointers to some
transliteration standards, see the bottom of
http://oss.software.ibm.com/icu/userguide/Transliteration.html.

Hope this helps,

Mark

BTW, the Mac OS X does a nice job of stacking arbitrary accents; I
hope Rick will write a tech note about that soon.

—————

Γνῶθι σαυτόν — Θαλῆς
[For transliteration, see http://oss.software.ibm.com/cgi-bin/icu/tr]

http://www.macchiato.com

----- Original Message -----
From: "Chris Pratley" <chrispr@microsoft.com>
To: <unicode@unicode.org>
Sent: Monday, April 01, 2002 19:21
Subject: Unicode Latin combining diacritics - Looking for real-world
example documents

Does anyone have real-world documents in Unicode that take advantage
of
Latin Combining Diacritics (U+0300 range and others) to accurately
represent the text content? If so, I would appreciate links or docs
mailed to me.

We're doing some testing of Latin Diacritic support for IPA and
African
languages, romanizations, etc., and it is (understandably) very hard
to
find any "real" text in languages that require this support where the
diacritics have not been left out in order to work around the lack of
software support. (Catch-22!). I'm looking for text (especially with
stacked diacritics) in IPA, Hausa, Ewe, or other West African
languages,
Mixtec or other Mexican languages, Dinka, Nuer, etc. Basically
anything
that is real-world and shows off typical or tricky diacritic
combinations. If you could include an image or at least a verbal
description to show what the display would be if it were correct, that
would be lovely.

I'm not promising anything, but I know that there are several (many)
people on this list who would be interested in having this support in
Word or other Microsoft products, so now's your chance to influence
the
outcome - if we're going to get it done right I need your help!

Thanks in advance,

Chris Pratley

Group Program Manager

Microsoft Word

Sent with OfficeXP on WindowsXP



This archive was generated by hypermail 2.1.2 : Tue Apr 02 2002 - 12:32:17 EST