Re: lists of actual character/diacritic combinations

From: Kenneth Whistler (kenw@sybase.com)
Date: Wed Mar 01 2000 - 13:59:48 EST


John Cowan noted:

>
> Kenneth Whistler wrote:
>
> > The raw figures are posted below.
>
> Thanks.
>
> > These constitute the lumped sums from both the MUMS Books database and
> > the JACKPHY database, containing 12,421,528 instances of characters with
> > diacritics, out of a total of 1,492,948,727 Latin characters.
>
> BTW, the JACKPHY database (IIRC) is bibliographic information (in Latin
> alphabet transliteration) for books written in non-Latin scripts.
> So it represents "non-native" uses of diacritics.
>

Fair enough. It appears that lumping the two sets of data from the
differing corpora yields misleading results. So here is the raw
data, recalculated, separating the MUMS Books database (first column)
and the JACKPHY database (second column), sorted in descending
frequency by number of occurrences in the MUMS Books database.

Comparing the two sets of data, it is clear that the JACKPHY database
contains an anomalously high frequency of macrons, breves, and dot belows,
and an anomalously low frequency of acutes, graves, carons, and tildes,
etc.

For the base letters, the JACKPHY database has an anomalously high
proportion of o's, u's, h's, k's, and v's carrying diacritics, and
an anomalously low proportion of e's, n's, and c's, etc.

--Ken

 2734908 : 26711 : 0301 acute
 1942596 : 1377578 : 0304 macron
 1235235 : 294451 : 0308 diaeresis
  690324 : 1596 : FE20 ligature left half
  690216 : 1613 : FE21 ligature right half
  603963 : 429204 : 0306 breve
  558098 : 335900 : 0323 dot below
  250563 : 1633 : 0300 grave
  228877 : 647 : 030C caron
  223643 : 405 : 0303 tilde
  183179 : 925 : 0307 dot above
  161065 : 220 : 0327 cedilla
  139691 : 325 : 0302 circumflex
   78995 : 81 : 0326 comma below
   77003 : 275 : 0331 macron below
   53611 : 52 : 030A ring above
   39859 : 53 : 0328 ogonek
   32347 : 41 : 031C left half ring below
   31473 : 64 : 030B double acute
   22931 : 29 : 0325 ring below
    8847 : 220 : 0324 diaeresis below
    7070 : 17 : 0309 hook above
    5947 : 2 : 0310 candrabindu
    2917 : 1513 : 0315 comma above right
    1192 : 28 : 0333 double low line
     535 : 161 : 0313 comma above
     139 : 33 : 032E breve below
      86 : 56 : FE22 double tilde left half
      36 : 49 : FE23 double tilde right half

 2479045 : 115477 : 0061 a
 1703342 : 89493 : 0069 i
 1587360 : 7326 : 0065 e
 1122957 : 1268890 : 006F o
  890518 : 596419 : 0075 u
  379260 : 28008 : 0073 s
  293146 : 943 : 006E n
  282121 : 49655 : 0074 t
  253739 : 266 : 0063 c
  106737 : 94340 : 0068 h
   76716 : 5498 : 0053 S
   73380 : 844 : 0049 I
   67138 : 3091 : 0041 A
   64510 : 311 : 0045 E
   62354 : 199 : 0072 r
   59537 : 3258 : 007A z
   55205 : 111 : 006D m
   53058 : 3152 : 0055 U
   41517 : 219 : 0079 y
   38633 : 4952 : 0064 d
   36899 : 21 : 006C l
   35261 : 11800 : 0054 T
   31653 : 26972 : 004F O
   25817 : 26912 : 0048 H
   24231 : 21 : 0043 C
   19701 : 71063 : 006B k
   15562 : 1545 : 0067 g
   11089 : 11 : 01B0 u-hook
    9721 : 6 : 00E6 ae
    7690 : 437 : 005A Z
    7683 : 41145 : 0076 v
    6886 : 332 : 0044 D
    6532 : 13899 : 004B K
    4621 : 0 : 0153 oe
    2995 : 0 : 01A1 o-hook
    2110 : 11 : 0052 R
    1888 : 9 : 0131 dotless-i
    1719 : 16 : 004E N
    1666 : 10 : 0047 G
    1166 : 6601 : 0056 V
     542 : 3 : 004C L
     496 : 1 : 0046 F
     492 : 36 : 0077 w
     325 : 38 : 0062 b
     219 : 33 : 0070 p
     156 : 9 : 0066 f
     151 : 2 : 0071 q
     143 : 56 : 006A j
      94 : 1 : 004A J
      86 : 7 : 0042 B
      61 : 5 : 0059 Y
      37 : 8 : 004D M
      31 : 0 : 0078 x
      21 : 1 : 0050 p
      21 : 0 : 01AF U-hook
      17 : 0 : 00C6 AE
      13 : 1 : 0051 Q
      11 : 0 : 01A0 O-hook
       5 : 3 : 0057 W
       4 : 0 : 0058 X
       3 : 0 : 0152 OE



This archive was generated by hypermail 2.1.2 : Tue Jul 10 2001 - 17:20:59 EDT