John Cowan noted:
>
> Kenneth Whistler wrote:
>
> > The raw figures are posted below.
>
> Thanks.
>
> > These constitute the lumped sums from both the MUMS Books database and
> > the JACKPHY database, containing 12,421,528 instances of characters with
> > diacritics, out of a total of 1,492,948,727 Latin characters.
>
> BTW, the JACKPHY database (IIRC) is bibliographic information (in Latin
> alphabet transliteration) for books written in non-Latin scripts.
> So it represents "non-native" uses of diacritics.
>
Fair enough. It appears that lumping the two sets of data from the
differing corpora yields misleading results. So here is the raw
data, recalculated, separating the MUMS Books database (first column)
and the JACKPHY database (second column), sorted in descending
frequency by number of occurrences in the MUMS Books database.
Comparing the two sets of data, it is clear that the JACKPHY database
contains an anomalously high frequency of macrons, breves, and dot belows,
and an anomalously low frequency of acutes, graves, carons, and tildes,
etc.
For the base letters, the JACKPHY database has an anomalously high
proportion of o's, u's, h's, k's, and v's carrying diacritics, and
an anomalously low proportion of e's, n's, and c's, etc.
--Ken
2734908 : 26711 : 0301 acute
1942596 : 1377578 : 0304 macron
1235235 : 294451 : 0308 diaeresis
690324 : 1596 : FE20 ligature left half
690216 : 1613 : FE21 ligature right half
603963 : 429204 : 0306 breve
558098 : 335900 : 0323 dot below
250563 : 1633 : 0300 grave
228877 : 647 : 030C caron
223643 : 405 : 0303 tilde
183179 : 925 : 0307 dot above
161065 : 220 : 0327 cedilla
139691 : 325 : 0302 circumflex
78995 : 81 : 0326 comma below
77003 : 275 : 0331 macron below
53611 : 52 : 030A ring above
39859 : 53 : 0328 ogonek
32347 : 41 : 031C left half ring below
31473 : 64 : 030B double acute
22931 : 29 : 0325 ring below
8847 : 220 : 0324 diaeresis below
7070 : 17 : 0309 hook above
5947 : 2 : 0310 candrabindu
2917 : 1513 : 0315 comma above right
1192 : 28 : 0333 double low line
535 : 161 : 0313 comma above
139 : 33 : 032E breve below
86 : 56 : FE22 double tilde left half
36 : 49 : FE23 double tilde right half
2479045 : 115477 : 0061 a
1703342 : 89493 : 0069 i
1587360 : 7326 : 0065 e
1122957 : 1268890 : 006F o
890518 : 596419 : 0075 u
379260 : 28008 : 0073 s
293146 : 943 : 006E n
282121 : 49655 : 0074 t
253739 : 266 : 0063 c
106737 : 94340 : 0068 h
76716 : 5498 : 0053 S
73380 : 844 : 0049 I
67138 : 3091 : 0041 A
64510 : 311 : 0045 E
62354 : 199 : 0072 r
59537 : 3258 : 007A z
55205 : 111 : 006D m
53058 : 3152 : 0055 U
41517 : 219 : 0079 y
38633 : 4952 : 0064 d
36899 : 21 : 006C l
35261 : 11800 : 0054 T
31653 : 26972 : 004F O
25817 : 26912 : 0048 H
24231 : 21 : 0043 C
19701 : 71063 : 006B k
15562 : 1545 : 0067 g
11089 : 11 : 01B0 u-hook
9721 : 6 : 00E6 ae
7690 : 437 : 005A Z
7683 : 41145 : 0076 v
6886 : 332 : 0044 D
6532 : 13899 : 004B K
4621 : 0 : 0153 oe
2995 : 0 : 01A1 o-hook
2110 : 11 : 0052 R
1888 : 9 : 0131 dotless-i
1719 : 16 : 004E N
1666 : 10 : 0047 G
1166 : 6601 : 0056 V
542 : 3 : 004C L
496 : 1 : 0046 F
492 : 36 : 0077 w
325 : 38 : 0062 b
219 : 33 : 0070 p
156 : 9 : 0066 f
151 : 2 : 0071 q
143 : 56 : 006A j
94 : 1 : 004A J
86 : 7 : 0042 B
61 : 5 : 0059 Y
37 : 8 : 004D M
31 : 0 : 0078 x
21 : 1 : 0050 p
21 : 0 : 01AF U-hook
17 : 0 : 00C6 AE
13 : 1 : 0051 Q
11 : 0 : 01A0 O-hook
5 : 3 : 0057 W
4 : 0 : 0058 X
3 : 0 : 0152 OE
This archive was generated by hypermail 2.1.2 : Tue Jul 10 2001 - 17:20:59 EDT