A 10:13 97-08-14 -0700, Otto Stolz a �crit :
>Content-Description: Text
>Content-Type: text/plain ; charset=iso-8859-1
>X-Zm-Decoding-Hint: mimencode -q -u
>
>On Aug 14, 7:46, Michael Everson wrote:
>> Then operations such as ligaturing [...] could be achieved globally
>> vis � vis the _script_ without language-tagging and so on.
>
>This will not work, in the general case.
Just by pure chance, I just wrote an article (in French about searching OE
on the web and saerching ingeneral for this sophisticated case)... I don't
have time to translate it into English (I'm overloaded by my work and more
than 540 unread messages accumulated in the half of my vacation where I did
not connect to Internet!) so don't flame me, if it displeases you, just
discard this message and we'll remain good friends (;
Alain LaBont�
Qu�bec
Here it is for those who read French:
�������������������������������������
A 10:50 97-08-14 -0700, Pierre Bastarache a �crit :
>Dans Altavista tu peux rechercher oeuvre ou oeuf �crit "�uvre" ou "�uf"
>car Altavista permet de chercher une cha�ne de caract�res telle qu'elle
>est �crite avec ses symboles et accents.
[Alain] :
Donc, ce n'est pas indiff�rent, et c'est � mon avis pervers, puisque si
l'on cherche � oeuf �, on ne retrouvera pas � �uf �, si je te comprend bien...
Pour �tre bien s�r que j'avais compris la phrase que tu me disais, mais
aussi pour v�rifier au-del� de ce qu'elle pouvait impliquer dans ta
compr�hension, j'ai v�rifi� moi m�me... Je te propose un test... J'ai
trouv� en Allemagne� une page web fran�aise qui comporte la cha�ne "F�te du
gros �uvre"... Si je cherche exactement cette cha�ne avec Altavista en
utilisant des guillemets anglais, �a marche, comme tu le dis (je retrouve
m�me deux autres pages web!)... Je m'y attendais, c'est trivial, bien s�r,
Altavista ne filtrant aucun caract�res, contrairement � d'autres moteurs de
recherche...
Mais si je cherche plut�t "F�te du gros oeuvre", Altavista ne trouve rien!
Il y a donc place � am�lioration... Bon, il y a un premier probl�me, c'est
que le � � � cod� dans cette page allamande est un caract�re Windows,
utilisant donc un codage non normalis�... L'alphabet latin n� 0 propos� �
l'ISO corrigera cela pour les jeux de caract�res � 8 bits. Mais tout cela,
ce sont des consid�rations de techniciens... � Pauvre utilisateur moyen �,
me dis-je! M�me avec UNICODE, ce soutien ne sera pas �vident, � moins que
l'on exprime le besoin clairement.
Bien s�r, faire r�f�rence � ISO/CEI 14651, comme ta page web� le fait,
implique que les deux seront retrouv�s si la recherche se fait avec � oeuf
�... Il y a dans la fa�on fondamentale de proc�der d'Altavista tout ce
qu'il faut pour un soutien correct en deux temps, trois mouvements (tout
est index� en double : en accentu� int�gral [ce qui devrait comprendre les
ligatures telles quelles, et c'est le cas], et en �quivalent non accentu�
[ce qui devrait comprendre l'�quivalent de � en � oe �, mais l� ce n'est
pas le cas pour l'instant]).
Je sugg�re donc de donner un exemple, car je vois que tu n'avais pas saisi
l'ampleur du probl�me.
Il ne faut pas faire l'erreur de penser que si les caract�res sont reconnus
par un syst�me, la recherche ne pr�sente aucune difficult� a priori. C'est
l'erreur que commettent, entre autres, la plupart des d�veloppeurs
am�ricains, qui, n'utilisant eux-m�mes que l'anglais dans leur vie de tous
les jours, ne font pas ce genre de tests (les natifs francophones ne
pensent m�me pas automatiquement que c'est un probl�me, alors, �a explique
bien des choses).
Tous les caract�res n'ont pas les m�mes propri�t�s.
Comme je l'ai dit pr�c�demment, c'est quand m�me Altavista qui s'en tire
aujourd'hui le mieux. Mais il y a toujours place � am�lioration,
heureusement pour ceux qui y travaillent d'ailleurs. Il y a un c�t� positif
� tout.
Alain LaBont�
Qu�bec
� http://www.saarbruecken.de/sbnet/03/03_42f.htm
� http://www.sgo.gouv.qc.ca/sgo/sertir/sernou01.htm
(attention, cette page est susceptible d'�tre mise � jour et
l'information � laquelle l'on se r�f�re ici pourrait dispara�tre)
This archive was generated by hypermail 2.1.2 : Tue Jul 10 2001 - 17:20:36 EDT