Produire et diffuser des connaissances linguistiques
via un correcteur orthographique
Chantal Enguehard (Panelististe) - Université de Nantes

Intended Audience: Software Engineers, African Linguists, Ethnolinguists

Session Level: Intermediate

Les langues africaines sont peu présentes sur Internet, pourtant certaines sont parlées par une importante population. Ainsi, le bambara au Mali, le wolof au Sénégal et le swahili en Afrique de l'Est sont des exemples de grandes langues de communication. L'émergence du standard Unicode permet de produire et d'afficher des textes électroniques dans ces langues, mais ils sont rares car la population ne possède pas toujours les compétences nécessaires pour écrire sa propre langue : l'enseignement est sommaire (une grande partie de la population quitte l'école après la cycle primaire), et les ressources linguistiques sont quasi-inexistantes. La plupart des langues ne bénéficient d'aucun dictionnaire monolingue, ce qui est une situation paradoxale puisque qu'elles sont souvent dotées de plusieurs dictionnaires bilingues.

L'utilisation de correcteurs orthographiques adaptés à la situation africaine peut contribuer à améliorer cette situation en assurant le double rôle de vérification de l'orthographe (comme les correcteurs orthographiques usuels), et de diffusion de connaissances linguistiques (le correcteur orthographique peut dispenser les connaissances linguistiques dont il dispose). Il est possible de réaliser de tels correcteurs en rassemblant et compilant les ressources linguistiques existant dans les institutions et en utilisant des algorithmes robustes. L'existence de correcteurs orthographiques pour des langues longtemps délaissées, c'est-à-dire l'inscription de ces langues dans les technologies les plus modernes, représente un encouragement certain pour produire, lire et échanger des textes.

La production de ressources linguistiques reste toutefois un problème dans des pays ayant des ressources limitées. L'exploitation de corpus existants, leur dépouillement à l'aide de systèmes adaptés peuvent considérablement aider le travail des linguistes.

Ce processus est actuellement testé sur le bambara (une des langues du Mali) en collaboration avec des linguistes du CNR-ENF (Centre National de Recherche en Education Non Formelle).

FERME