Outils de traitement de corpus et langues peu dotées
Par Marguerite le mercredi 23 juillet 2008, 00:21 - Linguistiquement parlant - Lien permanent
Les langues rares, en voie d'extinction ou dans le meilleur des cas encore
pratiquées par une communauté active, sont majoritairement sous représentées
sur la grande toile d'information nommée Web. Il est certain que des enjeux
économico-historiques ont contribué à cet état de fait, en particulier pour ce
qui impacte les politiques linguistiques, d'instruction et d'équipement en
infrastructures d'enseignement.
J'ai trouvé l'occasion, dans un devoir pour un cours intitulé Outils de
traitement de corpus, de constituer un modeste panorama du sujet, en
recensant quelques outils de TAL existants ainsi que certaines initiatives pour
l'accès à la numérisation de ces langues, dites peu dotées.
Vous trouverez le papier ici (OTC-languesPeuDotées) et le
résumé ci-dessous :
Nous nous proposons ici de donner un panorama des recherches et outils développés pour le traitement automatique des langues peu dotées, ou langues-pi. La possibilité de pouvoir constituer et analyser des ressources linguistiques informatisées pour de telles langues relève de perspectives humaines et culturelles. En effet, les travaux de recherche du TAL appliquées aux langues minoritaires contribuent sans doute de leur survie, s'inscrivant dans une perspective de préservation du patrimoine culturel associé à une langue, et peuvent par ailleurs constituer paramètre décisif dans l'alphabétisation des populations.