Les langues rares, en voie d'extinction ou dans le meilleur des cas encore pratiquées par une communauté active, sont majoritairement sous représentées sur la grande toile d'information nommée Web. Il est certain que des enjeux économico-historiques ont contribué à cet état de fait, en particulier pour ce qui impacte les politiques linguistiques, d'instruction et d'équipement en infrastructures d'enseignement.
J'ai trouvé l'occasion, dans un devoir pour un cours intitulé Outils de traitement de corpus, de constituer un modeste panorama du sujet, en recensant quelques outils de TAL existants ainsi que certaines initiatives pour l'accès à la numérisation de ces langues, dites peu dotées.

Vous trouverez le papier ici (OTC-languesPeuDotées) et le résumé ci-dessous :

Nous nous proposons ici de donner un panorama des recherches et outils développés pour le traitement automatique des langues peu dotées, ou langues-pi. La possibilité de pouvoir constituer et analyser des ressources linguistiques informatisées pour de telles langues relève de perspectives humaines et culturelles. En effet, les travaux de recherche du TAL appliquées aux langues minoritaires contribuent sans doute de leur survie, s'inscrivant dans une perspective de préservation du patrimoine culturel associé à une langue, et peuvent par ailleurs constituer paramètre décisif dans l'alphabétisation des populations.