Petites notions de statistique textuelle
Par Marguerite le samedi 3 janvier 2009, 00:09 - Linguistiquement parlant - Lien permanent
Occurrence? Forme? Fréquence absolue ou relative? Kézako? Petit mémo pour
ceux qui travaillent sur les textes...
- les occurrences correspondent aux unités dans lesquelles la chaîne graphique - la chaîne de caractères qui compose le texte - est découpée;
- les formes sont des types d'occurrences, c'est-à-dire qu'elles correspondent à des segments ayant la même chaîne graphique (exemple : dans le début de ce billet, on peut compter 3 occurrences de la forme les);
- la chaîne graphique est découpée par des séparateurs - ou segmenteurs - : les types, donc les formes, ont un nombre d'occurrence dans le texte, comme on vient de le voir;
- la segmentation permet d'isoler dans le texte des unités
de décompte, donc des segments de texte à partir desquels sont effectuées des
opérations statistiques.
Lorsque l'on travaille sur les textes, c'est généralement dans la
perspective de les contraster, de les comparer les uns aux autres. Introduisons
ici l'acception de la notion de corpus la plus
intuitive : un corpus est un ensemble de textes.
Afin de pouvoir analyser un corpus, il convient d'introduire la notion de
partition : l'ensemble de textes, découpé en unités
minimales ou occurrences, doit subir un second découpage en parties; définir
différentes partitions du corpus permet de les comparer entre elles.
Comment corréler les formes, leurs occurrences et la partition du corpus? Au
moyen d'un TLE (Tableau Lexical Entier). Un TLE est une
matrice creuse, qui permet de comparer les parties en fonction du nombre des
occurrences de formes. Le découpage en parties dépend des hypothèses d'analyse
émises dans le cadre de l'étude d'un corpus, à la différence de la segmentation
en occurrences, qui dépend, quant à elle, des séparateurs des unités minimales
du texte considérées (les suites de caractères séparées par des blancs, les
segments de texte entre virgules, par exemple).
Le nombre de formes dans une partie est une sous-fréquence de la fréquence
d'occurrences totale dans le corpus. Cela nous permet d'aborder la distinction
entre les notions de fréquence absolue et fréquence relative :
- la fréquence absolue correspond au nombre d'occurrences réellement observé pour une forme donnée. Ce nombre n'est pas rapporté à une autre grandeur; la fréquence absolue ne permet pas de comparaison : on ne peut se fier à cette seule mesure pour interpréter la significativité des formes dans le corpus.
- la fréquence relative, quant à elle, rend comparables les
fréquences absolues, en prenant en compte la longueur des parties. Cette
dernière doit être considérée, car le calcul de la fréquence relative d'une
forme dans le corpus relève alors d'un décompte des occurrences dans des
ensembles de longueur différente. On dira donc que la fréquence relative est la
fréquence absolue de la forme, rapportée à la longueur de la partie.
Hope it helps!
