Occurrence? Forme? Fréquence absolue ou relative? Kézako? Petit mémo pour ceux qui travaillent sur les textes...

  • les occurrences correspondent aux unités dans lesquelles la chaîne graphique - la chaîne de caractères qui compose le texte - est découpée;
  • les formes sont des types d'occurrences, c'est-à-dire qu'elles correspondent à des segments ayant la même chaîne graphique (exemple : dans le début de ce billet, on peut compter 3 occurrences de la forme les);
  • la chaîne graphique est découpée par des séparateurs - ou segmenteurs - : les types, donc les formes, ont un nombre d'occurrence dans le texte, comme on vient de le voir;
  • la segmentation permet d'isoler dans le texte des unités de décompte, donc des segments de texte à partir desquels sont effectuées des opérations statistiques.

Lorsque l'on travaille sur les textes, c'est généralement dans la perspective de les contraster, de les comparer les uns aux autres. Introduisons ici l'acception de la notion de corpus la plus intuitive : un corpus est un ensemble de textes.
Afin de pouvoir analyser un corpus, il convient d'introduire la notion de partition : l'ensemble de textes, découpé en unités minimales ou occurrences, doit subir un second découpage en parties; définir différentes partitions du corpus permet de les comparer entre elles.

TLE.jpg

Comment corréler les formes, leurs occurrences et la partition du corpus? Au moyen d'un TLE (Tableau Lexical Entier). Un TLE est une matrice creuse, qui permet de comparer les parties en fonction du nombre des occurrences de formes. Le découpage en parties dépend des hypothèses d'analyse émises dans le cadre de l'étude d'un corpus, à la différence de la segmentation en occurrences, qui dépend, quant à elle, des séparateurs des unités minimales du texte considérées (les suites de caractères séparées par des blancs, les segments de texte entre virgules, par exemple).
Le nombre de formes dans une partie est une sous-fréquence de la fréquence d'occurrences totale dans le corpus. Cela nous permet d'aborder la distinction entre les notions de fréquence absolue et fréquence relative :

  • la fréquence absolue correspond au nombre d'occurrences réellement observé pour une forme donnée. Ce nombre n'est pas rapporté à une autre grandeur; la fréquence absolue ne permet pas de comparaison : on ne peut se fier à cette seule mesure pour interpréter la significativité des formes dans le corpus.
  • la fréquence relative, quant à elle, rend comparables les fréquences absolues, en prenant en compte la longueur des parties. Cette dernière doit être considérée, car le calcul de la fréquence relative d'une forme dans le corpus relève alors d'un décompte des occurrences dans des ensembles de longueur différente. On dira donc que la fréquence relative est la fréquence absolue de la forme, rapportée à la longueur de la partie.

Hope it helps!