OF en parle : FeedVis, une application qui permet de faire du tri dans la nuée de flux que peut être amené à ingurgiter le veilleur web. Son auteur, Jason Priem, donne quelques infos et propose sa nouvelle release en téléchargement ici.
OF met bien en exergue le problème de la gestion de l'encodage (UTF8, tu connais?), avec cette instructive image que je me permets de reporter ici :

Feedvis.jpg

Associer une timeline à la génération du nuage de tags construit à partir de vos flux RSS? Proposer quelques résultats de calculs statistiques élémentaires sur la fréquence des occurrences de formes? Revendiquer une couche de lemmatisation avant l'application de ces calculs statistiques? "Sounds nice!", direz-vous, mais en fait, rien de neuf sous le soleil de 2009.

Je salue l'initiative de développer ce genre d'applications web, mais linguistiquement parlant, je tique surtout sur la lemmatisation. Jason Priem nous explique :

Conversations change, and I wanted to see that. I wanted more context

Reprenons :

  • le lemme est la forme non fléchie, par exemple d'un verbe (lemme = aller, forme fléchie = va) ou d'un substantif (lemme = mot, forme fléchie = mots);
  • la lemmatisation consiste donc à rapporter un ensemble de formes fléchies à une forme non fléchie, dite lemmatisée (stratégies, stratégique, stratégiquement rapportées à stratégie, par exemple);
  • en TAL, la lemmatisation est un procédé souvent utilisé car il permet d'obtenir de "meilleures" statistiques sur les fréquences d'occurrences de formes dans un texte; l'idée est la suivante : au lieu d'avoir des statistiques pour stratégies, stratégique et stratégiquement isolément, on regroupe les résultats de ces différentes formes fléchies en les couplant à celles du lemme stratégie;
  • meilleures statistiques? Selon moi, il n'est pas utile d'appliquer une couche de lemmatisation lorsque, comme Jason Priem, l'on prétend vouloir "more context". Pourquoi? Simplement parce que la lemmatisation est une réduction de la variation lexicale présente dans les textes et évacue véritablement le contexte.
  • le contexte (si l'on chipotait, l'on parlerait plutôt de cotexte, d'ailleurs, mais passons) est justement accessible par la diversité des formes présentes dans le texte : les fréquences d'occurrence de pieds ou de pied sont liées au contexte (c'est-à-dire à des emplois différents dans le discours : le pied de la montagne et les pieds de mon ami, par exemple)

En somme :

  1. la lemmatisation maquille le changement dans les conversations
  2. la justification de son emploi est très discutable, d'un point de vue linguistique en tous cas : le contexte, c'est la variation des formes; pourquoi alors les réduire à un artefact, le lemme?