Dans un article publié dans les actes de TREC'06, (Attardi and Simi, 2006) présentent une expérimentation pilote sur un système d'opinion mining appliqué aux blogs.

Il s'agit d'une application de catégorisation automatique du contenu d'un panel de blogs : si la procédure est analogue à celle d'un moteur de recherche plein texte, elle implémente une fonction de classement qui exploite un index enrichi d'étiquettes marquant l'opinion, de "marqueurs de l'opinion", pourrait-on dire.

En clair, des "mots" définis comme porteurs de subjectivité forment une couche supplémentaire d'information pour l'indexation, en plus des éléments traditionnellement utilisés pour l'indexation documentaire. Le module de recherche s'appuie sur ces "mots" pour effectuer le calcul des scores associés aux documents, lesquels scores permettent de fournir des résultats classés par ordre de pertinence.

C'est en somme une méthode d'expansion de requête intégrée "en dur" dans l'index. C'est aussi une application qui procède d'une ontologie de l'opinion, s'inscrivant donc dans le sillon des approches lexicales du sens.

L'hypothèse forte de cette expérimentation est que l'utilisation des étiquettes marquant l'opinion permet de surpondérer les scores pour les documents qui ne ressortiraient pas avec un simple calcul statistique sur les fréquences d'occurrence de formes. Cette enrichissement de l'index permet d'améliorer le rappel (i.e. de rapatrier un plus grand nombre de documents pertinents parmi les résultats du moteur). Les auteurs l'expliquent ainsi :

Integrating opinion mining within search has also the possible advantage of avoiding missing documents that the IR engine might overlook, not having a sufficiently high score. For example a document that only mentions an entity once, but then provides a lot of opinionated remarks, might achieve a lower score than a document that mentions the entity often, without expressing any opinion. Since the relevant documents may be hundred thousands, the postprocessing stage might not have a chance to consider it.

Il faut noter que les auteurs ne donnent aucun exemple de l'index utilisé et s'appuient sur la ressource SentiWordNet, une ontologie qui synthétiserait tous les mots avec lesquels une opinion, un sentiment, un avis, une évaluation, une appréciation... pourrait être exprimée.

L'une des pistes que l'on pourrait proposer serait d'avoir recours à de l'extraction de termes à partir d'un corpus annoté, pour constituer l'ensemble des étiquettes marquant l'opinion, afin d'enrichir l'index utilisé.

De tels travaux devraient dépasser le stade expérimental, lorsque l'on sait tout le bénéfice qu'en tireraient les analystes d'opinion online intégrant les blogs dans le champ de leur étude.