Dans un article publié dans les actes de TREC'06, (Attardi and Simi, 2006) présentent une expérimentation
pilote sur un système d'opinion mining appliqué aux
blogs.
Il s'agit d'une application de catégorisation automatique du contenu d'un
panel de blogs : si la procédure est analogue à celle d'un moteur de
recherche plein texte, elle implémente une fonction de classement qui exploite
un index enrichi d'étiquettes marquant l'opinion, de
"marqueurs de l'opinion", pourrait-on dire.
En clair, des "mots" définis comme porteurs de subjectivité forment
une couche supplémentaire d'information pour l'indexation, en plus des
éléments traditionnellement utilisés pour l'indexation documentaire. Le module
de recherche s'appuie sur ces "mots" pour effectuer le calcul des
scores associés aux documents, lesquels scores permettent de fournir
des résultats classés par ordre de pertinence.
C'est en somme une méthode d'expansion de requête intégrée "en dur" dans
l'index. C'est aussi une application qui procède d'une ontologie de l'opinion,
s'inscrivant donc dans le sillon des approches lexicales du sens.
L'hypothèse forte de cette expérimentation est que l'utilisation des étiquettes marquant l'opinion permet de surpondérer les scores pour les documents qui ne ressortiraient pas avec un simple calcul statistique sur les fréquences d'occurrence de formes. Cette enrichissement de l'index permet d'améliorer le rappel (i.e. de rapatrier un plus grand nombre de documents pertinents parmi les résultats du moteur). Les auteurs l'expliquent ainsi :
Integrating opinion mining within search has also the possible advantage of avoiding missing documents that the IR engine might overlook, not having a sufficiently high score. For example a document that only mentions an entity once, but then provides a lot of opinionated remarks, might achieve a lower score than a document that mentions the entity often, without expressing any opinion. Since the relevant documents may be hundred thousands, the postprocessing stage might not have a chance to consider it.
Il faut noter que les auteurs ne donnent aucun exemple de l'index utilisé et
s'appuient sur la ressource SentiWordNet, une ontologie qui synthétiserait tous les mots
avec lesquels une opinion, un sentiment, un avis, une évaluation, une
appréciation... pourrait être exprimée.
L'une des pistes que l'on pourrait proposer serait d'avoir recours à
de l'extraction de termes à partir d'un corpus annoté, pour constituer
l'ensemble des étiquettes marquant l'opinion, afin d'enrichir l'index
utilisé.
De tels travaux devraient dépasser le stade expérimental, lorsque l'on sait tout le bénéfice qu'en tireraient les analystes d'opinion online intégrant les blogs dans le champ de leur étude.