Une instructive lecture sur la dernière somme de référence en date sur
l'opinion mining et la sentiment analysis. J'avais eu à en
faire une note, que j'ai ressortie de mes cartons : cela mérite d'être
partagé! On comprendra sans doute mieux en quoi (j'y reviendrai sans doute
ultérieurement) la problématique de la modélisation linguistique est cruciale
et constitue l'une des clés de l'évolution des systèmes d'opinion
mining et de sentiment analysis. Ma petite note de lecture,
donc...
Synopsis
Cet ouvrage consiste en une étude fondée sur plus de trois cent travaux de
recherche, donnant un aperçu des évolutions dans le domaine de la fouille de
données orientée opinion (opinion mining) et de l’analyse des sentiments
(sentiment analysis). Il présente les techniques et approches développées et
fournit un panorama de l’effort de recherche ainsi que des ressources
existantes.
- Historique, types d’applications et enjeux
L’émergence du World Wide Web et l’utilisation, aujourd’hui répandue, des
applications issues des Technologies de l’Information et de la Communication
(TIC), ont suscité l’apparition de nouveaux modes de communication, ce faisant,
contribué à instaurer de nouveaux espaces de propagation de l’information.
Pouvoir accéder, et partant, élaborer une métrique pour évaluer « ce qui
est dit », « comment on le dit » et « sur qui/quoi on le dit »,
est alors devenu un objet de recherche, ainsi qu’un enjeu stratégique pour les
entreprises et les institutions.
Si des chercheurs se sont penchés sur le sujet avant l’an 2000, c’est
véritablement à partir de 2001 que le nombre de travaux s’accroît. La jeunesse
de ce domaine suscite des instabilités terminologiques importantes. En effet,
l’effort de recherche s’est essentiellement orienté sur des problématiques
applicatives, laissant les aspects épistémologiques de côté. Les travaux
traitant de questions purement linguistiques sont par ailleurs peu
nombreux.
Quatre grands types d’applications sont mis en exergue par les
auteurs : (i) les applications liées aux sites d’avis de consommateurs,
par exemple sur les films ou les jeux vidéos ; (ii) l’intégration de
modules spécifiques dans des systèmes de e-commerce, de GRC (Gestion de la
Relation Clientèle) ou encore de Questions/Réponses ; (iii) les
applications de veille stratégique et de veille institutionnelle ; (iv)
enfin, l’analyse de discours politiques.
Bien qu’elles découlent de la fouille de données et de l’analyse de textes,
les technologies d’opinion mining et de sentiment analysis
posent des problèmes spécifiques, qui les distinguent et les rendent plus
complexes, à plusieurs égards, que les premières.
- Problématiques de classification et d’extraction de l’information
La classification documentaire et l’extraction d’information sont les
principaux domaines sur lesquels s’est concentré l’effort de recherche :
les auteurs y consacrent d’ailleurs une analyse détaillée. Cet effort, lié à la
mise au point d’algorithmes, donne lieu à la discussion de nouveaux concepts et
méthodes, comme en témoigne l’élaboration de modèles de langage
dédiés.
Des problématiques variées sont exposées. L’intégration des traits
linguistiques – en particulier les propriétés syntaxiques et le traitement de
la négation – et statistiques – l’impact de la présence et de la fréquence des
occurrences de formes dans les textes – dans le processus d’analyse,
constituent un enjeu important pour l’amélioration des systèmes.
L’adaptation au domaine de ces derniers, tout comme l’impact de
l’utilisation de données manuellement annotées, est aussi largement traité. De
ce point de vue, c’est avant tout le problème de la réutilisabilité des
ressources qui est considéré. Par ailleurs, les technologies de classification
et d’extraction sont abordées selon les approches d’apprentissage supervisé et
non supervisé.
Améliorer la prise en compte du contexte dans l’analyse, en particulier par
l’intégration de la structure discursive, impacte autant la classification que
l’extraction. Cependant, l’identification des attributs d’un produit ou d’une
opinion dans l’avis des consommateurs, comme celle des foyers de l’expression
de l’opinion – la question des opinion holders –, sont plus
spécifiquement liées à des problématiques d’extraction.
- Problématiques de résumé automatique de l’information
Deux paradigmes de résumé automatique, qui prennent soit pour objet un seul
texte, soit un ensemble de textes, sont successivement abordés par les auteurs.
En effet, les améliorations de l’un impactent celles de l’autre. Les
problématiques sont communes, même s’il faut distinguer entre les techniques de
résumé fondées sur l’identification automatique de thématiques de celles qui ne
le sont pas.
Corrélativement, certains systèmes peuvent intégrer une dimension temporelle
pour la représentation graphique de l’information. Observer l’évolution de
l’opinion en fonction du temps s’avère utile lors de l’étude de thématiques ou
d’avis de consommateurs sur une marque, un produit ou un service. L’analyse du
discours politique est également enrichie par des considérations
diachroniques.
Les données utilisées provenant le plus souvent de sites d’avis de
consommateurs, les applications de résumé automatique peuvent aussi tirer parti
de la réputation des utilisateurs, par le biais de scores qui leur sont
associés par la communauté, qui évalue ainsi leur crédibilité et donc,
indirectement, leur pouvoir d’influence, de recommandation.
- Domaines d’applications variés, problématiques élargies
Les travaux confirmant les corrélations entre les ventes de produits et la
tendance positive ou négative des avis de consommateurs se sont multipliés. Le
principe de la recommandation d’achat « de bouche à oreille », que les
avis publiés en ligne permettent de suivre et d’analyser, donc la question de
l’influence des leaders d’opinion sur les consommateurs, a un impact économique
important.
De manière générale, les applications de fouille de données visant à étudier
les préférences des individus, posent parfois un problème de confidentialité,
en particulier lorsqu’il s’agit de données récoltées à partir de sources non
accessibles publiquement.
Un autre aspect mentionné par les auteurs concerne la manipulation de
l’information. En effet, la participation des acteurs économiques, voire
institutionnels, aux conversations en ligne, peut avoir pour objectif
d’introduire un biais dans la diffusion de l’information. Certaines études ont
en effet révélé que ces acteurs sont attentifs à la façon dont tirer profit de
cette diffusion.
- Ressources publiquement accessibles
Cette section traite en premier lieu des banques de données textuelles,
annotées ou non, dont la plupart ont été élaborées à partir de 2005. D’autre
part, 2006 marque l’entrée de tâches d’opinion mining ou de
sentiment analysis dans les campagnes d’évaluation TREC et NTCIR.
Plusieurs ressources lexicales, par exemple des dictionnaires annotés ou des
lexiques d’adjectifs, sont également pris en compte.
Il faut souligner que les ressources mentionnées sont en anglais. Loin
d’être un biais initié par les auteurs, la bibliographie met en exergue le fait
que peu de chercheurs européens se sont penchés sur le problème jusqu’à
présent. En conséquence, les tutoriaux, banques bibliographiques et autres
listes de diffusion – en particulier la liste SentimentAI – sont mises en ligne
par quelques universitaires nord-américains.
Cet ouvrage est, à l’heure actuelle, l’un des premiers à donner accès à une
telle compilation de travaux, problématiques et ressources, dans le domaine de
l’opinion mining et de la sentiment analysis.
Référence complète : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.


