MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - sentiment analysis

Fil des billets - Fil des commentaires

jeudi 10 septembre 2009

Opinion Mining and Sentiment Analysis, Pang and Lee (2008)

Pang_Lee2008.jpg Une instructive lecture sur la dernière somme de référence en date sur l'opinion mining et la sentiment analysis. J'avais eu à en faire une note, que j'ai ressortie de mes cartons : cela mérite d'être partagé! On comprendra sans doute mieux en quoi (j'y reviendrai sans doute ultérieurement) la problématique de la modélisation linguistique est cruciale et constitue l'une des clés de l'évolution des systèmes d'opinion mining et de sentiment analysis. Ma petite note de lecture, donc...

Synopsis
Cet ouvrage consiste en une étude fondée sur plus de trois cent travaux de recherche, donnant un aperçu des évolutions dans le domaine de la fouille de données orientée opinion (opinion mining) et de l’analyse des sentiments (sentiment analysis). Il présente les techniques et approches développées et fournit un panorama de l’effort de recherche ainsi que des ressources existantes.

  • Historique, types d’applications et enjeux

L’émergence du World Wide Web et l’utilisation, aujourd’hui répandue, des applications issues des Technologies de l’Information et de la Communication (TIC), ont suscité l’apparition de nouveaux modes de communication, ce faisant, contribué à instaurer de nouveaux espaces de propagation de l’information. Pouvoir accéder, et partant, élaborer une métrique pour évaluer « ce qui est dit », « comment on le dit » et « sur qui/quoi on le dit », est alors devenu un objet de recherche, ainsi qu’un enjeu stratégique pour les entreprises et les institutions.

Si des chercheurs se sont penchés sur le sujet avant l’an 2000, c’est véritablement à partir de 2001 que le nombre de travaux s’accroît. La jeunesse de ce domaine suscite des instabilités terminologiques importantes. En effet, l’effort de recherche s’est essentiellement orienté sur des problématiques applicatives, laissant les aspects épistémologiques de côté. Les travaux traitant de questions purement linguistiques sont par ailleurs peu nombreux.

Quatre grands types d’applications sont mis en exergue par les auteurs : (i) les applications liées aux sites d’avis de consommateurs, par exemple sur les films ou les jeux vidéos ; (ii) l’intégration de modules spécifiques dans des systèmes de e-commerce, de GRC (Gestion de la Relation Clientèle) ou encore de Questions/Réponses ; (iii) les applications de veille stratégique et de veille institutionnelle ; (iv) enfin, l’analyse de discours politiques.

Bien qu’elles découlent de la fouille de données et de l’analyse de textes, les technologies d’opinion mining et de sentiment analysis posent des problèmes spécifiques, qui les distinguent et les rendent plus complexes, à plusieurs égards, que les premières.

  • Problématiques de classification et d’extraction de l’information

La classification documentaire et l’extraction d’information sont les principaux domaines sur lesquels s’est concentré l’effort de recherche : les auteurs y consacrent d’ailleurs une analyse détaillée. Cet effort, lié à la mise au point d’algorithmes, donne lieu à la discussion de nouveaux concepts et méthodes, comme en témoigne l’élaboration de modèles de langage dédiés.

Des problématiques variées sont exposées. L’intégration des traits linguistiques – en particulier les propriétés syntaxiques et le traitement de la négation – et statistiques – l’impact de la présence et de la fréquence des occurrences de formes dans les textes – dans le processus d’analyse, constituent un enjeu important pour l’amélioration des systèmes.

L’adaptation au domaine de ces derniers, tout comme l’impact de l’utilisation de données manuellement annotées, est aussi largement traité. De ce point de vue, c’est avant tout le problème de la réutilisabilité des ressources qui est considéré. Par ailleurs, les technologies de classification et d’extraction sont abordées selon les approches d’apprentissage supervisé et non supervisé.

Améliorer la prise en compte du contexte dans l’analyse, en particulier par l’intégration de la structure discursive, impacte autant la classification que l’extraction. Cependant, l’identification des attributs d’un produit ou d’une opinion dans l’avis des consommateurs, comme celle des foyers de l’expression de l’opinion – la question des opinion holders –, sont plus spécifiquement liées à des problématiques d’extraction.

  • Problématiques de résumé automatique de l’information

Deux paradigmes de résumé automatique, qui prennent soit pour objet un seul texte, soit un ensemble de textes, sont successivement abordés par les auteurs. En effet, les améliorations de l’un impactent celles de l’autre. Les problématiques sont communes, même s’il faut distinguer entre les techniques de résumé fondées sur l’identification automatique de thématiques de celles qui ne le sont pas.

Corrélativement, certains systèmes peuvent intégrer une dimension temporelle pour la représentation graphique de l’information. Observer l’évolution de l’opinion en fonction du temps s’avère utile lors de l’étude de thématiques ou d’avis de consommateurs sur une marque, un produit ou un service. L’analyse du discours politique est également enrichie par des considérations diachroniques.

Les données utilisées provenant le plus souvent de sites d’avis de consommateurs, les applications de résumé automatique peuvent aussi tirer parti de la réputation des utilisateurs, par le biais de scores qui leur sont associés par la communauté, qui évalue ainsi leur crédibilité et donc, indirectement, leur pouvoir d’influence, de recommandation.

  • Domaines d’applications variés, problématiques élargies

Les travaux confirmant les corrélations entre les ventes de produits et la tendance positive ou négative des avis de consommateurs se sont multipliés. Le principe de la recommandation d’achat « de bouche à oreille », que les avis publiés en ligne permettent de suivre et d’analyser, donc la question de l’influence des leaders d’opinion sur les consommateurs, a un impact économique important.

De manière générale, les applications de fouille de données visant à étudier les préférences des individus, posent parfois un problème de confidentialité, en particulier lorsqu’il s’agit de données récoltées à partir de sources non accessibles publiquement.

Un autre aspect mentionné par les auteurs concerne la manipulation de l’information. En effet, la participation des acteurs économiques, voire institutionnels, aux conversations en ligne, peut avoir pour objectif d’introduire un biais dans la diffusion de l’information. Certaines études ont en effet révélé que ces acteurs sont attentifs à la façon dont tirer profit de cette diffusion.

  • Ressources publiquement accessibles

Cette section traite en premier lieu des banques de données textuelles, annotées ou non, dont la plupart ont été élaborées à partir de 2005. D’autre part, 2006 marque l’entrée de tâches d’opinion mining ou de sentiment analysis dans les campagnes d’évaluation TREC et NTCIR. Plusieurs ressources lexicales, par exemple des dictionnaires annotés ou des lexiques d’adjectifs, sont également pris en compte.

Il faut souligner que les ressources mentionnées sont en anglais. Loin d’être un biais initié par les auteurs, la bibliographie met en exergue le fait que peu de chercheurs européens se sont penchés sur le problème jusqu’à présent. En conséquence, les tutoriaux, banques bibliographiques et autres listes de diffusion – en particulier la liste SentimentAI – sont mises en ligne par quelques universitaires nord-américains.

Cet ouvrage est, à l’heure actuelle, l’un des premiers à donner accès à une telle compilation de travaux, problématiques et ressources, dans le domaine de l’opinion mining et de la sentiment analysis.

Référence complète : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

dimanche 26 avril 2009

A venir : une présentation d'OpenCalais

Cela fait déjà quelques mois que je repousse le moment de mettre sérieusement à parler du système OpenCalais. Promis, j'arrête la procrastination et je vous prépare quelque chose pour bientôt!

mercredi 25 mars 2009

Blog mining through opinionated words, (Attardi and Simi, 2006)

Dans un article publié dans les actes de TREC'06, (Attardi and Simi, 2006) présentent une expérimentation pilote sur un système d'opinion mining appliqué aux blogs.

Il s'agit d'une application de catégorisation automatique du contenu d'un panel de blogs : si la procédure est analogue à celle d'un moteur de recherche plein texte, elle implémente une fonction de classement qui exploite un index enrichi d'étiquettes marquant l'opinion, de "marqueurs de l'opinion", pourrait-on dire.

En clair, des "mots" définis comme porteurs de subjectivité forment une couche supplémentaire d'information pour l'indexation, en plus des éléments traditionnellement utilisés pour l'indexation documentaire. Le module de recherche s'appuie sur ces "mots" pour effectuer le calcul des scores associés aux documents, lesquels scores permettent de fournir des résultats classés par ordre de pertinence.

C'est en somme une méthode d'expansion de requête intégrée "en dur" dans l'index. C'est aussi une application qui procède d'une ontologie de l'opinion, s'inscrivant donc dans le sillon des approches lexicales du sens.

L'hypothèse forte de cette expérimentation est que l'utilisation des étiquettes marquant l'opinion permet de surpondérer les scores pour les documents qui ne ressortiraient pas avec un simple calcul statistique sur les fréquences d'occurrence de formes. Cette enrichissement de l'index permet d'améliorer le rappel (i.e. de rapatrier un plus grand nombre de documents pertinents parmi les résultats du moteur). Les auteurs l'expliquent ainsi :

Integrating opinion mining within search has also the possible advantage of avoiding missing documents that the IR engine might overlook, not having a sufficiently high score. For example a document that only mentions an entity once, but then provides a lot of opinionated remarks, might achieve a lower score than a document that mentions the entity often, without expressing any opinion. Since the relevant documents may be hundred thousands, the postprocessing stage might not have a chance to consider it.

Il faut noter que les auteurs ne donnent aucun exemple de l'index utilisé et s'appuient sur la ressource SentiWordNet, une ontologie qui synthétiserait tous les mots avec lesquels une opinion, un sentiment, un avis, une évaluation, une appréciation... pourrait être exprimée.

L'une des pistes que l'on pourrait proposer serait d'avoir recours à de l'extraction de termes à partir d'un corpus annoté, pour constituer l'ensemble des étiquettes marquant l'opinion, afin d'enrichir l'index utilisé.

De tels travaux devraient dépasser le stade expérimental, lorsque l'on sait tout le bénéfice qu'en tireraient les analystes d'opinion online intégrant les blogs dans le champ de leur étude.

dimanche 3 août 2008

The Appraisal Theory (Martin & White, 2005)

MartinANDWhiteBook.jpg

L’Appraisal Theory s’intéresse à la manière de modéliser le langage évaluatif, en particulier à la relation d’influence induite par les stratégies mises en œuvre par l’auteur d’un texte, qui conditionneraient le lecteur à adopter son opinion. Se réclamant de la linguistique systémique fonctionnelle (Systemic Functional Linguistics, ou SFL), Martin et White entendent situer la notion d’appréciation within a holistic model of language and social context (The Language of evaluation, Introduction, p.7). L’intégration du contexte social dans l’interprétation du donner à voir qu’exhibe l’auteur n’est pas sans rappeler certains critères d’analyse de la sociolinguistique interactionnelle. En particulier, ce que (Gumperz, 1999) caractérise en termes de processus de contextualisation verbaux. (Référence exacte : Gumperz, J. (1999). On interactional sociolinguistic method. In S. Sarangi & C. Roberts (Ed.), Talk, Work and Institutional Order. Discourse in Medical, Mediation and Management Settings (p.453-471))

La Théorie de l’Appréciation se concentre plus précisément, parmi l’ensemble des ressources sémiotiques, ou métafonctions dans la terminologie de la SFL, mobilisées par les locuteurs dans leur démarche de construction du sens, sur la métafonction interpersonnelle. Plusieurs aspects sont alors distingués, comme constitutifs de la métafonction interpersonnelle, ce modèle théorique se réclamant d’une perspective holistique. Les rapports d’influence entre l’auteur d’un texte et son lecteur, médiatisés par l’expression de l’opinion, constituent l’un des objets d’étude de ce modèle. C’est bien le donner à voir, c’est-à-dire le positionnement tel que l’émetteur du message le présente comme objectif ou subjectif, qui est soumis à l’étude, par le biais de l’analyse textuelle – les indices lexico-syntaxiques, entre autres –.

La modélisation de la sémantique de l’appréciation telle qu’elle est exposée dans (Martin and White, 2005), se veut topologique et non typologique. Ils n’entendent donc pas proposer une analyse catégorielle mais graduelle de l’appréciation : The introduction of scaled systems shifts our perspective from categorical to graded analysis. (It) is a shift from typology to topology. (op.cit., Introduction, p.16). Il s’agit en fait d’une modélisation des régions de sens, ainsi que de la proximité qu’entretiennent les sens entre eux, en fonction d’un continuum de variation.