MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - sentiment analysis

Fil des billets - Fil des commentaires

samedi 12 novembre 2011

"Better filters will play a big part"... towards an "expert + system" model in content analysis solutions

During the last couple of years, there has been some brief bursts of content issues here and there, impacting search as well as content analysis. In a recent tribune for Sparksheet.com, Karyn Campbell (The IdeaList) took an interesting stand, saying whatever 3.0 looks like, better filters will play a big part. professional, human filters will play an integral role in the next web after all. I bet she has hollow nose !

Well, indeed, this makes sense and resonates with some other clues around there. 

Remember : two years ago, Yahoo! patented human intervention through a "human editor ranking system" in its engine. At that time, their point was that such a process obtained more refined results. The idea that, for qualitative results with high expectations concerning accuracy and preciseness, it is needed to have human experts in the game, well, this idea made its way. Better filters.

About one year later, one of the Pew Internet studies emphasized that :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

Better filters, again ! In a march 2010 Researcher's tribune by Martin Hayward, some ideas bring water to our mill :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably. we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

What could this mean for content analysis now, which has a foot in search issues and the other in qualitative content analysis and curation issues ? More specifically, what would this mean for the business applications of content analysis, such as trend monitoring solutions, sentiment analysis and other types of applications dealing with one of the biggest amount of information available - say User Generated Content from the social media areas of the web ?

Back in 2009, Asi Sharabi made a realistic but critical portrait of social media monitoring solutions. The systems may have improved by now, but several raised issues still are more relevant than ever :
  • "Unreliable data" : where do the most part of your brand's mentions come from ? is there any feature allowing you to make a distinction between spam messages, deceptive reviews and the spontaneous conversational material you'd like to meaningfully draw insights from ? Rhetoric question, of course there's not such a feature.
  • "Sentiment analysis is flawed" : even if there is progress on the subject, the idea that fully-automated systems are costly to set up, train and adapt from a domain to another has also made its way, which benefits to a different approach : defining a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.
  • "Time consuming" : Asi Sharabi put it well, saying it may take "hours and days" to accurately configure a dashboard. Is this time-consuming step a proper and adequate one to put on any end-user working in a social media, communication or marketing department ?  As suggested by the author, at some point, it would be more profitable for the client to pay an analyst to do the job.
No, unfortunately, the situation has not tremendously evolved since then. Just ask some social media analysts dealing with dashboards and qualitative insight to provide well maybe I attract the bad tempered ones a lot. So, what can be said after that ? 
A few more words. Making faster but accurate and congruent business decisions and recommandations using content analysis solutions is not the core of the problem. The core of the problem more likely lies in setting up an appropriate workflow, with a single main idea : expert systems need experts, and they need them upstream and downstream of the data analysis process. Data scientists skills are without any doubt one of the keys to a "better filtering" of content, to provide, curate and analyse real qualitative content.

mercredi 4 mai 2011

Opinion Mining & Sentiment Analysis, or what sets up a hot topic

SAS2011.jpgThe Sentiment Analysis Symposium was a great experience for me ! Back in Paris, I first thought of updating my last post on Opinion Mining and Sentiment Analysis. But the update grew heavier and heavier, so here's a enhanced one.

Context

For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, a great amount of commercial offers have been built on what is still to be taken as a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

One of the major issues dealing with huge amounts of User-Generated Content published online – also referred to as UGC – implies mining opinions, which means detecting their polarity, knowing the target(s) they aim at and what arguments they rely on. Opinion Mining/Sentiment Analysis tools are, simply put, derived from Information Extraction (such as Named Entities detection) and Natural Language Processing technologies (such as syntactic parsing). Given this, simply put, they work like an enhanced search engine with complex data calculation habilities and knowledge bases.

Applications with pieces of linguistics inside

Four types of applications are put forth in (Pang & Lee, 2008)’s reference survey :

  1. those seeking for customer insight, in movie or product reviews websites or in social networks ;
  2. the specific integrations within CRM (Customer Relationship Management) or e-commerce systems ;
  3. the strategic foresight and e-reputation applications ;
  4. and last but not least, political discourse analysis.

Automated textual summaries also stands as a very promising subtask, as it is currenlty deeply linked to data visualization for information summarization.

Among the numerous problematics related to Opinion Mining and Sentiment Analysis systems adressed in (Pang & Lee, 2008)’s, I would pinpoint two of particular interest from a linguistic point of view :

  1. linguistic – e.g. syntactic properties and negation modelization – and statistic – e.g. the type/token distribution within large amounts of texts - features as an important issue for systems improvement ;
  2. current processes for adapting Linguistic Resources- such as lexicons or dictionaries – to various domains as an impediment to cost-cutting and reusability.

Not as easy as it seems

Indeed, the Social Media industry expresses a growing interest and need towards NLP technologies to overcome issues such as accuracy, robustness and multilinguism. Sentiment Analysis & Opinion Mining became a promising business field a couple of years ago, as a very well documented post by Doug Henschen for Information Week explains.

But quick recipes are easily found on the web, as shown by a glance on Quora’s « How does Sentiment Analysis Work ? » thread. Also, a manichean way of viewing things, which implies an insuperable dichotomy between ''Linguistic Resources'' and ''Machine Learning'', is well-spread in the industry right now. As Neil Glassman writes on the latest Sentiment Analysis Symposium’s insights, he puts forth that there is a way

« Between those on one side who feel the accuracy of automated sentiment analysis is sufficient and those on the other side who feel we can only rely on human analysis », adding that « most in the field concur with /the idea that/ we Need to define a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.»

So the word is spread !

Putting forth the benefits of Textometry

Textometry is one of the major steps towards the new methodologies to achieve such a goal. Simply put, it is a branch of statistical study of linguistic data, where text is considered as possessing its own internal structure. Textometric methods and tools lead to bypass the information extraction step (qualitative coding), by :

  • applying statistical and probabilistic calculations to the units that make up comparable texts in a corpus ;
  • providing robust methods for processing data without external resources constraints (lexicons, dictionaries, ontologies, for example) ;
  • analyzing objects distribution within the corpus framework ;
  • improving the flow of building corpus-driven Linguistic Resources that can be projected on the data and incrementally enhanced for various purposes, such as Named Entity Recognition and paraphrase matching, resources for deep thematic analysis, and resources for opinion analysis.

Kurt Williams, Mindshare Technologies CTO, accurately wraps it up as follows :

« Using Textometry to leverage opinion analysis. It can be used to cluster authors who share similar opinions together. One approach for improving opinion mining, rather than starting with the individual leveling phrases, start with the context of the conversation first. In other words, many approaches often skip the step of analyzing the context of the text. »

Please find out more in the following presentation displayed at the Sentiment Analysis Symposium.

So this must be what sets up a hot topic : an emerging market, industrial R&D and academics chasing for better solutions and improved systems, and a pluridisciplinary field of interest !

Post scriptum

Special thanks to Seth Grimes who chaired the Sentiment Analysis Symposium and Neil Glassman who nicely quoted me in his post.

Post Update Just to let you know that Seth Grimes nicely provides videos of the SAS'11 Talks and Lighting Talks. You can find my french-accent speech here :)

lundi 14 mars 2011

Sentiment Analysis, Opinion Mining & neophyte basics

Conversations2.jpg For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, lots and lots of commercial offers have been built on what I think one should still call a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

One of the major issues dealing with huge amounts of User-Generated Content published online – also referred to as UGC – implies mining opinions, which means detecting their polarity, knowing the target(s) they aim at and what arguments they rely on. Opinion Mining/Sentiment Analysis tools are, simply put, derived from Information Extraction (such as Named Entities detection) and Natural Language Processing technologies (such as syntactic parsing). Given this, simply put, they work like an enhanced search engine with complex data calculation habilities and knowledge bases.

But dealing with the data emphasizes the fact that understanding "how does sentiment analysis work" is more a linguistic modelization problem than a computational one. The "keywords" or "bag-of-words" approach is the most commonly used because it underlies a simplistic representation of how opinions and sentiments can be expressed. It would consist, in its most simplistic form, in detecting words in UGC from a set of words labeled as "positive" or "negative" : this method remains unable to solve most of "simple" ambiguity problems (here is an example that illustrates this quite well, I guess).

Most of Opinion Mining tasks focus on local linguistic determination for opinion expression, which is partly constrained by external ressources and thus often deals with problems such as dictionaries coverage limitations, and at a higher level, domain-dependance. Contextual analysis stil is a challenge, as you will find in the following reference book : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

As a temporary conclusion, I would say that accuracy remains the major challenge in this industry development. In fact, in such analysis systems, some "simple" linguistic phenomena still are problematic to modelize and implement, for example the negation scope problem, which is how to deal with negative turns of phrases. Another problem for systems accuracy is the analysis methodology itself. Fully organic methods are costly, but fully automated ones are innacurate : you need to define a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.

jeudi 10 septembre 2009

Opinion Mining and Sentiment Analysis, Pang and Lee (2008)

Pang_Lee2008.jpg Une instructive lecture sur la dernière somme de référence en date sur l'opinion mining et la sentiment analysis. J'avais eu à en faire une note, que j'ai ressortie de mes cartons : cela mérite d'être partagé! On comprendra sans doute mieux en quoi (j'y reviendrai sans doute ultérieurement) la problématique de la modélisation linguistique est cruciale et constitue l'une des clés de l'évolution des systèmes d'opinion mining et de sentiment analysis. Ma petite note de lecture, donc...

Synopsis
Cet ouvrage consiste en une étude fondée sur plus de trois cent travaux de recherche, donnant un aperçu des évolutions dans le domaine de la fouille de données orientée opinion (opinion mining) et de l’analyse des sentiments (sentiment analysis). Il présente les techniques et approches développées et fournit un panorama de l’effort de recherche ainsi que des ressources existantes.

  • Historique, types d’applications et enjeux

L’émergence du World Wide Web et l’utilisation, aujourd’hui répandue, des applications issues des Technologies de l’Information et de la Communication (TIC), ont suscité l’apparition de nouveaux modes de communication, ce faisant, contribué à instaurer de nouveaux espaces de propagation de l’information. Pouvoir accéder, et partant, élaborer une métrique pour évaluer « ce qui est dit », « comment on le dit » et « sur qui/quoi on le dit », est alors devenu un objet de recherche, ainsi qu’un enjeu stratégique pour les entreprises et les institutions.

Si des chercheurs se sont penchés sur le sujet avant l’an 2000, c’est véritablement à partir de 2001 que le nombre de travaux s’accroît. La jeunesse de ce domaine suscite des instabilités terminologiques importantes. En effet, l’effort de recherche s’est essentiellement orienté sur des problématiques applicatives, laissant les aspects épistémologiques de côté. Les travaux traitant de questions purement linguistiques sont par ailleurs peu nombreux.

Quatre grands types d’applications sont mis en exergue par les auteurs : (i) les applications liées aux sites d’avis de consommateurs, par exemple sur les films ou les jeux vidéos ; (ii) l’intégration de modules spécifiques dans des systèmes de e-commerce, de GRC (Gestion de la Relation Clientèle) ou encore de Questions/Réponses ; (iii) les applications de veille stratégique et de veille institutionnelle ; (iv) enfin, l’analyse de discours politiques.

Bien qu’elles découlent de la fouille de données et de l’analyse de textes, les technologies d’opinion mining et de sentiment analysis posent des problèmes spécifiques, qui les distinguent et les rendent plus complexes, à plusieurs égards, que les premières.

  • Problématiques de classification et d’extraction de l’information

La classification documentaire et l’extraction d’information sont les principaux domaines sur lesquels s’est concentré l’effort de recherche : les auteurs y consacrent d’ailleurs une analyse détaillée. Cet effort, lié à la mise au point d’algorithmes, donne lieu à la discussion de nouveaux concepts et méthodes, comme en témoigne l’élaboration de modèles de langage dédiés.

Des problématiques variées sont exposées. L’intégration des traits linguistiques – en particulier les propriétés syntaxiques et le traitement de la négation – et statistiques – l’impact de la présence et de la fréquence des occurrences de formes dans les textes – dans le processus d’analyse, constituent un enjeu important pour l’amélioration des systèmes.

L’adaptation au domaine de ces derniers, tout comme l’impact de l’utilisation de données manuellement annotées, est aussi largement traité. De ce point de vue, c’est avant tout le problème de la réutilisabilité des ressources qui est considéré. Par ailleurs, les technologies de classification et d’extraction sont abordées selon les approches d’apprentissage supervisé et non supervisé.

Améliorer la prise en compte du contexte dans l’analyse, en particulier par l’intégration de la structure discursive, impacte autant la classification que l’extraction. Cependant, l’identification des attributs d’un produit ou d’une opinion dans l’avis des consommateurs, comme celle des foyers de l’expression de l’opinion – la question des opinion holders –, sont plus spécifiquement liées à des problématiques d’extraction.

  • Problématiques de résumé automatique de l’information

Deux paradigmes de résumé automatique, qui prennent soit pour objet un seul texte, soit un ensemble de textes, sont successivement abordés par les auteurs. En effet, les améliorations de l’un impactent celles de l’autre. Les problématiques sont communes, même s’il faut distinguer entre les techniques de résumé fondées sur l’identification automatique de thématiques de celles qui ne le sont pas.

Corrélativement, certains systèmes peuvent intégrer une dimension temporelle pour la représentation graphique de l’information. Observer l’évolution de l’opinion en fonction du temps s’avère utile lors de l’étude de thématiques ou d’avis de consommateurs sur une marque, un produit ou un service. L’analyse du discours politique est également enrichie par des considérations diachroniques.

Les données utilisées provenant le plus souvent de sites d’avis de consommateurs, les applications de résumé automatique peuvent aussi tirer parti de la réputation des utilisateurs, par le biais de scores qui leur sont associés par la communauté, qui évalue ainsi leur crédibilité et donc, indirectement, leur pouvoir d’influence, de recommandation.

  • Domaines d’applications variés, problématiques élargies

Les travaux confirmant les corrélations entre les ventes de produits et la tendance positive ou négative des avis de consommateurs se sont multipliés. Le principe de la recommandation d’achat « de bouche à oreille », que les avis publiés en ligne permettent de suivre et d’analyser, donc la question de l’influence des leaders d’opinion sur les consommateurs, a un impact économique important.

De manière générale, les applications de fouille de données visant à étudier les préférences des individus, posent parfois un problème de confidentialité, en particulier lorsqu’il s’agit de données récoltées à partir de sources non accessibles publiquement.

Un autre aspect mentionné par les auteurs concerne la manipulation de l’information. En effet, la participation des acteurs économiques, voire institutionnels, aux conversations en ligne, peut avoir pour objectif d’introduire un biais dans la diffusion de l’information. Certaines études ont en effet révélé que ces acteurs sont attentifs à la façon dont tirer profit de cette diffusion.

  • Ressources publiquement accessibles

Cette section traite en premier lieu des banques de données textuelles, annotées ou non, dont la plupart ont été élaborées à partir de 2005. D’autre part, 2006 marque l’entrée de tâches d’opinion mining ou de sentiment analysis dans les campagnes d’évaluation TREC et NTCIR. Plusieurs ressources lexicales, par exemple des dictionnaires annotés ou des lexiques d’adjectifs, sont également pris en compte.

Il faut souligner que les ressources mentionnées sont en anglais. Loin d’être un biais initié par les auteurs, la bibliographie met en exergue le fait que peu de chercheurs européens se sont penchés sur le problème jusqu’à présent. En conséquence, les tutoriaux, banques bibliographiques et autres listes de diffusion – en particulier la liste SentimentAI – sont mises en ligne par quelques universitaires nord-américains.

Cet ouvrage est, à l’heure actuelle, l’un des premiers à donner accès à une telle compilation de travaux, problématiques et ressources, dans le domaine de l’opinion mining et de la sentiment analysis.

Référence complète : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

dimanche 26 avril 2009

A venir : une présentation d'OpenCalais

Cela fait déjà quelques mois que je repousse le moment de mettre sérieusement à parler du système OpenCalais. Promis, j'arrête la procrastination et je vous prépare quelque chose pour bientôt!

mercredi 25 mars 2009

Blog mining through opinionated words, (Attardi and Simi, 2006)

Dans un article publié dans les actes de TREC'06, (Attardi and Simi, 2006) présentent une expérimentation pilote sur un système d'opinion mining appliqué aux blogs.

Il s'agit d'une application de catégorisation automatique du contenu d'un panel de blogs : si la procédure est analogue à celle d'un moteur de recherche plein texte, elle implémente une fonction de classement qui exploite un index enrichi d'étiquettes marquant l'opinion, de "marqueurs de l'opinion", pourrait-on dire.

En clair, des "mots" définis comme porteurs de subjectivité forment une couche supplémentaire d'information pour l'indexation, en plus des éléments traditionnellement utilisés pour l'indexation documentaire. Le module de recherche s'appuie sur ces "mots" pour effectuer le calcul des scores associés aux documents, lesquels scores permettent de fournir des résultats classés par ordre de pertinence.

C'est en somme une méthode d'expansion de requête intégrée "en dur" dans l'index. C'est aussi une application qui procède d'une ontologie de l'opinion, s'inscrivant donc dans le sillon des approches lexicales du sens.

L'hypothèse forte de cette expérimentation est que l'utilisation des étiquettes marquant l'opinion permet de surpondérer les scores pour les documents qui ne ressortiraient pas avec un simple calcul statistique sur les fréquences d'occurrence de formes. Cette enrichissement de l'index permet d'améliorer le rappel (i.e. de rapatrier un plus grand nombre de documents pertinents parmi les résultats du moteur). Les auteurs l'expliquent ainsi :

Integrating opinion mining within search has also the possible advantage of avoiding missing documents that the IR engine might overlook, not having a sufficiently high score. For example a document that only mentions an entity once, but then provides a lot of opinionated remarks, might achieve a lower score than a document that mentions the entity often, without expressing any opinion. Since the relevant documents may be hundred thousands, the postprocessing stage might not have a chance to consider it.

Il faut noter que les auteurs ne donnent aucun exemple de l'index utilisé et s'appuient sur la ressource SentiWordNet, une ontologie qui synthétiserait tous les mots avec lesquels une opinion, un sentiment, un avis, une évaluation, une appréciation... pourrait être exprimée.

L'une des pistes que l'on pourrait proposer serait d'avoir recours à de l'extraction de termes à partir d'un corpus annoté, pour constituer l'ensemble des étiquettes marquant l'opinion, afin d'enrichir l'index utilisé.

De tels travaux devraient dépasser le stade expérimental, lorsque l'on sait tout le bénéfice qu'en tireraient les analystes d'opinion online intégrant les blogs dans le champ de leur étude.

dimanche 3 août 2008

The Appraisal Theory (Martin & White, 2005)

MartinANDWhiteBook.jpg

L’Appraisal Theory s’intéresse à la manière de modéliser le langage évaluatif, en particulier à la relation d’influence induite par les stratégies mises en œuvre par l’auteur d’un texte, qui conditionneraient le lecteur à adopter son opinion. Se réclamant de la linguistique systémique fonctionnelle (Systemic Functional Linguistics, ou SFL), Martin et White entendent situer la notion d’appréciation within a holistic model of language and social context (The Language of evaluation, Introduction, p.7). L’intégration du contexte social dans l’interprétation du donner à voir qu’exhibe l’auteur n’est pas sans rappeler certains critères d’analyse de la sociolinguistique interactionnelle. En particulier, ce que (Gumperz, 1999) caractérise en termes de processus de contextualisation verbaux. (Référence exacte : Gumperz, J. (1999). On interactional sociolinguistic method. In S. Sarangi & C. Roberts (Ed.), Talk, Work and Institutional Order. Discourse in Medical, Mediation and Management Settings (p.453-471))

La Théorie de l’Appréciation se concentre plus précisément, parmi l’ensemble des ressources sémiotiques, ou métafonctions dans la terminologie de la SFL, mobilisées par les locuteurs dans leur démarche de construction du sens, sur la métafonction interpersonnelle. Plusieurs aspects sont alors distingués, comme constitutifs de la métafonction interpersonnelle, ce modèle théorique se réclamant d’une perspective holistique. Les rapports d’influence entre l’auteur d’un texte et son lecteur, médiatisés par l’expression de l’opinion, constituent l’un des objets d’étude de ce modèle. C’est bien le donner à voir, c’est-à-dire le positionnement tel que l’émetteur du message le présente comme objectif ou subjectif, qui est soumis à l’étude, par le biais de l’analyse textuelle – les indices lexico-syntaxiques, entre autres –.

La modélisation de la sémantique de l’appréciation telle qu’elle est exposée dans (Martin and White, 2005), se veut topologique et non typologique. Ils n’entendent donc pas proposer une analyse catégorielle mais graduelle de l’appréciation : The introduction of scaled systems shifts our perspective from categorical to graded analysis. (It) is a shift from typology to topology. (op.cit., Introduction, p.16). Il s’agit en fait d’une modélisation des régions de sens, ainsi que de la proximité qu’entretiennent les sens entre eux, en fonction d’un continuum de variation.