MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - natural language processing

Fil des billets - Fil des commentaires

vendredi 22 juillet 2011

Putting forth the benefits of Textometry : Vegas baby !

In my life of PhD student, publishing as a single author is a satisfying way to give visibility to my research work. But I recently discovered that collaborating with lab mates you share interests with can be a lot of fun ! Well, as long as you're as lucky as I am to find lab mates that work as hard as you do and share your will of getting things done. This is the EMM + ML combo !

So, lucky me to have such a great first long-standing collaboration research experience : our first co-authored paper got the warmest of welcomes at the ILINTEC'11 Workshop on Intelligent Linguistic Technologies, that took place in Las Vegas earlier this week. The ILINTEC’11 Workshop was one of the events of the 2011 World Congress in Computer Science, Computer Engineering, and Applied Computing within the ICAI'11 International Conference on Artificial Intelligence. To provide more context on the event, here are a few descriptive lines :

The core idea of ILINTEC’11 is to bring together researchers who explore different paradigms of language and speech processing; special emphasis is laid on interaction of stochastic techniques and logical methods. ILINTEC 11 is a unique opportunity to discuss the problems of natural language processing in immediate contact with the leading research and development teams from universities and industry engaged in information technology projects and various fields of Computer Science.

Our aim was to show how interesting textometric methods can be for information discovery and web mining tasks, from an academic point of view but also from an industrial point of view, as both EMM and I are achieving our PhD in an industrial context. So, below the link to the Slideshare version of the presentation displayed at ILINTEC : hope you'll enjoy it ! PostScriptum : (Slideshare embedding in DotClear is a bit capricious right now, I'll update asap to provide you with the embedded presentation here.)

lundi 6 juin 2011

3D motion + speech2text + translation memory = towards innovative broadcast services

Just found this info twitted by @TheNextWeb : Japanese researchers invent automatic animated sign language system, and just had to blog about it !

As you may not know, apart my research work on text analytics methodologies, I studied speech processing until the rigorous nomenclatures of the French University forced me to choose between specializing in Natural Language Processing applied to textual material or applied to speech material, a few years ago.

I still have a strong interest for what goes on in the field of speech processing and its applications (conversational agents, lip-sync systems, vocal search engines) even though I work on textual material for now. And I particularly enjoy applications that merge text and speech processing. So I could not help but being drown into writing those lines on the latest innovative development made by the NHK Science & Technology Research Laboratories that is, imho, just an awesome example of what could be done merging text and speech processing. Let's take a closer look :

The NHK Science & Technology Research Laboratories is coming up with technology that automatically generates animated sign language in order to expand sign language in news broadcasts.

Simply put, it is almost like a lip-sync system but for the hands :) The system is actually built on a text-to-text correspondence module that converts japanese text to signed text ; another correspondance module then associates text spans to "hand-codes" (I don't know the exact term, and suggest this one by analogy with "mouth-codes", used in animation for lip-sync systems development).

The cherry-on-top idea ? Incorporating a translation memory to enhance the system outputs with expert knowledge : this materializes by a user interface through wich a human can enrich the lexicon or refine combination rules for hand gestures.

Oh yes ! I teased with "speech2text" but wait... There is no speech-to-text module in this system ! Let's think about it : it lacks only one brick ! Indeed, once the speech signal's complexity is reduced to text material (words, phrases or any other accurate text span), the whole system would be in capacity to deal with speech material as input. This kind of phonetization processes development is not an issue in itself nowadays.

And if we think a bit further, I'd say it is a reasonable hope to expect this kind of system handling "text2speech" outputs too, even if "text2speech" is not as easy to handle for now, if one is expecting for a natural / non-robotic output. That would be very useful for blind people (of course, they can hear broadcast news, but hey, what if they want to refresh their experience of accessing written info on the web ?), social games applications (texting messages to your motioned and talking avatar while being temporarily or permanently speechless, so that it can talk ingame) or domotic applications (texting messages to your home that are displayed with your avatar and voice in the end, for example), to mention just a few. #I skip the 3D motion part, as I am completely unexperimented in this domain#

I am quietly but eagerly waiting for this kind of initiatives to develop and impact the mainstream audience. Startupers with NLProc backgrounds in text AND speech processing should begin to combine their skills thinking of the next opportunities to come up with an innovative solution : multimodal NLProc is on its way :)

mercredi 4 mai 2011

Opinion Mining & Sentiment Analysis, or what sets up a hot topic

SAS2011.jpgThe Sentiment Analysis Symposium was a great experience for me ! Back in Paris, I first thought of updating my last post on Opinion Mining and Sentiment Analysis. But the update grew heavier and heavier, so here's a enhanced one.


For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, a great amount of commercial offers have been built on what is still to be taken as a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

One of the major issues dealing with huge amounts of User-Generated Content published online – also referred to as UGC – implies mining opinions, which means detecting their polarity, knowing the target(s) they aim at and what arguments they rely on. Opinion Mining/Sentiment Analysis tools are, simply put, derived from Information Extraction (such as Named Entities detection) and Natural Language Processing technologies (such as syntactic parsing). Given this, simply put, they work like an enhanced search engine with complex data calculation habilities and knowledge bases.

Applications with pieces of linguistics inside

Four types of applications are put forth in (Pang & Lee, 2008)’s reference survey :

  1. those seeking for customer insight, in movie or product reviews websites or in social networks ;
  2. the specific integrations within CRM (Customer Relationship Management) or e-commerce systems ;
  3. the strategic foresight and e-reputation applications ;
  4. and last but not least, political discourse analysis.

Automated textual summaries also stands as a very promising subtask, as it is currenlty deeply linked to data visualization for information summarization.

Among the numerous problematics related to Opinion Mining and Sentiment Analysis systems adressed in (Pang & Lee, 2008)’s, I would pinpoint two of particular interest from a linguistic point of view :

  1. linguistic – e.g. syntactic properties and negation modelization – and statistic – e.g. the type/token distribution within large amounts of texts - features as an important issue for systems improvement ;
  2. current processes for adapting Linguistic Resources- such as lexicons or dictionaries – to various domains as an impediment to cost-cutting and reusability.

Not as easy as it seems

Indeed, the Social Media industry expresses a growing interest and need towards NLP technologies to overcome issues such as accuracy, robustness and multilinguism. Sentiment Analysis & Opinion Mining became a promising business field a couple of years ago, as a very well documented post by Doug Henschen for Information Week explains.

But quick recipes are easily found on the web, as shown by a glance on Quora’s « How does Sentiment Analysis Work ? » thread. Also, a manichean way of viewing things, which implies an insuperable dichotomy between ''Linguistic Resources'' and ''Machine Learning'', is well-spread in the industry right now. As Neil Glassman writes on the latest Sentiment Analysis Symposium’s insights, he puts forth that there is a way

« Between those on one side who feel the accuracy of automated sentiment analysis is sufficient and those on the other side who feel we can only rely on human analysis », adding that « most in the field concur with /the idea that/ we Need to define a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.»

So the word is spread !

Putting forth the benefits of Textometry

Textometry is one of the major steps towards the new methodologies to achieve such a goal. Simply put, it is a branch of statistical study of linguistic data, where text is considered as possessing its own internal structure. Textometric methods and tools lead to bypass the information extraction step (qualitative coding), by :

  • applying statistical and probabilistic calculations to the units that make up comparable texts in a corpus ;
  • providing robust methods for processing data without external resources constraints (lexicons, dictionaries, ontologies, for example) ;
  • analyzing objects distribution within the corpus framework ;
  • improving the flow of building corpus-driven Linguistic Resources that can be projected on the data and incrementally enhanced for various purposes, such as Named Entity Recognition and paraphrase matching, resources for deep thematic analysis, and resources for opinion analysis.

Kurt Williams, Mindshare Technologies CTO, accurately wraps it up as follows :

« Using Textometry to leverage opinion analysis. It can be used to cluster authors who share similar opinions together. One approach for improving opinion mining, rather than starting with the individual leveling phrases, start with the context of the conversation first. In other words, many approaches often skip the step of analyzing the context of the text. »

Please find out more in the following presentation displayed at the Sentiment Analysis Symposium.

So this must be what sets up a hot topic : an emerging market, industrial R&D and academics chasing for better solutions and improved systems, and a pluridisciplinary field of interest !

Post scriptum

Special thanks to Seth Grimes who chaired the Sentiment Analysis Symposium and Neil Glassman who nicely quoted me in his post.

Post Update Just to let you know that Seth Grimes nicely provides videos of the SAS'11 Talks and Lighting Talks. You can find my french-accent speech here :)

lundi 14 mars 2011

Sentiment Analysis, Opinion Mining & neophyte basics

Conversations2.jpg For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, lots and lots of commercial offers have been built on what I think one should still call a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

One of the major issues dealing with huge amounts of User-Generated Content published online – also referred to as UGC – implies mining opinions, which means detecting their polarity, knowing the target(s) they aim at and what arguments they rely on. Opinion Mining/Sentiment Analysis tools are, simply put, derived from Information Extraction (such as Named Entities detection) and Natural Language Processing technologies (such as syntactic parsing). Given this, simply put, they work like an enhanced search engine with complex data calculation habilities and knowledge bases.

But dealing with the data emphasizes the fact that understanding "how does sentiment analysis work" is more a linguistic modelization problem than a computational one. The "keywords" or "bag-of-words" approach is the most commonly used because it underlies a simplistic representation of how opinions and sentiments can be expressed. It would consist, in its most simplistic form, in detecting words in UGC from a set of words labeled as "positive" or "negative" : this method remains unable to solve most of "simple" ambiguity problems (here is an example that illustrates this quite well, I guess).

Most of Opinion Mining tasks focus on local linguistic determination for opinion expression, which is partly constrained by external ressources and thus often deals with problems such as dictionaries coverage limitations, and at a higher level, domain-dependance. Contextual analysis stil is a challenge, as you will find in the following reference book : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

As a temporary conclusion, I would say that accuracy remains the major challenge in this industry development. In fact, in such analysis systems, some "simple" linguistic phenomena still are problematic to modelize and implement, for example the negation scope problem, which is how to deal with negative turns of phrases. Another problem for systems accuracy is the analysis methodology itself. Fully organic methods are costly, but fully automated ones are innacurate : you need to define a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.

jeudi 11 novembre 2010

Refine, la brique Google dans la mare de la gestion des grands ensembles de données

Google annonçait hier la sortie de Google Refine, 'a power tool for data wranglers'. Panorama des réactions dans les webtech rédactions.

Dans la sphère web FR, c'est Zorgloob qui a la primeur de l'info et présente les grandes lignes de l'outil dans un post frais de quelques heures. Dans la sphère web US, qui a reçu la news avec quelques heures d'avance, les retombées sont un peu plus nombreuses. Voyons voir...

Data is the new oil, data is the new soil

quelques mots d'un récent talk du data journalist David McCandless, rapportés par Chinmoy Kanjilal pour, sur lesquels il s'appuie pour on ne peut mieux résumer l'objectif du dernier Google move :

Data is raw and unusable without proper management and handling. Google has stepped into this business with its service Google Refine 2.0.

Un business bien juteux et qui augure un changement de paradigme décisif dans les industries de l'information, comme le disait Martin Hayward dans une tribune pour Researchers en mars dernier, et dont je vous parlais dans un précédent billet :

we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

A noter que le post de Klint Finley pour ReadWriteWeb présente rapidement l'outil et insiste surtout sur son caractère opensource. Pour mémoire, un petit rappel historique sur la (re)naissance de Google Refine, que j'emprunte au dernier post de Jolie O'Dell pour Mashable sur le sujet :

Google Refine is a project born of Freebase Gridworks, a data-cleaning tool Google acquired when it bought Metaweb over the summer. Google has since renamed Gridworks and relaunched it as Refine.

Google Refine builds on its Gridworks roots by helping its users correct inconsistencies, changing data formats, extending data sets with data from web sources and other databases and much more.

ajoute-t-elle pour rappeler les principaux avantages de l'outil. Avantages que Chinmoy Kanjilal met en perspective :

Google Refine 2.0 will serve an excellent back-end for data visualization services. It has been well received by the Chicago Tribune and open-government data communities. Along with Google Squared, Refine 2.0 can create a powerful research tool.

C'est bien vrai : en tirant profit de cette nouvelle brique basée sur la faceted search, qui gère les regular expressions et la structuration à la volée de données extraites de pages web et incluant un Twitter Tracker en gestation, entre autres possibilités, Google frappe fort sur le text-mining grand public. Une belle opportunité pour évangéliser les analystes et chargés d'étude et les exhorter à rénover leurs traditions méthodologiques !

Text-mining only ? Of course not ! On trouve aussi des features pour le Screencast Transcript pour la prise en charge des Textual transcripts for the speech over the screencasts. Moutain View est déjà dans le multimodal search !

Ah ! J'oubliais ! Des vidéos de démo de l'outil sont disponibles ici, ici et :)

samedi 30 octobre 2010

Caution : NLP age incoming

Les faits

Conversation about content is king, nous disait en avril la dernière étude Pew Internet.

Premier constat : cela change la donne des stratégies pour sortir vainqueur de la guerre de l'attention et impacter sa cible ; autrement dit :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

L'autre volet de la question est mis en avant par Martin Hayward dans une tribune pour Researchers du mois de mars dernier :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably

constate-t-il, avant de conclure :

we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

L'analyse des contenus en ligne : vers une rénovation des expertises

Quel impact pour les acteurs du marché de la veille et des études quanti/quali online ? En premier lieu, la nécessité de rénover profondément l'expertise de leurs équipes : la qualité d'analyse dépend de la qualité du veilleur. Un veilleur mal formé ou n'ayant pas les compétences adéquates pour l'analyse qualitative des données web représente une perte de valeur ajoutée.

D'un autre côté, les solutions d'analyse "clé en main" que certains éditeurs proposent aux agences de veille et d'étude - pour l'analyse des parcours d'information, des opinions, etc... - ne feront illusion qu'un temps : une analyse qualitative tire toujours sa valeur ajoutée de l'analyste, in fine.

Mais si ! Et ce n'est même pas moi qui le dit, c'est l'amie Christelle Ayache, Spécialiste TAL chez CapDigital, qui argumente en ma faveur dans un article de Cyrille Chausson pour LeMagIT, tout frais du 29 octobre :

La validation humaine sera toujours nécessaire. C’est même ce qu’on doit aujourd’hui faire comprendre au grand public.

A la bonne heure ! L'expertise humaine au coeur de la recherche pertinente, propos d'un précédent billet, prend une nouvelle dimension : celle d'une invitation à la pluridisciplinarité méthodologique et technique chez les acteurs du secteur. Qui se fera certainement par l'intégration dans les équipes de profils initiés aux outils et méthodes du NLP. Non ! pas le Neuro Linguistic Programming, le Natural Language Processing ! Oui, l'autre nom du TAL en anglais :)

samedi 3 avril 2010

Quelles perspectives pour les systèmes de Q/A ?

Les systèmes de Questions/Answers - Q/A pour les intimes - ne sont pas nés de la dernière pluie, et arrosent le grand public depuis plusieurs décennies déjà. Véritables moteurs de recherche évolués, ce sont des solutions clairement adaptées aux problématiques de Data Journalism et sans doute à certaines attentes des utilisateurs de Search Engines grand public. Tentative de panorama.

Les mythes véhiculés par les médias audiovisuels prenant comme sujet la machine détentrice de connaissance absolue ne se comptent plus : le paradigme s'étend de 3PO dans Star Wars à Ziggy dans Code Quantum. Une bonne part de ces mythes sont matérialisés par les systèmes de Q/A - ou Q/R pour "Questions/Réponses" en français dans le texte. N'étant pas spécialiste de mythocritique, je vous propose quelques pistes pour vous faire une idée de ce qu'est un système de Q/A.

Q/A, c'est quoi ? Très simplement, un système de Q/A est un moteur de recherche, en ce qu'on adresse une question (une requête) au système et qu'on en attend un ou plusieurs résultats pertinents quant à une requête donnée. Comme un moteur de recherche, un système de Q/A fait appel à des fonctionnalités de recherche documentaire - pour fouiller un ensemble de documents - et inclut des calculs de pertinence - pour retourner à l'utilisateur des documents susceptibles de contenir la/les réponse(s) adéquate(s).

Pourquoi donc parler de "moteur de recherche évolué" ? Parce qu'à la différence d'un moteur de recherche traditionnel, un système de Q/A intègre des modules de traitement linguistique un peu plus complexes : d'une part, il doit traiter des questions, et non des séries de mots-clés; d'autre part, il doit retourner soit une réponse (ou une série de réponses) pertinente, soit un passage textuel (ou une série de passages) comportant la réponse à la question. Par exemple, imaginons le scénario suivant, dans le cadre d'un système de Q/A basé sur Wikipédia en français :
Question :

Quand Jacques Chirac est-il né ?

Réponse (basée sur la page Wikipédia en français dédiée à Jacques Chirac) :

Jacques Chirac est né le 29 novembre 1932

On imagine bien la complexité des traitements impliqués, étant donnée la variété des formulations possibles pour une même question, la sélection de sources documentaires fiables, sans même parler de points plus spécifiques (traitement des Entités Nommées, typage des questions,...), sans même se placer dans un contexte multilingue. Bref, la conception de tels système est bien loin d'être une mince affaire!

Et aujourd'hui, quels exemples concrets ? Reprenons un peu l'actualité de quelques acquisitions, par exemple, des firmes de Redmond et de Mountain View :

Qu'en dire ? Au moins que les systèmes de Q/A intégralement automatiques ne sont pas viables dans un contexte de "real life", et ne sont qu'encore partiellement efficaces sur des bases documentaires fermées et thématiquement homogènes (i.e. des ensembles de documents liés au même domaine, par exemple le domaine médical). Les algorithmes implémentés pour cibler des besoins grand public sont donc plutôt conçus pour router les questions vers des humains qui ont le plus de probabilités de pouvoir répondre correctement.

Les intiatives à la Orange ou certaines tentatives de Google (non, je ne bondirai pas une énième fois sur l'emploi plus ou moins impropre de la lexie "sémantique"), illustrent parfaitement l'avenir des systèmes de Q/A : restituer de l'information encyclopédique. Dommage, moi aussi j'aurais aimé continuer à nourrir le fantasme d'avoir un jour un 3PO ou un Ziggy ;)

vendredi 5 février 2010

Siri arrive sur l'iPhone!

Alors, ça, c'est fait... Un très joli coup by SRI International, dont on regrette qu'il ne retentisse pas en Europe!

Siri, qui petit à petit fait son nid, je vous le disais, depuis le printemps dernier, arrive maintenant sur l'iTunes Store d'Apple : depuis hier, l'application Siri pour iPhone est disponible! mais seulement aux USA... dommage

Les premières réactions postées à son sujet sur son étagère du Store ont plutôt une tonalité positive, voire même extatique :

A great app. Siri was able to figure out nearly everything I asked! A must have

I had read about the Siri service but was stunned with both the accuracy and efficacy of early use of this application. It seems to do what I want all apps to do, which is "just work." Not a big learning curve, except to figure out how many things Siri can do. Wonderful!

J'avais déjà abordé sur ce blog la bonne facture des bases de connaissances, l'appareillage ontologique et l'efficience des algorithmes d'apprentissage implémentés dans Siri. Ces qualités n'avaient d'ailleurs pas échappé à Marissa Mayer, VP Search Products & User Experience de Google, qui les rassemblait dans sa définition du "perfect search engine".

On reporte quelques bugs, mais ça ne l'empêchera sans doute pas de remporter un vif succès! A quand le portage sur les autres smartphones?

A voir pour tout savoir : Jetez-vous avec délectation sur cet excellent post de Louis Gray, qui vous dit tout (premiers tests, informations sur le moteur de reconnaissance vocale développé par Nuance et autres joyeuseries) sur cette belle appli!

lundi 23 novembre 2009

L'expert dans le système, le retour

Yahoo! a décidé d'humaniser ses résultats de recherche.

Il y a près d'un mois maintenant, revenait sur l'achèvement d'une course au brevet qui s'est presque éternisée - sept années tout de même - et qui, abrégée, aurait sans doute pas mal redessiné le rapport de force actuel dans le sillon des moteurs de recherche généralistes.

S'il avait été obtenu en 2002 ce brevet aurait permis à Yahoo! de protéger la technologie de son répertoire de sites Internet.

précise d'ailleurs la rédaction de Mais après tout, qu'a-t-il de si spécial, ce brevet? Humaniser? Non, rien à voir avec le fait de rendre plus humain le moteur de recherche, de policer un affichage frustre pour la restitution des résultats, ni de le civiliser pour lui faire perdre son caractère primitif. Quoique...

Ce petit abus de langage - imprécision, quand tu nous tiens - se comprend mieux avec un dessin. En l'occurrence, dire que Yahoo! humanise ses résultats de recherche signifie tout simplement qu'il y a de l'intervention humaine dedans.

YahooBrevet (Cette figure est reprise de l'article cité ci-dessus chez, dont la provenance originale n'est d'ailleurs pas mentionnée.)

Le brevet en question repose en effet sur un procédé impliquant la présence d'humains pour raffiner les résultats d'algorithmes de recherche. Et Yahoo! de préciser :

« le classement par les intervenants humains permet d'obtenir des résultats plus affinés que par des processus automatiques »

Nous y voilà. Sans insister sur les potentiels bénéfices en termes de qualité qu'en pourrait retirer Microsoft pour son moteur Bing, je veux simplement souligner une tendance convergente entre des acteurs différents qui traitent des facettes variées mais fort semblables de notre manne contemporaine : l'information.

Et mettre le tout en perspective avec les bâts qui blessent de plus en plus sur le segment des social media monitoring technologies, qu'Asi Sharabi passait d'ailleurs au crible en août dernier sur le très bon No Man's Blog. Pour coller à la culture verbatim et vous laisser lire son excellent billet par vous-mêmes, je n'en citerai que cinq mots qui dressent le portrait d'une situation avec laquelle la linguiste que je suis ne peut qu'être d'accord : The technology is fairly stupid. Bien entendu, si on s'en tient à cela, rien ne sert d'écrire. Quelle tendance convergente voit-on émerger alors avec d'autres acteurs du traitement et de l'analyse d'information? La réhabilitation de l'utilisateur expert, pardi!

Dans le petit monde des études médias et de l'analyse d'opinion online, c'est pourtant encore peu habituel, les utilisateurs experts. Connaître le fonctionnement d'un moteur de recherche ou comprendre qu'analyser finement l'information demande une compétence avancée en solutions d'analyse linguistique? La belle affaire! Dans l'encore plus petit monde des éditeurs de logiciels TAL, on transite globalement vers les solutions d'aide aux linguistes. On en trouve même des échos dans le microcosme des spécialistes de l'analyse textuelle, sous la forme d'une linguistique des textes instrumentée.

La qualité d'analyse est à l'information ce que le savoir-faire helvète est à la haute horlogerie. C'est assez naturellement que ces différents acteurs de l'analyse d'information convergeront peu ou prou vers une réflexion méthodologique sur ce qu'il conviendrait plutôt d'appeler l'analyse linguistique assistée par ordinateur (ALAO). Et certains y travaillent d'ailleurs déjà ;)

jeudi 10 septembre 2009

Opinion Mining and Sentiment Analysis, Pang and Lee (2008)

Pang_Lee2008.jpg Une instructive lecture sur la dernière somme de référence en date sur l'opinion mining et la sentiment analysis. J'avais eu à en faire une note, que j'ai ressortie de mes cartons : cela mérite d'être partagé! On comprendra sans doute mieux en quoi (j'y reviendrai sans doute ultérieurement) la problématique de la modélisation linguistique est cruciale et constitue l'une des clés de l'évolution des systèmes d'opinion mining et de sentiment analysis. Ma petite note de lecture, donc...

Cet ouvrage consiste en une étude fondée sur plus de trois cent travaux de recherche, donnant un aperçu des évolutions dans le domaine de la fouille de données orientée opinion (opinion mining) et de l’analyse des sentiments (sentiment analysis). Il présente les techniques et approches développées et fournit un panorama de l’effort de recherche ainsi que des ressources existantes.

  • Historique, types d’applications et enjeux

L’émergence du World Wide Web et l’utilisation, aujourd’hui répandue, des applications issues des Technologies de l’Information et de la Communication (TIC), ont suscité l’apparition de nouveaux modes de communication, ce faisant, contribué à instaurer de nouveaux espaces de propagation de l’information. Pouvoir accéder, et partant, élaborer une métrique pour évaluer « ce qui est dit », « comment on le dit » et « sur qui/quoi on le dit », est alors devenu un objet de recherche, ainsi qu’un enjeu stratégique pour les entreprises et les institutions.

Si des chercheurs se sont penchés sur le sujet avant l’an 2000, c’est véritablement à partir de 2001 que le nombre de travaux s’accroît. La jeunesse de ce domaine suscite des instabilités terminologiques importantes. En effet, l’effort de recherche s’est essentiellement orienté sur des problématiques applicatives, laissant les aspects épistémologiques de côté. Les travaux traitant de questions purement linguistiques sont par ailleurs peu nombreux.

Quatre grands types d’applications sont mis en exergue par les auteurs : (i) les applications liées aux sites d’avis de consommateurs, par exemple sur les films ou les jeux vidéos ; (ii) l’intégration de modules spécifiques dans des systèmes de e-commerce, de GRC (Gestion de la Relation Clientèle) ou encore de Questions/Réponses ; (iii) les applications de veille stratégique et de veille institutionnelle ; (iv) enfin, l’analyse de discours politiques.

Bien qu’elles découlent de la fouille de données et de l’analyse de textes, les technologies d’opinion mining et de sentiment analysis posent des problèmes spécifiques, qui les distinguent et les rendent plus complexes, à plusieurs égards, que les premières.

  • Problématiques de classification et d’extraction de l’information

La classification documentaire et l’extraction d’information sont les principaux domaines sur lesquels s’est concentré l’effort de recherche : les auteurs y consacrent d’ailleurs une analyse détaillée. Cet effort, lié à la mise au point d’algorithmes, donne lieu à la discussion de nouveaux concepts et méthodes, comme en témoigne l’élaboration de modèles de langage dédiés.

Des problématiques variées sont exposées. L’intégration des traits linguistiques – en particulier les propriétés syntaxiques et le traitement de la négation – et statistiques – l’impact de la présence et de la fréquence des occurrences de formes dans les textes – dans le processus d’analyse, constituent un enjeu important pour l’amélioration des systèmes.

L’adaptation au domaine de ces derniers, tout comme l’impact de l’utilisation de données manuellement annotées, est aussi largement traité. De ce point de vue, c’est avant tout le problème de la réutilisabilité des ressources qui est considéré. Par ailleurs, les technologies de classification et d’extraction sont abordées selon les approches d’apprentissage supervisé et non supervisé.

Améliorer la prise en compte du contexte dans l’analyse, en particulier par l’intégration de la structure discursive, impacte autant la classification que l’extraction. Cependant, l’identification des attributs d’un produit ou d’une opinion dans l’avis des consommateurs, comme celle des foyers de l’expression de l’opinion – la question des opinion holders –, sont plus spécifiquement liées à des problématiques d’extraction.

  • Problématiques de résumé automatique de l’information

Deux paradigmes de résumé automatique, qui prennent soit pour objet un seul texte, soit un ensemble de textes, sont successivement abordés par les auteurs. En effet, les améliorations de l’un impactent celles de l’autre. Les problématiques sont communes, même s’il faut distinguer entre les techniques de résumé fondées sur l’identification automatique de thématiques de celles qui ne le sont pas.

Corrélativement, certains systèmes peuvent intégrer une dimension temporelle pour la représentation graphique de l’information. Observer l’évolution de l’opinion en fonction du temps s’avère utile lors de l’étude de thématiques ou d’avis de consommateurs sur une marque, un produit ou un service. L’analyse du discours politique est également enrichie par des considérations diachroniques.

Les données utilisées provenant le plus souvent de sites d’avis de consommateurs, les applications de résumé automatique peuvent aussi tirer parti de la réputation des utilisateurs, par le biais de scores qui leur sont associés par la communauté, qui évalue ainsi leur crédibilité et donc, indirectement, leur pouvoir d’influence, de recommandation.

  • Domaines d’applications variés, problématiques élargies

Les travaux confirmant les corrélations entre les ventes de produits et la tendance positive ou négative des avis de consommateurs se sont multipliés. Le principe de la recommandation d’achat « de bouche à oreille », que les avis publiés en ligne permettent de suivre et d’analyser, donc la question de l’influence des leaders d’opinion sur les consommateurs, a un impact économique important.

De manière générale, les applications de fouille de données visant à étudier les préférences des individus, posent parfois un problème de confidentialité, en particulier lorsqu’il s’agit de données récoltées à partir de sources non accessibles publiquement.

Un autre aspect mentionné par les auteurs concerne la manipulation de l’information. En effet, la participation des acteurs économiques, voire institutionnels, aux conversations en ligne, peut avoir pour objectif d’introduire un biais dans la diffusion de l’information. Certaines études ont en effet révélé que ces acteurs sont attentifs à la façon dont tirer profit de cette diffusion.

  • Ressources publiquement accessibles

Cette section traite en premier lieu des banques de données textuelles, annotées ou non, dont la plupart ont été élaborées à partir de 2005. D’autre part, 2006 marque l’entrée de tâches d’opinion mining ou de sentiment analysis dans les campagnes d’évaluation TREC et NTCIR. Plusieurs ressources lexicales, par exemple des dictionnaires annotés ou des lexiques d’adjectifs, sont également pris en compte.

Il faut souligner que les ressources mentionnées sont en anglais. Loin d’être un biais initié par les auteurs, la bibliographie met en exergue le fait que peu de chercheurs européens se sont penchés sur le problème jusqu’à présent. En conséquence, les tutoriaux, banques bibliographiques et autres listes de diffusion – en particulier la liste SentimentAI – sont mises en ligne par quelques universitaires nord-américains.

Cet ouvrage est, à l’heure actuelle, l’un des premiers à donner accès à une telle compilation de travaux, problématiques et ressources, dans le domaine de l’opinion mining et de la sentiment analysis.

Référence complète : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

- page 1 de 2