MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

vendredi 22 juillet 2011

Putting forth the benefits of Textometry : Vegas baby !

In my life of PhD student, publishing as a single author is a satisfying way to give visibility to my research work. But I recently discovered that collaborating with lab mates you share interests with can be a lot of fun ! Well, as long as you're as lucky as I am to find lab mates that work as hard as you do and share your will of getting things done. This is the EMM + ML combo !

So, lucky me to have such a great first long-standing collaboration research experience : our first co-authored paper got the warmest of welcomes at the ILINTEC'11 Workshop on Intelligent Linguistic Technologies, that took place in Las Vegas earlier this week. The ILINTEC’11 Workshop was one of the events of the 2011 World Congress in Computer Science, Computer Engineering, and Applied Computing within the ICAI'11 International Conference on Artificial Intelligence. To provide more context on the event, here are a few descriptive lines :

The core idea of ILINTEC’11 is to bring together researchers who explore different paradigms of language and speech processing; special emphasis is laid on interaction of stochastic techniques and logical methods. ILINTEC 11 is a unique opportunity to discuss the problems of natural language processing in immediate contact with the leading research and development teams from universities and industry engaged in information technology projects and various fields of Computer Science.

Our aim was to show how interesting textometric methods can be for information discovery and web mining tasks, from an academic point of view but also from an industrial point of view, as both EMM and I are achieving our PhD in an industrial context. So, below the link to the Slideshare version of the presentation displayed at ILINTEC : hope you'll enjoy it ! PostScriptum : (Slideshare embedding in DotClear is a bit capricious right now, I'll update asap to provide you with the embedded presentation here.)

mercredi 4 mai 2011

Opinion Mining & Sentiment Analysis, or what sets up a hot topic

SAS2011.jpgThe Sentiment Analysis Symposium was a great experience for me ! Back in Paris, I first thought of updating my last post on Opinion Mining and Sentiment Analysis. But the update grew heavier and heavier, so here's a enhanced one.


For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, a great amount of commercial offers have been built on what is still to be taken as a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

One of the major issues dealing with huge amounts of User-Generated Content published online – also referred to as UGC – implies mining opinions, which means detecting their polarity, knowing the target(s) they aim at and what arguments they rely on. Opinion Mining/Sentiment Analysis tools are, simply put, derived from Information Extraction (such as Named Entities detection) and Natural Language Processing technologies (such as syntactic parsing). Given this, simply put, they work like an enhanced search engine with complex data calculation habilities and knowledge bases.

Applications with pieces of linguistics inside

Four types of applications are put forth in (Pang & Lee, 2008)’s reference survey :

  1. those seeking for customer insight, in movie or product reviews websites or in social networks ;
  2. the specific integrations within CRM (Customer Relationship Management) or e-commerce systems ;
  3. the strategic foresight and e-reputation applications ;
  4. and last but not least, political discourse analysis.

Automated textual summaries also stands as a very promising subtask, as it is currenlty deeply linked to data visualization for information summarization.

Among the numerous problematics related to Opinion Mining and Sentiment Analysis systems adressed in (Pang & Lee, 2008)’s, I would pinpoint two of particular interest from a linguistic point of view :

  1. linguistic – e.g. syntactic properties and negation modelization – and statistic – e.g. the type/token distribution within large amounts of texts - features as an important issue for systems improvement ;
  2. current processes for adapting Linguistic Resources- such as lexicons or dictionaries – to various domains as an impediment to cost-cutting and reusability.

Not as easy as it seems

Indeed, the Social Media industry expresses a growing interest and need towards NLP technologies to overcome issues such as accuracy, robustness and multilinguism. Sentiment Analysis & Opinion Mining became a promising business field a couple of years ago, as a very well documented post by Doug Henschen for Information Week explains.

But quick recipes are easily found on the web, as shown by a glance on Quora’s « How does Sentiment Analysis Work ? » thread. Also, a manichean way of viewing things, which implies an insuperable dichotomy between ''Linguistic Resources'' and ''Machine Learning'', is well-spread in the industry right now. As Neil Glassman writes on the latest Sentiment Analysis Symposium’s insights, he puts forth that there is a way

« Between those on one side who feel the accuracy of automated sentiment analysis is sufficient and those on the other side who feel we can only rely on human analysis », adding that « most in the field concur with /the idea that/ we Need to define a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.»

So the word is spread !

Putting forth the benefits of Textometry

Textometry is one of the major steps towards the new methodologies to achieve such a goal. Simply put, it is a branch of statistical study of linguistic data, where text is considered as possessing its own internal structure. Textometric methods and tools lead to bypass the information extraction step (qualitative coding), by :

  • applying statistical and probabilistic calculations to the units that make up comparable texts in a corpus ;
  • providing robust methods for processing data without external resources constraints (lexicons, dictionaries, ontologies, for example) ;
  • analyzing objects distribution within the corpus framework ;
  • improving the flow of building corpus-driven Linguistic Resources that can be projected on the data and incrementally enhanced for various purposes, such as Named Entity Recognition and paraphrase matching, resources for deep thematic analysis, and resources for opinion analysis.

Kurt Williams, Mindshare Technologies CTO, accurately wraps it up as follows :

« Using Textometry to leverage opinion analysis. It can be used to cluster authors who share similar opinions together. One approach for improving opinion mining, rather than starting with the individual leveling phrases, start with the context of the conversation first. In other words, many approaches often skip the step of analyzing the context of the text. »

Please find out more in the following presentation displayed at the Sentiment Analysis Symposium.

So this must be what sets up a hot topic : an emerging market, industrial R&D and academics chasing for better solutions and improved systems, and a pluridisciplinary field of interest !

Post scriptum

Special thanks to Seth Grimes who chaired the Sentiment Analysis Symposium and Neil Glassman who nicely quoted me in his post.

Post Update Just to let you know that Seth Grimes nicely provides videos of the SAS'11 Talks and Lighting Talks. You can find my french-accent speech here :)

dimanche 6 mars 2011

Communications homme-machine [link update]

L'aboutissement d'un travail formalisé dans mon premier papier. Cela date du tout début de mon Master en 2007-2008 : il a été rafraîchi et un peu relu depuis. Le lien a été mis à jour, j'en profite donc pour vous faire (re)découvrir ce travail.

Il s'agit d'une analyse d'un corpus d'interactions mis à disposition par la SNCF (pour la petite histoire, un corpus de 1985 : il a donc le même âge que moi ^^), dans lequel des usagers appellent un standard téléphonique pour demander des informations sur la circulation des trains, prendre une réservation ou confirmer un horaire, par exemple.

Les résultats sont obtenus avec des outils de calcul textométrique (AFC, spécificités, notamment), en utilisant le logiciel de référence Lexico3. J'aborde le tout du point de vue de l'analyse conversationnelle : c'est donc une pure approche interdisciplinaire.

L'objectif ? avoir des pistes pour étudier l'ajustement entre les participants (ou comment l'humain ajuste son discours à la boîte vocale). Et surtout, illustrer mon assertion conclusive :

L'analyse textométrique peut-être utilisée pour effectuer des comparaisons à des niveaux de granularité variables, permettant de ne pas dissocier l'analyse des dimensions locale et globale du corpus.

N'hésitez pas à découvrir la revue Lexicometrica, dans laquelle ce papier a été accepté pour publication :)

mardi 15 février 2011

Reprises, interactions textuelles, échanges asynchrones

Tels sont les trois mots-clés qui résument la présentation d'une de mes recherches en cours. L'objectif ? Décrire et modéliser les phénomènes linguistiques liés à la cohérence conversationnelle dans les échanges asynchrones sur Internet.

J'ai eu la chance d'assister à une journée d'étude un peu particulière : celle l'avènement officiel de la Fédération CLESTHIA.

Ce fut extrêmement intéressant de voir une autre facette de "la recherche en marche", celle qui sort de son laboratoire pour nouer des relations d'émulation et d'échange entre chercheurs de domaines connexes. Nous nous sommes donc retrouvés, traductologues, spécialistes de l'analyse des discours - politique, littéraire, de presse-, linguistes fins connaisseurs du français parlé, avec quelques TAListes au milieu. Tous dans l'optique d'échanger sur une thématique fort intéressante, qui est celle du "discours rapporté", du "discours autre", chaque présentation étant l'occasion de mieux comprendre l'appréhension de notre objet d'étude par les autres.

Une grande chance que la mienne, donc, de pouvoir aller présenter mes petits travaux devant une telle audience ! Eh oui, ça stresse toujours quand on revient de l'entreprise (et des présentations clients), d'aller parler d'un problème de linguistique "hard-core" devant des dizaines de linguistes chevronnés... Une grande chance également que ce travail ait été bien reçu : je vous le fais donc partager :)

Brève intro : je travaille en ce moment sur les forums (interactions textuelles, échanges asynchrones), dans une perspective Opinion Mining (dont l'e-réputation est un ersatz, si l'on reprend l'acception qu'ont de ce terme nos amis philosophes).

Bonne consultation et n'hésitez pas à me contacter si cela vous intéresse :)

mercredi 11 juin 2008

Une étude sur les conditions d'émergence du débat (été 2006)

Un lien vers un rapport de stage effectué en troisième année de Licence (été 2006) au LIMSI, sous la direction de Monsieur Benoît Habert.

Il s'agit d'une analyse des conditions d'émergence du débat, après transcription et étude des recouvrements de parole dans un corpus de plusieurs heures d'enregistrement d'une célèbre émission radiophonique. J'ai été formée à l'utilisation de l'outil Transcriber, notamment développé par Monsieur Claude Barras.

Ci-dessous un extrait introductif :

Formée à l'analyse de l'oral, notamment à la transcription et à la segmentation du signal, ainsi qu'à l'analyse conversationnelle, la perspective de pouvoir tenter de combiner un travail de transcription et d'annotation à une lecture interactionnelle m'est immédiatement apparue intéressante.

Benoît Habert m'a offert l'opportunité de venir travailler dans un laboratoire CNRS, dont la réputation dans le milieu du TAL n'est plus à faire : le Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI). Il m'a ainsi permis d'avoir un premier contact avec le milieu de la recherche, de pouvoir appliquer mes acquis en analyse de l'oral, des interactions, ainsi qu'en informatique, me permettant avant tout de me former à l'utilisation de nouveaux outils et à un réel travail de réflexion sur les données.