MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - opinion mining

Fil des billets - Fil des commentaires

mercredi 4 mai 2011

Opinion Mining & Sentiment Analysis, or what sets up a hot topic

SAS2011.jpgThe Sentiment Analysis Symposium was a great experience for me ! Back in Paris, I first thought of updating my last post on Opinion Mining and Sentiment Analysis. But the update grew heavier and heavier, so here's a enhanced one.


For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, a great amount of commercial offers have been built on what is still to be taken as a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

One of the major issues dealing with huge amounts of User-Generated Content published online – also referred to as UGC – implies mining opinions, which means detecting their polarity, knowing the target(s) they aim at and what arguments they rely on. Opinion Mining/Sentiment Analysis tools are, simply put, derived from Information Extraction (such as Named Entities detection) and Natural Language Processing technologies (such as syntactic parsing). Given this, simply put, they work like an enhanced search engine with complex data calculation habilities and knowledge bases.

Applications with pieces of linguistics inside

Four types of applications are put forth in (Pang & Lee, 2008)’s reference survey :

  1. those seeking for customer insight, in movie or product reviews websites or in social networks ;
  2. the specific integrations within CRM (Customer Relationship Management) or e-commerce systems ;
  3. the strategic foresight and e-reputation applications ;
  4. and last but not least, political discourse analysis.

Automated textual summaries also stands as a very promising subtask, as it is currenlty deeply linked to data visualization for information summarization.

Among the numerous problematics related to Opinion Mining and Sentiment Analysis systems adressed in (Pang & Lee, 2008)’s, I would pinpoint two of particular interest from a linguistic point of view :

  1. linguistic – e.g. syntactic properties and negation modelization – and statistic – e.g. the type/token distribution within large amounts of texts - features as an important issue for systems improvement ;
  2. current processes for adapting Linguistic Resources- such as lexicons or dictionaries – to various domains as an impediment to cost-cutting and reusability.

Not as easy as it seems

Indeed, the Social Media industry expresses a growing interest and need towards NLP technologies to overcome issues such as accuracy, robustness and multilinguism. Sentiment Analysis & Opinion Mining became a promising business field a couple of years ago, as a very well documented post by Doug Henschen for Information Week explains.

But quick recipes are easily found on the web, as shown by a glance on Quora’s « How does Sentiment Analysis Work ? » thread. Also, a manichean way of viewing things, which implies an insuperable dichotomy between ''Linguistic Resources'' and ''Machine Learning'', is well-spread in the industry right now. As Neil Glassman writes on the latest Sentiment Analysis Symposium’s insights, he puts forth that there is a way

« Between those on one side who feel the accuracy of automated sentiment analysis is sufficient and those on the other side who feel we can only rely on human analysis », adding that « most in the field concur with /the idea that/ we Need to define a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.»

So the word is spread !

Putting forth the benefits of Textometry

Textometry is one of the major steps towards the new methodologies to achieve such a goal. Simply put, it is a branch of statistical study of linguistic data, where text is considered as possessing its own internal structure. Textometric methods and tools lead to bypass the information extraction step (qualitative coding), by :

  • applying statistical and probabilistic calculations to the units that make up comparable texts in a corpus ;
  • providing robust methods for processing data without external resources constraints (lexicons, dictionaries, ontologies, for example) ;
  • analyzing objects distribution within the corpus framework ;
  • improving the flow of building corpus-driven Linguistic Resources that can be projected on the data and incrementally enhanced for various purposes, such as Named Entity Recognition and paraphrase matching, resources for deep thematic analysis, and resources for opinion analysis.

Kurt Williams, Mindshare Technologies CTO, accurately wraps it up as follows :

« Using Textometry to leverage opinion analysis. It can be used to cluster authors who share similar opinions together. One approach for improving opinion mining, rather than starting with the individual leveling phrases, start with the context of the conversation first. In other words, many approaches often skip the step of analyzing the context of the text. »

Please find out more in the following presentation displayed at the Sentiment Analysis Symposium.

So this must be what sets up a hot topic : an emerging market, industrial R&D and academics chasing for better solutions and improved systems, and a pluridisciplinary field of interest !

Post scriptum

Special thanks to Seth Grimes who chaired the Sentiment Analysis Symposium and Neil Glassman who nicely quoted me in his post.

Post Update Just to let you know that Seth Grimes nicely provides videos of the SAS'11 Talks and Lighting Talks. You can find my french-accent speech here :)

lundi 14 mars 2011

Sentiment Analysis, Opinion Mining & neophyte basics

Conversations2.jpg For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, lots and lots of commercial offers have been built on what I think one should still call a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

One of the major issues dealing with huge amounts of User-Generated Content published online – also referred to as UGC – implies mining opinions, which means detecting their polarity, knowing the target(s) they aim at and what arguments they rely on. Opinion Mining/Sentiment Analysis tools are, simply put, derived from Information Extraction (such as Named Entities detection) and Natural Language Processing technologies (such as syntactic parsing). Given this, simply put, they work like an enhanced search engine with complex data calculation habilities and knowledge bases.

But dealing with the data emphasizes the fact that understanding "how does sentiment analysis work" is more a linguistic modelization problem than a computational one. The "keywords" or "bag-of-words" approach is the most commonly used because it underlies a simplistic representation of how opinions and sentiments can be expressed. It would consist, in its most simplistic form, in detecting words in UGC from a set of words labeled as "positive" or "negative" : this method remains unable to solve most of "simple" ambiguity problems (here is an example that illustrates this quite well, I guess).

Most of Opinion Mining tasks focus on local linguistic determination for opinion expression, which is partly constrained by external ressources and thus often deals with problems such as dictionaries coverage limitations, and at a higher level, domain-dependance. Contextual analysis stil is a challenge, as you will find in the following reference book : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

As a temporary conclusion, I would say that accuracy remains the major challenge in this industry development. In fact, in such analysis systems, some "simple" linguistic phenomena still are problematic to modelize and implement, for example the negation scope problem, which is how to deal with negative turns of phrases. Another problem for systems accuracy is the analysis methodology itself. Fully organic methods are costly, but fully automated ones are innacurate : you need to define a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.

jeudi 10 septembre 2009

Opinion Mining and Sentiment Analysis, Pang and Lee (2008)

Pang_Lee2008.jpg Une instructive lecture sur la dernière somme de référence en date sur l'opinion mining et la sentiment analysis. J'avais eu à en faire une note, que j'ai ressortie de mes cartons : cela mérite d'être partagé! On comprendra sans doute mieux en quoi (j'y reviendrai sans doute ultérieurement) la problématique de la modélisation linguistique est cruciale et constitue l'une des clés de l'évolution des systèmes d'opinion mining et de sentiment analysis. Ma petite note de lecture, donc...

Cet ouvrage consiste en une étude fondée sur plus de trois cent travaux de recherche, donnant un aperçu des évolutions dans le domaine de la fouille de données orientée opinion (opinion mining) et de l’analyse des sentiments (sentiment analysis). Il présente les techniques et approches développées et fournit un panorama de l’effort de recherche ainsi que des ressources existantes.

  • Historique, types d’applications et enjeux

L’émergence du World Wide Web et l’utilisation, aujourd’hui répandue, des applications issues des Technologies de l’Information et de la Communication (TIC), ont suscité l’apparition de nouveaux modes de communication, ce faisant, contribué à instaurer de nouveaux espaces de propagation de l’information. Pouvoir accéder, et partant, élaborer une métrique pour évaluer « ce qui est dit », « comment on le dit » et « sur qui/quoi on le dit », est alors devenu un objet de recherche, ainsi qu’un enjeu stratégique pour les entreprises et les institutions.

Si des chercheurs se sont penchés sur le sujet avant l’an 2000, c’est véritablement à partir de 2001 que le nombre de travaux s’accroît. La jeunesse de ce domaine suscite des instabilités terminologiques importantes. En effet, l’effort de recherche s’est essentiellement orienté sur des problématiques applicatives, laissant les aspects épistémologiques de côté. Les travaux traitant de questions purement linguistiques sont par ailleurs peu nombreux.

Quatre grands types d’applications sont mis en exergue par les auteurs : (i) les applications liées aux sites d’avis de consommateurs, par exemple sur les films ou les jeux vidéos ; (ii) l’intégration de modules spécifiques dans des systèmes de e-commerce, de GRC (Gestion de la Relation Clientèle) ou encore de Questions/Réponses ; (iii) les applications de veille stratégique et de veille institutionnelle ; (iv) enfin, l’analyse de discours politiques.

Bien qu’elles découlent de la fouille de données et de l’analyse de textes, les technologies d’opinion mining et de sentiment analysis posent des problèmes spécifiques, qui les distinguent et les rendent plus complexes, à plusieurs égards, que les premières.

  • Problématiques de classification et d’extraction de l’information

La classification documentaire et l’extraction d’information sont les principaux domaines sur lesquels s’est concentré l’effort de recherche : les auteurs y consacrent d’ailleurs une analyse détaillée. Cet effort, lié à la mise au point d’algorithmes, donne lieu à la discussion de nouveaux concepts et méthodes, comme en témoigne l’élaboration de modèles de langage dédiés.

Des problématiques variées sont exposées. L’intégration des traits linguistiques – en particulier les propriétés syntaxiques et le traitement de la négation – et statistiques – l’impact de la présence et de la fréquence des occurrences de formes dans les textes – dans le processus d’analyse, constituent un enjeu important pour l’amélioration des systèmes.

L’adaptation au domaine de ces derniers, tout comme l’impact de l’utilisation de données manuellement annotées, est aussi largement traité. De ce point de vue, c’est avant tout le problème de la réutilisabilité des ressources qui est considéré. Par ailleurs, les technologies de classification et d’extraction sont abordées selon les approches d’apprentissage supervisé et non supervisé.

Améliorer la prise en compte du contexte dans l’analyse, en particulier par l’intégration de la structure discursive, impacte autant la classification que l’extraction. Cependant, l’identification des attributs d’un produit ou d’une opinion dans l’avis des consommateurs, comme celle des foyers de l’expression de l’opinion – la question des opinion holders –, sont plus spécifiquement liées à des problématiques d’extraction.

  • Problématiques de résumé automatique de l’information

Deux paradigmes de résumé automatique, qui prennent soit pour objet un seul texte, soit un ensemble de textes, sont successivement abordés par les auteurs. En effet, les améliorations de l’un impactent celles de l’autre. Les problématiques sont communes, même s’il faut distinguer entre les techniques de résumé fondées sur l’identification automatique de thématiques de celles qui ne le sont pas.

Corrélativement, certains systèmes peuvent intégrer une dimension temporelle pour la représentation graphique de l’information. Observer l’évolution de l’opinion en fonction du temps s’avère utile lors de l’étude de thématiques ou d’avis de consommateurs sur une marque, un produit ou un service. L’analyse du discours politique est également enrichie par des considérations diachroniques.

Les données utilisées provenant le plus souvent de sites d’avis de consommateurs, les applications de résumé automatique peuvent aussi tirer parti de la réputation des utilisateurs, par le biais de scores qui leur sont associés par la communauté, qui évalue ainsi leur crédibilité et donc, indirectement, leur pouvoir d’influence, de recommandation.

  • Domaines d’applications variés, problématiques élargies

Les travaux confirmant les corrélations entre les ventes de produits et la tendance positive ou négative des avis de consommateurs se sont multipliés. Le principe de la recommandation d’achat « de bouche à oreille », que les avis publiés en ligne permettent de suivre et d’analyser, donc la question de l’influence des leaders d’opinion sur les consommateurs, a un impact économique important.

De manière générale, les applications de fouille de données visant à étudier les préférences des individus, posent parfois un problème de confidentialité, en particulier lorsqu’il s’agit de données récoltées à partir de sources non accessibles publiquement.

Un autre aspect mentionné par les auteurs concerne la manipulation de l’information. En effet, la participation des acteurs économiques, voire institutionnels, aux conversations en ligne, peut avoir pour objectif d’introduire un biais dans la diffusion de l’information. Certaines études ont en effet révélé que ces acteurs sont attentifs à la façon dont tirer profit de cette diffusion.

  • Ressources publiquement accessibles

Cette section traite en premier lieu des banques de données textuelles, annotées ou non, dont la plupart ont été élaborées à partir de 2005. D’autre part, 2006 marque l’entrée de tâches d’opinion mining ou de sentiment analysis dans les campagnes d’évaluation TREC et NTCIR. Plusieurs ressources lexicales, par exemple des dictionnaires annotés ou des lexiques d’adjectifs, sont également pris en compte.

Il faut souligner que les ressources mentionnées sont en anglais. Loin d’être un biais initié par les auteurs, la bibliographie met en exergue le fait que peu de chercheurs européens se sont penchés sur le problème jusqu’à présent. En conséquence, les tutoriaux, banques bibliographiques et autres listes de diffusion – en particulier la liste SentimentAI – sont mises en ligne par quelques universitaires nord-américains.

Cet ouvrage est, à l’heure actuelle, l’un des premiers à donner accès à une telle compilation de travaux, problématiques et ressources, dans le domaine de l’opinion mining et de la sentiment analysis.

Référence complète : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

dimanche 26 avril 2009

A venir : une présentation d'OpenCalais

Cela fait déjà quelques mois que je repousse le moment de mettre sérieusement à parler du système OpenCalais. Promis, j'arrête la procrastination et je vous prépare quelque chose pour bientôt!

mercredi 25 mars 2009

Blog mining through opinionated words, (Attardi and Simi, 2006)

Dans un article publié dans les actes de TREC'06, (Attardi and Simi, 2006) présentent une expérimentation pilote sur un système d'opinion mining appliqué aux blogs.

Il s'agit d'une application de catégorisation automatique du contenu d'un panel de blogs : si la procédure est analogue à celle d'un moteur de recherche plein texte, elle implémente une fonction de classement qui exploite un index enrichi d'étiquettes marquant l'opinion, de "marqueurs de l'opinion", pourrait-on dire.

En clair, des "mots" définis comme porteurs de subjectivité forment une couche supplémentaire d'information pour l'indexation, en plus des éléments traditionnellement utilisés pour l'indexation documentaire. Le module de recherche s'appuie sur ces "mots" pour effectuer le calcul des scores associés aux documents, lesquels scores permettent de fournir des résultats classés par ordre de pertinence.

C'est en somme une méthode d'expansion de requête intégrée "en dur" dans l'index. C'est aussi une application qui procède d'une ontologie de l'opinion, s'inscrivant donc dans le sillon des approches lexicales du sens.

L'hypothèse forte de cette expérimentation est que l'utilisation des étiquettes marquant l'opinion permet de surpondérer les scores pour les documents qui ne ressortiraient pas avec un simple calcul statistique sur les fréquences d'occurrence de formes. Cette enrichissement de l'index permet d'améliorer le rappel (i.e. de rapatrier un plus grand nombre de documents pertinents parmi les résultats du moteur). Les auteurs l'expliquent ainsi :

Integrating opinion mining within search has also the possible advantage of avoiding missing documents that the IR engine might overlook, not having a sufficiently high score. For example a document that only mentions an entity once, but then provides a lot of opinionated remarks, might achieve a lower score than a document that mentions the entity often, without expressing any opinion. Since the relevant documents may be hundred thousands, the postprocessing stage might not have a chance to consider it.

Il faut noter que les auteurs ne donnent aucun exemple de l'index utilisé et s'appuient sur la ressource SentiWordNet, une ontologie qui synthétiserait tous les mots avec lesquels une opinion, un sentiment, un avis, une évaluation, une appréciation... pourrait être exprimée.

L'une des pistes que l'on pourrait proposer serait d'avoir recours à de l'extraction de termes à partir d'un corpus annoté, pour constituer l'ensemble des étiquettes marquant l'opinion, afin d'enrichir l'index utilisé.

De tels travaux devraient dépasser le stade expérimental, lorsque l'on sait tout le bénéfice qu'en tireraient les analystes d'opinion online intégrant les blogs dans le champ de leur étude.

mardi 21 octobre 2008

Twitrratr : how to make a fuzz over nothing

Today, twitrratr, another utterance of the so-called "semantic-apps" flooding the web those days, made quite a buzz.

I just cannot resist but to report here the presentation provided on the "about" page of twitrratr :

" We wanted to keep things as simple as possible. We built a list of positive keywords and a list of negative keywords. We search Twitter for a keyword and the results we get back are crossreferenced against our adjective lists, then displayed accordingly. There are obvious issues with this, so if you have any ideas on how we could do this better let us know."

As it is not necessary to demonstrate the weakness of this twitter-based application, which conclusion you can just come to by yourself while trying it, I would like to give here a very basic linguistic point of view, in order to avoid pointless amazement.

We are going to make a little simple exercise, with words taken from the "positive" list and the "negative" list twitrratr uses to process its automatic classification of tweets. Let's just keep in mind that the "neutral" category is the rubbish one, where the tweets with no positive or negative clusters are classified.

1) semantic ambiguity, even in a 140 characters message

Let's begin with two clusters taken from the "negative list" : "completely wrong" and "nothing is".

What if you were to say (a) "Obama wasn't completely wrong" and (b) "I guess nothing is better than that"? The context effect of the negation in (a) reverses the semantic orientation of the cluster. In (b), the comparative adjective "better (than)" also does so. Hence, those simple cases show the importance of the context in which negative clusters appears.

It also works for positive clusters, such as (c) "awesome" or (d) "thank you" : "Let's try this awesome shit" or "I thank you for letting me down". (c) is a case of ironic utterance; up to now, the automatic identification of irony is an unsolved problem, even for the best searchers in natural language processing. (d) shows an example of the sarcastic opinion expressed by the speaker; sarcasm is as tough to process automatically as irony, because these turns of phrases need context to be interpreted properly.

One could think that short text messages tend to be easier to process, but determining the semantic orientation of sentences is a difficult task to accomplish without taking into account the grammatical relations between the words.

2) why natural language processing should be of prior interest for twitrratr developpers

The best technologies developped for the automatic processing of subjective content, such as those developed by CELI, can analyse the positive or negative orientation of sentences. But this achievement requires several levels of linguistic analysis : the grammatical level, that is to say the relations between words in a sentence, is not easy to represent. Why? Because this is natural language, which characteristic are ambiguity and semantic variation depending on the context (textual context, social context, cultural context) in which words occur.

That's why twitrratr developers need a linguist to avoid most of the mistakes in automatic classification of tweets, such as the following, found using the query "cartier" (classified in the positive tweets because of the positive cluster "hilarious"):


After reading this tweet, do you consider it as a positive one?

jeudi 18 septembre 2008

REI, veille stratégique : l'expertise linguistique et l'amélioration des systèmes

Les plateformes de gestion de l'information sont volontiers brandées "sémantique" par leurs éditeurs : voilà le constat de la tendance actuelle. On comprend bien le malheur du benêt linguiste, qui ne saisira pas qu'on lui fourre du dédoublonnage d'URLs dans le paradigme sémantique, lorsqu'il se retrouve face à un chef de produit tout heureux de sa belle interface glossy.

Cependant, le caractère concurrentiel du marché de la veille (un tour sur le site de l'i-expo2008 confortera cette idée) laisse bon espoir de voir émerger le besoin d'une réelle qualité dans l'analyse des contenus.

A cet égard, CELI-France développe une des technologies les plus pointues pour la gestion de l'information objective et subjective sur des données du Web. Son choix? Présenter l'expertise linguistique comme LA valeur ajoutée de son système.
Dans un très bon papier, ''Classification d'opinions par méthodes symbolique, statistique et hybride'', qui leur a valu le victoire au Workshop DEFT'07 (DEfi Fouille de Textes), l'équipe CELI-France donne la faveur aux résultats des méthodes hybrides. Les méthodes hybrides? Nous y reviendrons plus longuement dans un prochain billet, mais il s'agit d'améliorer les résultats des algorithmes d'apprentissage automatique (type Support Vector Machines ou Naive Bayes algorithm) avec le produit d'une modélisation linguistique des données (sous forme de grammaires symboliques).

la démarche hybride ... est importante non seulement pour des raisons scientifiques de performance (le meilleur résultat entre les technologies que nous avons adoptées) mais, aussi et surtout pour des raisons de développement et acceptation par le marché

Il ne sera plus longtemps possible pour l'éditeur de compter sur le flou ambiant des cahiers des charges autour de ces outils, le client est déjà sur le point de faire le deuil de son inculture. Oui, il pourra questionner sur la pertinence de la méthode de génération de votre nuage de mots, lui dont l'oeil humide offrait hier encore une vitreuse surface de réflexion à ces jolies chaînes de caractères colorées.

lundi 18 août 2008

Loi de Zipf, Twitter et la monétisation

Un très complet article de BusinessWeek, paru ce matin, a pour incipit quelque chose qui tient presque de la sentence : Don't be surprised to see advertising on Twitter soon. It's about the only way the service can generate revenue. But will it be enough?

Question rhétorique, formulée pour qu'on ait envie d'y répondre Damn! I'm sure it won't be enough!

Fort bien. Ce qu'il y a de très intéressant, c'est une analogie à l'application de la loi de Zipf. Par chez nous les TAListes, la loi de Zipf est utilisée en tant que méthode empirique pour l'observation de la fréquence des mots dans un texte. Elle peut être envisagée comme un indice de l'informativité de la fréquence des formes (chaînes de caractères) dans un texte (cf. la Théorie de l'Information, Shannon).

Bon, donc, loi de Zipf et tweets, ou comment une loi de distribution statistique, qui pourrait permettre de concevoir un indice de significativité de vos contacts, permet en tous cas d'en prédire la limite quantitative. En effet,

Zipf's Law suggests that each subsequent thing in any series (such as your Twitter contacts) has predictable diminishing value. (Though Twitter) consists of small pools of people with gaps and limits on how they interact. This is important to marketers and investors, because it puts big brakes on how internal communications could propagate inside any social media network.

Nous y voilà! Les limites empiriques d'un réseau dont l'expansion est potentiellement infinie, qui nécessite donc des alternatives de monétisation autres que la vente d'espaces publicitaires ou qu'inciter les utilisateurs à payer. L'une des solutions soulevées par Ben Kunz, auteur de l'article en question : Twitter could extract money from user data.

Il est fort probable que l'on en vienne à ce type de solution, où, faisant fi de la protection des données personnelles, on applique des technologies de traitement automatique des opinions, par exemple, pour améliorer l'identification des cibles marketing. Nombre de travaux dans le champ de l'opinion mining ont précisément cet objectif.

A voir aussi : un billet de Palpitt fournit quelques observations sur les limites cognitives de l'expansion des réseaux sociaux.

dimanche 3 août 2008

The Appraisal Theory (Martin & White, 2005)


L’Appraisal Theory s’intéresse à la manière de modéliser le langage évaluatif, en particulier à la relation d’influence induite par les stratégies mises en œuvre par l’auteur d’un texte, qui conditionneraient le lecteur à adopter son opinion. Se réclamant de la linguistique systémique fonctionnelle (Systemic Functional Linguistics, ou SFL), Martin et White entendent situer la notion d’appréciation within a holistic model of language and social context (The Language of evaluation, Introduction, p.7). L’intégration du contexte social dans l’interprétation du donner à voir qu’exhibe l’auteur n’est pas sans rappeler certains critères d’analyse de la sociolinguistique interactionnelle. En particulier, ce que (Gumperz, 1999) caractérise en termes de processus de contextualisation verbaux. (Référence exacte : Gumperz, J. (1999). On interactional sociolinguistic method. In S. Sarangi & C. Roberts (Ed.), Talk, Work and Institutional Order. Discourse in Medical, Mediation and Management Settings (p.453-471))

La Théorie de l’Appréciation se concentre plus précisément, parmi l’ensemble des ressources sémiotiques, ou métafonctions dans la terminologie de la SFL, mobilisées par les locuteurs dans leur démarche de construction du sens, sur la métafonction interpersonnelle. Plusieurs aspects sont alors distingués, comme constitutifs de la métafonction interpersonnelle, ce modèle théorique se réclamant d’une perspective holistique. Les rapports d’influence entre l’auteur d’un texte et son lecteur, médiatisés par l’expression de l’opinion, constituent l’un des objets d’étude de ce modèle. C’est bien le donner à voir, c’est-à-dire le positionnement tel que l’émetteur du message le présente comme objectif ou subjectif, qui est soumis à l’étude, par le biais de l’analyse textuelle – les indices lexico-syntaxiques, entre autres –.

La modélisation de la sémantique de l’appréciation telle qu’elle est exposée dans (Martin and White, 2005), se veut topologique et non typologique. Ils n’entendent donc pas proposer une analyse catégorielle mais graduelle de l’appréciation : The introduction of scaled systems shifts our perspective from categorical to graded analysis. (It) is a shift from typology to topology. (op.cit., Introduction, p.16). Il s’agit en fait d’une modélisation des régions de sens, ainsi que de la proximité qu’entretiennent les sens entre eux, en fonction d’un continuum de variation.

samedi 2 août 2008

Kiobo : la recommandation par contacts interposés

Le rapport d'influence entre les utilisateurs liés par l'appartenance à un réseau social hybridé entre numérique et réalité. C'est un phénomène entre autres étudié par les domaines de l'opinion mining et du sentiment analysis, en particulier pour observer son incidence sur les comportements d'achat.
Une application comme Kiobo apparaît alors comme un terrain à investir, avec les données dont il dispose pour suivre les parcours de vos contacts sur la toile.


share what you see discover what you like

La restitution des informations sur les pérégrinations webbiques de vos groupes de contacts doit leur permettre de vous aiguiller, en fonction de vos affinités d'intérêt mutuelles. Vous représentez aussi un vecteur d'influence potentiel. L'acuité avec laquelle on vous cible est accrue par l'ajout de Kiobo à un réseau social, Facebook pour ne pas le citer. Croiser les informations de profil, de contacts et de navigation.

Le Web sémantique, une standardisation pour la constitution d'un champ d'exploitation orientée marketing aussi? Sans doute la question n'a-t-elle plus à être posée.

Post Scriptum : une très bonne présentation de Mashable à lire absolument!

- page 1 de 2