MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

samedi 12 novembre 2011

"Better filters will play a big part"... towards an "expert + system" model in content analysis solutions

During the last couple of years, there has been some brief bursts of content issues here and there, impacting search as well as content analysis. In a recent tribune for Sparksheet.com, Karyn Campbell (The IdeaList) took an interesting stand, saying whatever 3.0 looks like, better filters will play a big part. professional, human filters will play an integral role in the next web after all. I bet she has hollow nose !

Well, indeed, this makes sense and resonates with some other clues around there. 

Remember : two years ago, Yahoo! patented human intervention through a "human editor ranking system" in its engine. At that time, their point was that such a process obtained more refined results. The idea that, for qualitative results with high expectations concerning accuracy and preciseness, it is needed to have human experts in the game, well, this idea made its way. Better filters.

About one year later, one of the Pew Internet studies emphasized that :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

Better filters, again ! In a march 2010 Researcher's tribune by Martin Hayward, some ideas bring water to our mill :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably. we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

What could this mean for content analysis now, which has a foot in search issues and the other in qualitative content analysis and curation issues ? More specifically, what would this mean for the business applications of content analysis, such as trend monitoring solutions, sentiment analysis and other types of applications dealing with one of the biggest amount of information available - say User Generated Content from the social media areas of the web ?

Back in 2009, Asi Sharabi made a realistic but critical portrait of social media monitoring solutions. The systems may have improved by now, but several raised issues still are more relevant than ever :
  • "Unreliable data" : where do the most part of your brand's mentions come from ? is there any feature allowing you to make a distinction between spam messages, deceptive reviews and the spontaneous conversational material you'd like to meaningfully draw insights from ? Rhetoric question, of course there's not such a feature.
  • "Sentiment analysis is flawed" : even if there is progress on the subject, the idea that fully-automated systems are costly to set up, train and adapt from a domain to another has also made its way, which benefits to a different approach : defining a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.
  • "Time consuming" : Asi Sharabi put it well, saying it may take "hours and days" to accurately configure a dashboard. Is this time-consuming step a proper and adequate one to put on any end-user working in a social media, communication or marketing department ?  As suggested by the author, at some point, it would be more profitable for the client to pay an analyst to do the job.
No, unfortunately, the situation has not tremendously evolved since then. Just ask some social media analysts dealing with dashboards and qualitative insight to provide well maybe I attract the bad tempered ones a lot. So, what can be said after that ? 
A few more words. Making faster but accurate and congruent business decisions and recommandations using content analysis solutions is not the core of the problem. The core of the problem more likely lies in setting up an appropriate workflow, with a single main idea : expert systems need experts, and they need them upstream and downstream of the data analysis process. Data scientists skills are without any doubt one of the keys to a "better filtering" of content, to provide, curate and analyse real qualitative content.

samedi 30 octobre 2010

Caution : NLP age incoming

Les faits

Conversation about content is king, nous disait en avril la dernière étude Pew Internet.

Premier constat : cela change la donne des stratégies pour sortir vainqueur de la guerre de l'attention et impacter sa cible ; autrement dit :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

L'autre volet de la question est mis en avant par Martin Hayward dans une tribune pour Researchers du mois de mars dernier :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably

constate-t-il, avant de conclure :

we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

L'analyse des contenus en ligne : vers une rénovation des expertises

Quel impact pour les acteurs du marché de la veille et des études quanti/quali online ? En premier lieu, la nécessité de rénover profondément l'expertise de leurs équipes : la qualité d'analyse dépend de la qualité du veilleur. Un veilleur mal formé ou n'ayant pas les compétences adéquates pour l'analyse qualitative des données web représente une perte de valeur ajoutée.

D'un autre côté, les solutions d'analyse "clé en main" que certains éditeurs proposent aux agences de veille et d'étude - pour l'analyse des parcours d'information, des opinions, etc... - ne feront illusion qu'un temps : une analyse qualitative tire toujours sa valeur ajoutée de l'analyste, in fine.

Mais si ! Et ce n'est même pas moi qui le dit, c'est l'amie Christelle Ayache, Spécialiste TAL chez CapDigital, qui argumente en ma faveur dans un article de Cyrille Chausson pour LeMagIT, tout frais du 29 octobre :

La validation humaine sera toujours nécessaire. C’est même ce qu’on doit aujourd’hui faire comprendre au grand public.

A la bonne heure ! L'expertise humaine au coeur de la recherche pertinente, propos d'un précédent billet, prend une nouvelle dimension : celle d'une invitation à la pluridisciplinarité méthodologique et technique chez les acteurs du secteur. Qui se fera certainement par l'intégration dans les équipes de profils initiés aux outils et méthodes du NLP. Non ! pas le Neuro Linguistic Programming, le Natural Language Processing ! Oui, l'autre nom du TAL en anglais :)

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

lundi 1 juin 2009

"The 100 most mentioned brands on Twitter" : de l'erreur de méthode à la désinformation

Début mai, Revolutionmagazine publiait un billet avec un titre plein de promesses, une porte ouverte (gratuite) à une étude de visibilité des marques sur Twitter : LE classement des 100 marques les plus citées.

Par l'odeur alléchée, je m'y rends, à l'affût de quelque découverte : une nouvelle application, une bonne idée, un biais méthodologique particulier... Le chapeau du billet annonce tout de même :

Revolution teamed up with i-level's social media agency Jam to reveal the 100 most mentioned brands on Twitter and how they are aiming to capitalise on the buzz

Le tableau à cinq colonnes, précisant la marque, son rang, le nombre de mentions de la marque, le compte Twitter et le nombre de followers, est un panorama un peu léger, mais passons. Pour entrée en matière, ça fait l'affaire.

LE problème? La matière justement... Aucune information sur la méthode employée, pas de contextualisation des résultats, un tableau, simplement un tableau. Indiqué par une astérisque, le seul commentaire du tableau précise :

*Figures are correct according to Jam's research which took place over three days in April 2009

Quels jours? Quels plages horaires? Un petit lien vers la 'Jam social media agency'? On n'en saura pas plus. Et pour le how they are aiming to capitalize on the buzz, on repassera.

L'idée d'observer la visibilité et l'implication des marques sur Twitter est bonne, incontournable même pour un état du 2.0. Mais les résultats de telles observations ne valent que par le contexte qui les entoure, surtout quand on parle de l'analyse d'un stream continu d'information. C'est ce point qu'il faut mettre en avant pour les lecteurs de l'étude : c'est un instantané du web qui doit être interprété avec précaution.

Des outils et une méthode de travail adaptée auraient rendu cet essai plus concluant et plus riche d'enseignements pour la métacommunauté des analystes web. Quid d'une application de TAL avec quelques bases élémentaires de statistique textuelle dedans, des ressources pour traiter plus finement les contenus? Pourquoi pas un petit graphique de l'évolution du nombre de citations par jour dans les tweets, mieux, en fonction d'une typologie des tweets?

Avec une méthodologie inexistante (un décompte manuel sur trois jours sans contexutaliser les résultats), il serait sans doute bon d'être un peu plus précautionneux lorsqu'on joue avec les effets d'annonce.

Parce qu'une information mal traitée est un premier pas vers la désinformation.

lundi 23 mars 2009

L'âge des widgets utiles : quelles applications après le e-commerce?

LaTransparenceDesPrix

Voyons voir... un comparateur de prix déguisé en widget? Un widget avec du comparateur de prix dedans? La seconde formulation correspondrait mieux à l'idée du "widget utile".

"Widget utile"? Oui, car si par définition, l'une des réalités recouvertes par le terme "widget" est forcément utile (un élément de l'interface d'une application, par exemple un bouton), les instances de widgets les plus répandues sur le web sont des widgets interactifs, qui permettent d'obtenir de l'information, oui, (météo, dictionnaire, post-it...), mais de l' information qui n'est pas corrélée à l'activité immédiate de l'internaute.

Et pourtant, il est certain qu'une grande part des internautes bénéficierait d'outils dont la fin n'est pas leur téléchargement et l'abonnement gratuit à un webservice quelconque. Surtout que, rappelons-le, l'internaute lambda peut aussi être un chargé de veille, un analyste d'opinion online, un linguiste dont le terrain d'analyse est sur le web, ou appartenir à n'importe quelle autre profession qui a de près ou de loin à voir avec l'infini vivier d'information non structurée à sémantiser qu'est le web.

De LaTransparenceDesPrix, le widget avec du comparateur de prix dedans, il est dit :

Dès qu’il « reconnaît » un produit, il affiche automatiquement les offres des concurrents.

Un peu plus loin, on peut lire :

En vous suivant sur les sites marchands que vous visitez, le widget “ La Transparence des Prix” joue le rôle d’un véritable compagnon d’aide à l’achat.

Nous y voilà : un compagnon d'aide à ... à la recherche d'information, à l'analyse thématique automatique, à l'extraction d'entités nommées... et caetera, et caetera (bref, avec du TAL dedans, pourquoi pas!)

Un véritable arsenal de widgets pour partir à l'attaque du touffu web, autant d'applications dont on pourrait s'équiper en fonction du besoin du moment, au gré des analyses à réaliser et des contenus observés.

LaTransparenceDesPrix, une application e-commerce dont le principe pourrait bien être appliqué à la veille d'information en tous genres? Le portage me semble prometteur : c'est aujourd'hui un créneau vide, sur lequel personne, à ma connaissance, n'est encore venu s'insérer. Gageons que l'idée fera son chemin et que d'ici un an ou deux, les premiers essais seront sortis des tubes!

A noter : ITR-News en parlait la semaine dernière.

A noter(2) : le mode "widget" n'est pas exclusif, mais les interfaces, d'une part, et les pratiques des internautes, d'autre part, rendraient ces outils plus accessibles, pour des raisons d'ergonomie et de simplicité d'utilisation. On retrouve un peu cette idée de "modularité ++" dans les widgets de Plasma, la partie visuelle de l'environnement de bureau KDE.

A noter(3) : une excellente ressource pour ceux qui veulent en savoir plus sur les petits envahisseurs que sont les widgets, par Guillaume Thavaud (cellule de veille (veille@brioude-internet.fr) de la société Brioude-Internet Référencement) sur abondance.com.