MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

lundi 1 juin 2009

"The 100 most mentioned brands on Twitter" : de l'erreur de méthode à la désinformation

Début mai, Revolutionmagazine publiait un billet avec un titre plein de promesses, une porte ouverte (gratuite) à une étude de visibilité des marques sur Twitter : LE classement des 100 marques les plus citées.

Par l'odeur alléchée, je m'y rends, à l'affût de quelque découverte : une nouvelle application, une bonne idée, un biais méthodologique particulier... Le chapeau du billet annonce tout de même :

Revolution teamed up with i-level's social media agency Jam to reveal the 100 most mentioned brands on Twitter and how they are aiming to capitalise on the buzz

Le tableau à cinq colonnes, précisant la marque, son rang, le nombre de mentions de la marque, le compte Twitter et le nombre de followers, est un panorama un peu léger, mais passons. Pour entrée en matière, ça fait l'affaire.

LE problème? La matière justement... Aucune information sur la méthode employée, pas de contextualisation des résultats, un tableau, simplement un tableau. Indiqué par une astérisque, le seul commentaire du tableau précise :

*Figures are correct according to Jam's research which took place over three days in April 2009

Quels jours? Quels plages horaires? Un petit lien vers la 'Jam social media agency'? On n'en saura pas plus. Et pour le how they are aiming to capitalize on the buzz, on repassera.

L'idée d'observer la visibilité et l'implication des marques sur Twitter est bonne, incontournable même pour un état du 2.0. Mais les résultats de telles observations ne valent que par le contexte qui les entoure, surtout quand on parle de l'analyse d'un stream continu d'information. C'est ce point qu'il faut mettre en avant pour les lecteurs de l'étude : c'est un instantané du web qui doit être interprété avec précaution.

Des outils et une méthode de travail adaptée auraient rendu cet essai plus concluant et plus riche d'enseignements pour la métacommunauté des analystes web. Quid d'une application de TAL avec quelques bases élémentaires de statistique textuelle dedans, des ressources pour traiter plus finement les contenus? Pourquoi pas un petit graphique de l'évolution du nombre de citations par jour dans les tweets, mieux, en fonction d'une typologie des tweets?

Avec une méthodologie inexistante (un décompte manuel sur trois jours sans contexutaliser les résultats), il serait sans doute bon d'être un peu plus précautionneux lorsqu'on joue avec les effets d'annonce.

Parce qu'une information mal traitée est un premier pas vers la désinformation.

dimanche 4 janvier 2009

FeedVis by Jason Priem : la contradiction du contexte et de la lemmatisation

OF en parle : FeedVis, une application qui permet de faire du tri dans la nuée de flux que peut être amené à ingurgiter le veilleur web. Son auteur, Jason Priem, donne quelques infos et propose sa nouvelle release en téléchargement ici.
OF met bien en exergue le problème de la gestion de l'encodage (UTF8, tu connais?), avec cette instructive image que je me permets de reporter ici :

Feedvis.jpg

Associer une timeline à la génération du nuage de tags construit à partir de vos flux RSS? Proposer quelques résultats de calculs statistiques élémentaires sur la fréquence des occurrences de formes? Revendiquer une couche de lemmatisation avant l'application de ces calculs statistiques? "Sounds nice!", direz-vous, mais en fait, rien de neuf sous le soleil de 2009.

Je salue l'initiative de développer ce genre d'applications web, mais linguistiquement parlant, je tique surtout sur la lemmatisation. Jason Priem nous explique :

Conversations change, and I wanted to see that. I wanted more context

Reprenons :

  • le lemme est la forme non fléchie, par exemple d'un verbe (lemme = aller, forme fléchie = va) ou d'un substantif (lemme = mot, forme fléchie = mots);
  • la lemmatisation consiste donc à rapporter un ensemble de formes fléchies à une forme non fléchie, dite lemmatisée (stratégies, stratégique, stratégiquement rapportées à stratégie, par exemple);
  • en TAL, la lemmatisation est un procédé souvent utilisé car il permet d'obtenir de "meilleures" statistiques sur les fréquences d'occurrences de formes dans un texte; l'idée est la suivante : au lieu d'avoir des statistiques pour stratégies, stratégique et stratégiquement isolément, on regroupe les résultats de ces différentes formes fléchies en les couplant à celles du lemme stratégie;
  • meilleures statistiques? Selon moi, il n'est pas utile d'appliquer une couche de lemmatisation lorsque, comme Jason Priem, l'on prétend vouloir "more context". Pourquoi? Simplement parce que la lemmatisation est une réduction de la variation lexicale présente dans les textes et évacue véritablement le contexte.
  • le contexte (si l'on chipotait, l'on parlerait plutôt de cotexte, d'ailleurs, mais passons) est justement accessible par la diversité des formes présentes dans le texte : les fréquences d'occurrence de pieds ou de pied sont liées au contexte (c'est-à-dire à des emplois différents dans le discours : le pied de la montagne et les pieds de mon ami, par exemple)

En somme :

  1. la lemmatisation maquille le changement dans les conversations
  2. la justification de son emploi est très discutable, d'un point de vue linguistique en tous cas : le contexte, c'est la variation des formes; pourquoi alors les réduire à un artefact, le lemme?

samedi 3 janvier 2009

Petites notions de statistique textuelle

Occurrence? Forme? Fréquence absolue ou relative? Kézako? Petit mémo pour ceux qui travaillent sur les textes...

  • les occurrences correspondent aux unités dans lesquelles la chaîne graphique - la chaîne de caractères qui compose le texte - est découpée;
  • les formes sont des types d'occurrences, c'est-à-dire qu'elles correspondent à des segments ayant la même chaîne graphique (exemple : dans le début de ce billet, on peut compter 3 occurrences de la forme les);
  • la chaîne graphique est découpée par des séparateurs - ou segmenteurs - : les types, donc les formes, ont un nombre d'occurrence dans le texte, comme on vient de le voir;
  • la segmentation permet d'isoler dans le texte des unités de décompte, donc des segments de texte à partir desquels sont effectuées des opérations statistiques.

Lorsque l'on travaille sur les textes, c'est généralement dans la perspective de les contraster, de les comparer les uns aux autres. Introduisons ici l'acception de la notion de corpus la plus intuitive : un corpus est un ensemble de textes.
Afin de pouvoir analyser un corpus, il convient d'introduire la notion de partition : l'ensemble de textes, découpé en unités minimales ou occurrences, doit subir un second découpage en parties; définir différentes partitions du corpus permet de les comparer entre elles.

TLE.jpg

Comment corréler les formes, leurs occurrences et la partition du corpus? Au moyen d'un TLE (Tableau Lexical Entier). Un TLE est une matrice creuse, qui permet de comparer les parties en fonction du nombre des occurrences de formes. Le découpage en parties dépend des hypothèses d'analyse émises dans le cadre de l'étude d'un corpus, à la différence de la segmentation en occurrences, qui dépend, quant à elle, des séparateurs des unités minimales du texte considérées (les suites de caractères séparées par des blancs, les segments de texte entre virgules, par exemple).
Le nombre de formes dans une partie est une sous-fréquence de la fréquence d'occurrences totale dans le corpus. Cela nous permet d'aborder la distinction entre les notions de fréquence absolue et fréquence relative :

  • la fréquence absolue correspond au nombre d'occurrences réellement observé pour une forme donnée. Ce nombre n'est pas rapporté à une autre grandeur; la fréquence absolue ne permet pas de comparaison : on ne peut se fier à cette seule mesure pour interpréter la significativité des formes dans le corpus.
  • la fréquence relative, quant à elle, rend comparables les fréquences absolues, en prenant en compte la longueur des parties. Cette dernière doit être considérée, car le calcul de la fréquence relative d'une forme dans le corpus relève alors d'un décompte des occurrences dans des ensembles de longueur différente. On dira donc que la fréquence relative est la fréquence absolue de la forme, rapportée à la longueur de la partie.

Hope it helps!

vendredi 10 octobre 2008

La coloration thématique des contenus textuels : une réelle innovation?

"Enfin un outil qui permet une couche d'analyse par dessus les statistiques sur les liens entre les blogs", me suis-je exclamée en lisant la présentation, comme toujours, très brillante, de Marshall Kirkpatrick (ReadWriteWeb), de l'outil Memeorandum.

En lisant ce très bon papier, je me suis souvenue avoir vu des développements analogues. Eh oui, en France, on fait beaucoup moins de bruit autour des innovations concoctées par nos chercheurs CNRS... C'est bien dommage, car en 2001, Pierre Beust, chercheur à l'Université de Caen, s'intéressait déjà au développement de technologies pour ce type d'applications. Je ne peux donc que recommander la lecture de son article de l'époque, Acquisition de classes sémantiques par coloriage thématique des textes électroniques. Je me permets d'en reproduire ici l'abstract :

Cet article présente une application appelée ThemeEditor dont le but est de permettre une acquisition supervisée de classes sémantiques. Cette acquisition est réalisée dans le cours d’une tâche interactive d’analyse interprétative de textes électroniques. Le logiciel d’étude proposé met en oeuvre un principe de coloriage thématique dans un texte et plus généralement dans un corpus de textes électroniques. Il s’agit de mettre en évidence, en fonction des classes sémantiques acquises ou en cours d’acquisition, la répartition des thèmes et leurs différentes formes d’enchaînements.

Ou comment ce qui nous paraît innovant aujourd'hui ne date certainement pas d'hier... Ou comment garder à l'esprit que, quand bien même l'innovation paraît surtout venir des US, elle est pourtant endormie quelque par dans un labo hexagonal...

dimanche 5 octobre 2008

Les bons augures de David Provost...

laissent à penser que l'arrivée sur le marché des technologies de TAL (Traitement Automatique des Langues) annonce celle de réponses plurielles à des besoins industriels importants. On the cusp, belle forme parabolique. Fort bien.

Semantic science is being productized, differentiated, invested in by mainstream players and increasingly sought after in the business world

Je tique sur ce semantic science qui sent très fort la présentation commerciale, mais ce qui est dit ensuite n'est pas faux; c'est même très vrai : la demande existe, la technologie peut envisager de quitter les laboratoires pour arriver en contexte industriel, les formations universitaires doivent donc être reconnues à leur juste valeur.
Au-delà de la très aguicheuse quatrième section intitulée Who should read this report, qui fera en 38 pages un état de l'art profitable aussi bien aux business managers and strategists qu'aux software engineers, je laisse Marshall Kirkpatrick plier l'affaire de son excellente formule :

In fact, while Provost has glowingly positive things to about all the companies he surveyed, the absence of engagement with any of their shortcomings makes the report read more like marketing material than any objective take on what's supposed to be world-changing technology.

En effet, le champ couvert par les exemples relève surtout de la gestion d'information et d'outils permettant l'association de métadonnées aux documents, le tout dans un packaging qui tient plutôt de l'outil de travail collaboratif que d'un outil sémantique. A cet égard, la présentation d'Anzo, un module Excel développé par l'Université de Cambridge, apporte de l'eau à notre moulin.

Ce rapport me semble illustrer l'un des écueils liés à l'émergence de cette industrie : le flou autour d'un ensemble de technologies expérimentales à fort potentiel lucratif, avec des cahiers des charges encore mal définis, où les sites des entreprises citées exhibent plutôt de beaux schémas qui bougent et un panneau de success stories, que leurs papiers de recherche...

jeudi 2 octobre 2008

Google "In Quotes" : déguiser l'analyse d'impact presse en résonance textuelle?

ActuAbondance en parle cette semaine et propose une première petite étude de cas sur les résultats du nouveau service Google : "In Quotes".
Sur le principe, entendons-nous bien, l'idée de pouvoir mettre en regard les citations de deux personnalités publiques sur un sujet identique ne manque certes pas d'intérêt. Par chez nous les TAListes, cette mise en regard est indexée par l'intitulé "résonance textuelle". Je vous recommande d'ailleurs la lecture d'un article d'André Salem, référence en la matière, intitulé ''Introduction à la résonance textuelle'' (JADT'04).
resonanceTextuelleSalemJADT04.jpg
Ce schéma vise à illustrer un phénomène simple : comparer les discours en fonction des occurrences que l'ont peut y identifier, afin de les étudier en contexte, en résonance, justement.

Observons maintenant une page de résultats In Quotes :
InQuotesExample.jpg

L'identification automatique des citations est un problème non trivial en TAL. Peut-on se limiter au segments de texte encadrés par des guillemets? Non, et Google Labs a évité cet écueil en effectuant (je suppute) la reconnaissance automatique des citations en mettant à profit des tournures fréquentes du discours rapporté, du type "Mr. X said".

In Quotes semble bien fonctionner en procédant par reconnaissance de mots-clés, associés de façon univoque à une thématique. Il suffirait donc de trouver une occurrence d'"Iraq" pour que le texte la contenant soit classé dans la thématique "Iraq". Il n'est bien entendu pas question de prendre en compte les paraphrases des noms propres, pourtant largement utilisées dans le discours journalistique, comme par exemple "Baghdad" (le nom de la capitale du pays en question est souvent utilisée pour renvoyer au pays lui-même), pour ne prendre que cet exemple.

Autre remarque sur l'alignement d'In Quotes : il n'y en a pas, tout du moins les extraits de texte restitués et mis en parallèle ne présentent pas d'alignement par date, par source, par période (la semaine, le mois, par exemple). C'est dommage : il eût été fort commode pour l'utilisateur de pouvoir se faire une idée de la recrudescence de ces "thèmes" (fussent-ils réduits à de simples mots-clés) au cours du temps, en fonction du nombre d'articles et de la personnalité publique à l'origine des citations relayées dans la presse. Le seul point de comparaison est finalement un mot-clé qui apparaît dans les "quotes", ce que ne manque pas de relever TechCrunch : the site doesn’t seem to be utilizing any algorithms to determine how each keyword is used.

Bref, pourquoi proposer un service aussi pauvre, qui ne répond pas à l'attente de pré-analyse de l'information que peut concevoir l'utilisateur?

dimanche 3 août 2008

The Appraisal Theory (Martin & White, 2005)

MartinANDWhiteBook.jpg

L’Appraisal Theory s’intéresse à la manière de modéliser le langage évaluatif, en particulier à la relation d’influence induite par les stratégies mises en œuvre par l’auteur d’un texte, qui conditionneraient le lecteur à adopter son opinion. Se réclamant de la linguistique systémique fonctionnelle (Systemic Functional Linguistics, ou SFL), Martin et White entendent situer la notion d’appréciation within a holistic model of language and social context (The Language of evaluation, Introduction, p.7). L’intégration du contexte social dans l’interprétation du donner à voir qu’exhibe l’auteur n’est pas sans rappeler certains critères d’analyse de la sociolinguistique interactionnelle. En particulier, ce que (Gumperz, 1999) caractérise en termes de processus de contextualisation verbaux. (Référence exacte : Gumperz, J. (1999). On interactional sociolinguistic method. In S. Sarangi & C. Roberts (Ed.), Talk, Work and Institutional Order. Discourse in Medical, Mediation and Management Settings (p.453-471))

La Théorie de l’Appréciation se concentre plus précisément, parmi l’ensemble des ressources sémiotiques, ou métafonctions dans la terminologie de la SFL, mobilisées par les locuteurs dans leur démarche de construction du sens, sur la métafonction interpersonnelle. Plusieurs aspects sont alors distingués, comme constitutifs de la métafonction interpersonnelle, ce modèle théorique se réclamant d’une perspective holistique. Les rapports d’influence entre l’auteur d’un texte et son lecteur, médiatisés par l’expression de l’opinion, constituent l’un des objets d’étude de ce modèle. C’est bien le donner à voir, c’est-à-dire le positionnement tel que l’émetteur du message le présente comme objectif ou subjectif, qui est soumis à l’étude, par le biais de l’analyse textuelle – les indices lexico-syntaxiques, entre autres –.

La modélisation de la sémantique de l’appréciation telle qu’elle est exposée dans (Martin and White, 2005), se veut topologique et non typologique. Ils n’entendent donc pas proposer une analyse catégorielle mais graduelle de l’appréciation : The introduction of scaled systems shifts our perspective from categorical to graded analysis. (It) is a shift from typology to topology. (op.cit., Introduction, p.16). Il s’agit en fait d’une modélisation des régions de sens, ainsi que de la proximité qu’entretiennent les sens entre eux, en fonction d’un continuum de variation.

mardi 29 juillet 2008

Le joli Cuil

Presque pas dans le buzz tardif cette fois-ci. Cuil, un des derniers-nés de la course au moteur de recherche, fait parler de lui pour sa couverture du Web. Voici une appétissante présentation de Altsearchengines, dont je cite l'amorce :

Cuil, a technology company pioneering a new approach to search, unveils its innovative search offering, which combines the biggest Web index with content-based relevance methods, results organized by ideas, and complete user privacy. Cuil (www.Cuil.com) has indexed 120 billion Web pages, three times more than any other search engine.

C'est élogieux et ça contient le syntagme content-based relevant methods. How interesting! Bon, oui, ça donne envie d'aller tester cette affaire-là. Voyons donc.

google_cuil

cuil_cuil Et pas prétentieux, avec ça : il ne s'indexe pas lui-même!

En bref, de la classification automatique, joli display de l'information, une page d'info très allégorique.

Je n'ai pas identifié d'autre content-based relevant method. :)

lundi 28 juillet 2008

Microsoft : interrogation en langage naturel et réseaux sociaux

TechCrunch en parle : Microsoft s'associe à Facebook pour lier Live Search au réseau social, to provide web search and search advertising précise msnbc. Rien de trop innovant pour ce type de plateformes, monétisables avant tout par le ciblage des utilisateurs pour réduire les coûts d'affichage aux annonceurs.

Il faut rappeler que ces dernières années, les applications d'analyse des sentiments (sentiment analysis) et de la fouille de textes orientée opinion (opinion mining) se sont essentiellement élaborées avec le Web comme corpus et les sites d'avis de consommateurs comme terrain privilégié. Les technologies de la classification automatique et de la fouille de textes, qui répondaient à des problématiques documentaires, sont appliquées au traitement automatique du langage subjectif. Ces technologies trouvent donc un terrain parfaitement propice dans ces agrégateurs géants de fiches de présentation individuelles auxquelles s'apparentent les réseaux sociaux.

Inévitablement, un écho du récent rachat de Powerset se fait entendre. Pour contextualiser rapidement cette affaire, Microsoft est entré au capital de Facebook en octobre 2007, investissement dont la pertinence semble avoir fait douter. Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation des interfaces de recherche en langage naturel, a été absorbé il y a quelques semaines. Ce qui est dans la ligne d'action définie par Microsoft ces dernières années : effectuer de petits investissements pour entretenir la croissance externe du groupe.
herveG, modérateur de Webrankinfo, propose une intéressante mise en perspective sur ces agglomérations entre moteurs de recherche et réseaux sociaux. En particulier sur les développements au sein de Facebook :

Facebook ne cesse de recruter de nouveaux membres grâce à ses quelque 5.000 applications, de nouvelles étant proposées tous les jours. Et maintenant, fort de son succès, il débauche aussi chez Google: après avoir recruté début mars comme nouvelle directrice générale Sheryl Sandberg, l'une des responsables des ventes de publicité de Google, il vient de recruter Ethan Beard, qui était le directeur des médias de socialisation de Google.

Fort bien. Mais alors, si un LiveSearch peut bénéficier d'une technologie telle que Powerset, cette dernière n'aurait-elle pas également sa place dans la prochaine génération d'interfaces à la Windows Seven? Microsoft annonce, justement

"The way you interact with the system will change dramatically."

Changer les modes de consultation et d'accès aux données, sans être trop fou, avec des interfaces qui gèrent le TextToSpeech et le SpeechToText, en calant quelques modules d'analyse syntaxique, d'identification automatique des intonations, saupoudré de sentiment analysis... je n'ai pas la sensation de rêver trop fort.

dimanche 27 juillet 2008

Les types d'analyse dans quelques applications du TAL

Je vous propose un petit papier écrit cette année écrit pour un cours d'Analyse Robuste, qui brosse une introduction aux modèles d'analyse du TAL et les problèmes de robustesse : en fait, ça se résume à la capacité des systèmes d'analyse à produire une donnée pertinente pour l'objectif de l'application.

Voici le papier (AnalyseRobuste-DM) et son résumé :

Du point de vue du Traitement Automatique des Langues (TAL), la notion d'analyse renvoie à l'analyse des formes linguistiques, c'est-à-dire des séquences de symboles constitutives du donné linguistique. Il s'agit de mobiliser un modèle d'interprétation de ces séquences de symboles, défini en fonction de données extérieures que sont, par exemple, les connaissances linguistiques, entre autres conventions d'interprétation des symboles que l'on souhaite analyser. Nous tenterons dans ce devoir de faire état des différents niveaux d'analyse, des transformations qu'elles appliquent aux données en entrée et d'identifier les problèmes de robustesse des applications qui découlent de ces analyses.

- page 2 de 3 -