MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

mardi 15 février 2011

Reprises, interactions textuelles, échanges asynchrones

Tels sont les trois mots-clés qui résument la présentation d'une de mes recherches en cours. L'objectif ? Décrire et modéliser les phénomènes linguistiques liés à la cohérence conversationnelle dans les échanges asynchrones sur Internet.

J'ai eu la chance d'assister à une journée d'étude un peu particulière : celle l'avènement officiel de la Fédération CLESTHIA.

Ce fut extrêmement intéressant de voir une autre facette de "la recherche en marche", celle qui sort de son laboratoire pour nouer des relations d'émulation et d'échange entre chercheurs de domaines connexes. Nous nous sommes donc retrouvés, traductologues, spécialistes de l'analyse des discours - politique, littéraire, de presse-, linguistes fins connaisseurs du français parlé, avec quelques TAListes au milieu. Tous dans l'optique d'échanger sur une thématique fort intéressante, qui est celle du "discours rapporté", du "discours autre", chaque présentation étant l'occasion de mieux comprendre l'appréhension de notre objet d'étude par les autres.

Une grande chance que la mienne, donc, de pouvoir aller présenter mes petits travaux devant une telle audience ! Eh oui, ça stresse toujours quand on revient de l'entreprise (et des présentations clients), d'aller parler d'un problème de linguistique "hard-core" devant des dizaines de linguistes chevronnés... Une grande chance également que ce travail ait été bien reçu : je vous le fais donc partager :)

Brève intro : je travaille en ce moment sur les forums (interactions textuelles, échanges asynchrones), dans une perspective Opinion Mining (dont l'e-réputation est un ersatz, si l'on reprend l'acception qu'ont de ce terme nos amis philosophes).

Bonne consultation et n'hésitez pas à me contacter si cela vous intéresse :)

samedi 30 octobre 2010

Caution : NLP age incoming

Les faits

Conversation about content is king, nous disait en avril la dernière étude Pew Internet.

Premier constat : cela change la donne des stratégies pour sortir vainqueur de la guerre de l'attention et impacter sa cible ; autrement dit :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

L'autre volet de la question est mis en avant par Martin Hayward dans une tribune pour Researchers du mois de mars dernier :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably

constate-t-il, avant de conclure :

we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

L'analyse des contenus en ligne : vers une rénovation des expertises

Quel impact pour les acteurs du marché de la veille et des études quanti/quali online ? En premier lieu, la nécessité de rénover profondément l'expertise de leurs équipes : la qualité d'analyse dépend de la qualité du veilleur. Un veilleur mal formé ou n'ayant pas les compétences adéquates pour l'analyse qualitative des données web représente une perte de valeur ajoutée.

D'un autre côté, les solutions d'analyse "clé en main" que certains éditeurs proposent aux agences de veille et d'étude - pour l'analyse des parcours d'information, des opinions, etc... - ne feront illusion qu'un temps : une analyse qualitative tire toujours sa valeur ajoutée de l'analyste, in fine.

Mais si ! Et ce n'est même pas moi qui le dit, c'est l'amie Christelle Ayache, Spécialiste TAL chez CapDigital, qui argumente en ma faveur dans un article de Cyrille Chausson pour LeMagIT, tout frais du 29 octobre :

La validation humaine sera toujours nécessaire. C’est même ce qu’on doit aujourd’hui faire comprendre au grand public.

A la bonne heure ! L'expertise humaine au coeur de la recherche pertinente, propos d'un précédent billet, prend une nouvelle dimension : celle d'une invitation à la pluridisciplinarité méthodologique et technique chez les acteurs du secteur. Qui se fera certainement par l'intégration dans les équipes de profils initiés aux outils et méthodes du NLP. Non ! pas le Neuro Linguistic Programming, le Natural Language Processing ! Oui, l'autre nom du TAL en anglais :)

lundi 25 janvier 2010

Les Australiens, leaders de l'audience sur les réseaux sociaux

Dans une récente étude, rendue publique le 22 janvier dernier, le renommé institut Nielsen annonçait sur son blog, le NielsenWire, quelques unes des tendances majeures de la consommation des médias sociaux.

A partir de résultats agrégés entre 2007 et 2009, les premiers éléments donnés à voir confirment les changements globaux chez les internautes : l'explosion de Facebook, le relatif déclin de MySpace, l'exponentielle croissance de Twitter, entre autres choses dont nombre d'entre vous ont déjà entendu parler.

social-media-Nielsen09.png

Le temps moyen par internaute sur un service de réseau social a quasiment doublé en un an, de même que l'audience de ces services (mesurée en VU).

social-network-growth_Nielsen09.png

La consommation des internautes américains est particulièrement vorace de Facebook et Twitter (ce dont les Trending Topics de ce dernier donnent une belle preuve jour après jour). Mais là où ça devient vraiment fort, c'est ensuite...

Si les USA capitalisent toujours la plus forte audience (en VU) sur ces services de réseau sociaux, en proportion ils sont nettement moins bons que l'Australie! Je vous laisse admirer la beauté du tableau de données ci-après.

Nielsen_TableauDonnees_SocialMedia09.png

Amis Australiens, toutes mes félicitations! Il ne manque plus qu'une petite étude des moeurs sociodigitales pour expliciter ce phénomène avec un peu de consistance...

dimanche 4 octobre 2009

"Google's not a content company" : E. Schmidt sur le web, la presse et le journalisme

Une petite pensée aux connaissances web-journalistiques, qui ne doivent pas manquer de prêter l'oreille aux mots de Schmidt...

Danny Sullivan, chez SearchEngineLand, propose une série d'articles suite à son interview d'Eric Schmidt, CEO de Google depuis 2001, au sujet de la stratégie du leader de la recherche en ligne par rapport aux producteurs et éditeurs de contenus.

Le contexte ambiant, qui combine mutations de la presse off et online, apparition de web services dédiés - Fast Flip chez Google, la bonne initiative du Newspaper Consortium chez Yahoo! - , et plus généralement la mise à disposition des ressources culturelles bibliographiques et journalistiques notamment, oriente l'échange des deux protagonistes autour de la question de la fonction de Google dans l'univers Web - puisqu'il n'est plus besoin de disserter sur sa position de leader incontesté, pour l'instant.

Schmidt affirme :

We need these content partners to survive. We need their content. We are not in the content business. So, you could decide that we’re just evil businessmen trying to give money to the newspapers through the Fast Flip revenue shari..., or you could decide that we’re altruistic and trying to save an important Fourth Estate of American political discourse. Whichever one leads to the same outcome. I hope you believe the second. But even if you believe the first, it’s still good business. We need their content.

Google a besoin de contenu, il innove donc en élaborant de nouveaux outils de gestion et de production de contenus à destination du plus grand nombre. Du contenu qu'il peut se réapproprier aussitôt : je pense en particulier à la prochaine indexation de vos Google Docs, qui mérite un peu d'attention tout de même. On n'aura donc pas d'information produite par Google en dehors de la communication traditionnelle autour de ses technologies.

Pour aller plus loin, lisez les positions de Schmidt :

vendredi 18 septembre 2009

Le TAL français relancé par le volet numérique : petit panorama

NKM a fait un certain bruit médiatique avec les mesures relatives au volet numérique du plan de relance, plutôt focalisé autour du Serious Gaming que des Projets Web Innovants. Je m'intéresse ici surtout à ces derniers, qui ont généré une petite émulation dans la bulle TAL française.

Le mois de septembre a marqué un tournant pour quelques dizaines d'entreprises et laboratoires universitaires qui s'étaient, en juin dernier, lancés dans une haletante ruée vers les Projets Web Innovants. Comme promis, près de trois mois plus tard, le Ministère de l'Economie, de l'Industrie et de l'Emploi annonce la liste des projets financés.

Concernant les laboratoires plutôt connus pour leur spécialité TAL (et pas uniquement en ingénierie documentaire ou en IHM), on remarque le LIP6, le LINA et différents pôles de l'INRIA (Nancy et Sophia-Antipolis notamment), qui partagent la scène avec des écoles, en particulier Sciences-Po Médialab, et Télécom ParisTech.

Côté entreprises, on note surtout :

  • la belle performance de Syllabs, jeune entreprise qui fleurit à sa troisième année, avec Feed-ID, un projet plutôt orienté référencement que pur TAL, pour une agrégation de compétences qui semble prometteuse, compte tenu des briques technologiques développées par cette société et qui sont pour partie destinées à l'aide aux linguistes; un point intéressant à retenir lorsque l'on sait les proximités des solutions de TAL avec les nouvelles industries de la veille web et du monitoring d'information;
  • l'air du temps que respire Lingway, avec un projet de représentation cartographique et d'analyse sémantique - qui n'est pas sans rappeler d'autres projets dans la même veine, en particulier le projet Doxa, débuté l'an dernier;
  • le très intéressant projet GlipFix, dédié à la co-création de contenus informationnels de qualité, porté par FaberNovel, qui s'est pour l'occasion notamment associé à Exalead - fleuron du moteur de recherche made in France, par ailleurs très bien implanté sur le segment des solutions entreprise;
  • on reste dans le thème de l'édition collaborative, avec le projet Topos, autour duquel on retrouve PERTIMM, entreprise également située sur le segment du traitement de l'information.

Sans savoir s'ils ont tous répondu à cet appel d'offres, j'aurais aimé avoir une trace de Temis, SineQua ou Synapse Développement - pour ne citer qu'eux. Tout cela augure cependant un bel avenir à ces - presque incontournables - noms du TAL hexagonal, et instaure un terrain favorable au développement de cette industrie en France.

lundi 22 juin 2009

A crunch on Hunch ? "Skip this question"

hunch.jpg Hunch, le nouveau produit de la start-up de Caterina Fake (co-fondatrice de Flickr), sorti en juin dernier. En quelques mots? Un moteur qui bénéficie peut-être des effets collatéraux de la campagne de Bing sur le moteur de recherche comme aide à la décision, comme le souligne ActuAbondance (qui nous apprend aussi au passage que Miss Fake s'est, à l'occasion, entourée de chercheurs du MIT) .

Le principe? Intégrer un système incrémental utilisant des arbres de décision pour retourner des propositions à l'utilisateur.

Une sortie discrète pour un outil sur lequel personne n'a grand chose à dire : on en présente le principe ici et , sans vraiment chercher à le tester. Here we go...

Une transparence appréciable et juste ce qu'il faut de camemberts... Hunch-teachHunch-camembert.PNG
Hunch nous dit quelles sont les feuilles de l'arbre de décision qui l'ont mené à nous faire une suggestion donnée : on clique sur Why did Hunch pick this? et on accède aux quatre questions qui ont le plus de poids dans le parcours de l'algorithme. Il indique également, de façon simple, votre "positionnement", en fait le pourcentage de personnes qui ont donné la même réponse que vous à l'une des questions.

Mais une base de connaissances à couverture encore restreinte
Allez donc raconter à Hunch que vous habitez en Europe de l'ouest en testant l'un des parcours proposés à la première connexion "Which cheese would I enjoy?". Surprise! Il connaît des fromages italiens, le brie, mais pas le munster! Testez le mot-clé "munster" dans la boîte de dialogue "Today I'm making a decision about..." : après vous avoir suggéré un "Did you mean : monster", il propose quelques réponses, mais sans rapport avec le fromage... Mince, et si j'avais envie de décider quel vin j'allais boire avec mon munster ce soir?

Pas de procès d'intention, mais une question : pourquoi généraliser à l'ensemble des utilisateurs du Web une procédure de décision typiquement américaine? Seriously, I never bought anything in a Walmart! Why don't you ask me what I think of an Auchan or a Leclerc? En somme, l'outil gagnera beaucoup lorsqu'il sera décliné et mieux adapté à la diversité de ses potentiels utilisateurs.

Pour finir, Hunch a quelques réflexions très curieuses pour un outil ouvert sur l'international, en particulier celle-ci : Hunch-question.PNG

Au bout du compte, on utilise beaucoup la fonction "Skip this question".

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

mercredi 8 octobre 2008

ChaCha!

ChaCha’s Guides are individuals who are part of a vibrant community dedicated to helping people by sharing their knowledge.

Interesting? Bien loin des mobile services avec beaucoup de processing dedans, ChaCha, c'est un peu comme les renseignements téléphoniques, mais avec des contributeurs volontaires à l'autre bout du fil pour vous fournir de l'information.
La vidéo de présentation de l'outil est disponible sur le site chacha.com. Alors, il ne s'agit pas d'un moteur de recherche, mais d'un service de mise en relation entre les personnes, les unes souhaitant obtenir une information, les autres souhaitant partager leur savoir. Chacha propose d'ailleurs du mobile marketing à partir de la plateforme dont dispose la société.

As usual, j'ai cherché des papiers explicitant la technologie utilisée sur le site, mais n'en ai point trouvé. Une phrase intéressante à relever cependant :

ChaCha’s technology is also learning from each answer that is provided by our guides so that we can deliver accurate answers as quickly as possible.

Pas folle la guêpe ChaCha : ils ont donc glissé un algorithme d'apprentissage automatique qui s'entraîne sur les bases de données des réponses fournies par les Guides humains. Je suppute qu'un algorithme de génération automatique de texte ne va pas tarder à pointer le bout de son nez : quelle manne, les réponses de Guides!

mercredi 3 septembre 2008

Un métamoteur à plébisciter : Wbsearch

Wbsearch-barre.jpg

Wbsearch Metasearcher Engine, un métamoteur de recherche où cocher la case Exact Phrase veut vraiment dire quelque chose! Je l'ai testé avec Who is Noam Chomsky?, linguistique et Où est la Tour Eiffel?, pas mal du tout. Il apprend aussi nos recherches favorites, restituées dans la liste sous la boîte de dialogue... :)

Wbsearch-aboutus.jpg

Give it a try!

lundi 28 juillet 2008

Microsoft : interrogation en langage naturel et réseaux sociaux

TechCrunch en parle : Microsoft s'associe à Facebook pour lier Live Search au réseau social, to provide web search and search advertising précise msnbc. Rien de trop innovant pour ce type de plateformes, monétisables avant tout par le ciblage des utilisateurs pour réduire les coûts d'affichage aux annonceurs.

Il faut rappeler que ces dernières années, les applications d'analyse des sentiments (sentiment analysis) et de la fouille de textes orientée opinion (opinion mining) se sont essentiellement élaborées avec le Web comme corpus et les sites d'avis de consommateurs comme terrain privilégié. Les technologies de la classification automatique et de la fouille de textes, qui répondaient à des problématiques documentaires, sont appliquées au traitement automatique du langage subjectif. Ces technologies trouvent donc un terrain parfaitement propice dans ces agrégateurs géants de fiches de présentation individuelles auxquelles s'apparentent les réseaux sociaux.

Inévitablement, un écho du récent rachat de Powerset se fait entendre. Pour contextualiser rapidement cette affaire, Microsoft est entré au capital de Facebook en octobre 2007, investissement dont la pertinence semble avoir fait douter. Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation des interfaces de recherche en langage naturel, a été absorbé il y a quelques semaines. Ce qui est dans la ligne d'action définie par Microsoft ces dernières années : effectuer de petits investissements pour entretenir la croissance externe du groupe.
herveG, modérateur de Webrankinfo, propose une intéressante mise en perspective sur ces agglomérations entre moteurs de recherche et réseaux sociaux. En particulier sur les développements au sein de Facebook :

Facebook ne cesse de recruter de nouveaux membres grâce à ses quelque 5.000 applications, de nouvelles étant proposées tous les jours. Et maintenant, fort de son succès, il débauche aussi chez Google: après avoir recruté début mars comme nouvelle directrice générale Sheryl Sandberg, l'une des responsables des ventes de publicité de Google, il vient de recruter Ethan Beard, qui était le directeur des médias de socialisation de Google.

Fort bien. Mais alors, si un LiveSearch peut bénéficier d'une technologie telle que Powerset, cette dernière n'aurait-elle pas également sa place dans la prochaine génération d'interfaces à la Windows Seven? Microsoft annonce, justement

"The way you interact with the system will change dramatically."

Changer les modes de consultation et d'accès aux données, sans être trop fou, avec des interfaces qui gèrent le TextToSpeech et le SpeechToText, en calant quelques modules d'analyse syntaxique, d'identification automatique des intonations, saupoudré de sentiment analysis... je n'ai pas la sensation de rêver trop fort.

- page 1 de 2