MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

lundi 25 janvier 2010

Les Australiens, leaders de l'audience sur les réseaux sociaux

Dans une récente étude, rendue publique le 22 janvier dernier, le renommé institut Nielsen annonçait sur son blog, le NielsenWire, quelques unes des tendances majeures de la consommation des médias sociaux.

A partir de résultats agrégés entre 2007 et 2009, les premiers éléments donnés à voir confirment les changements globaux chez les internautes : l'explosion de Facebook, le relatif déclin de MySpace, l'exponentielle croissance de Twitter, entre autres choses dont nombre d'entre vous ont déjà entendu parler.

social-media-Nielsen09.png

Le temps moyen par internaute sur un service de réseau social a quasiment doublé en un an, de même que l'audience de ces services (mesurée en VU).

social-network-growth_Nielsen09.png

La consommation des internautes américains est particulièrement vorace de Facebook et Twitter (ce dont les Trending Topics de ce dernier donnent une belle preuve jour après jour). Mais là où ça devient vraiment fort, c'est ensuite...

Si les USA capitalisent toujours la plus forte audience (en VU) sur ces services de réseau sociaux, en proportion ils sont nettement moins bons que l'Australie! Je vous laisse admirer la beauté du tableau de données ci-après.

Nielsen_TableauDonnees_SocialMedia09.png

Amis Australiens, toutes mes félicitations! Il ne manque plus qu'une petite étude des moeurs sociodigitales pour expliciter ce phénomène avec un peu de consistance...

dimanche 4 octobre 2009

"Google's not a content company" : E. Schmidt sur le web, la presse et le journalisme

Une petite pensée aux connaissances web-journalistiques, qui ne doivent pas manquer de prêter l'oreille aux mots de Schmidt...

Danny Sullivan, chez SearchEngineLand, propose une série d'articles suite à son interview d'Eric Schmidt, CEO de Google depuis 2001, au sujet de la stratégie du leader de la recherche en ligne par rapport aux producteurs et éditeurs de contenus.

Le contexte ambiant, qui combine mutations de la presse off et online, apparition de web services dédiés - Fast Flip chez Google, la bonne initiative du Newspaper Consortium chez Yahoo! - , et plus généralement la mise à disposition des ressources culturelles bibliographiques et journalistiques notamment, oriente l'échange des deux protagonistes autour de la question de la fonction de Google dans l'univers Web - puisqu'il n'est plus besoin de disserter sur sa position de leader incontesté, pour l'instant.

Schmidt affirme :

We need these content partners to survive. We need their content. We are not in the content business. So, you could decide that we’re just evil businessmen trying to give money to the newspapers through the Fast Flip revenue shari..., or you could decide that we’re altruistic and trying to save an important Fourth Estate of American political discourse. Whichever one leads to the same outcome. I hope you believe the second. But even if you believe the first, it’s still good business. We need their content.

Google a besoin de contenu, il innove donc en élaborant de nouveaux outils de gestion et de production de contenus à destination du plus grand nombre. Du contenu qu'il peut se réapproprier aussitôt : je pense en particulier à la prochaine indexation de vos Google Docs, qui mérite un peu d'attention tout de même. On n'aura donc pas d'information produite par Google en dehors de la communication traditionnelle autour de ses technologies.

Pour aller plus loin, lisez les positions de Schmidt :

vendredi 18 septembre 2009

Le TAL français relancé par le volet numérique : petit panorama

NKM a fait un certain bruit médiatique avec les mesures relatives au volet numérique du plan de relance, plutôt focalisé autour du Serious Gaming que des Projets Web Innovants. Je m'intéresse ici surtout à ces derniers, qui ont généré une petite émulation dans la bulle TAL française.

Le mois de septembre a marqué un tournant pour quelques dizaines d'entreprises et laboratoires universitaires qui s'étaient, en juin dernier, lancés dans une haletante ruée vers les Projets Web Innovants. Comme promis, près de trois mois plus tard, le Ministère de l'Economie, de l'Industrie et de l'Emploi annonce la liste des projets financés.

Concernant les laboratoires plutôt connus pour leur spécialité TAL (et pas uniquement en ingénierie documentaire ou en IHM), on remarque le LIP6, le LINA et différents pôles de l'INRIA (Nancy et Sophia-Antipolis notamment), qui partagent la scène avec des écoles, en particulier Sciences-Po Médialab, et Télécom ParisTech.

Côté entreprises, on note surtout :

  • la belle performance de Syllabs, jeune entreprise qui fleurit à sa troisième année, avec Feed-ID, un projet plutôt orienté référencement que pur TAL, pour une agrégation de compétences qui semble prometteuse, compte tenu des briques technologiques développées par cette société et qui sont pour partie destinées à l'aide aux linguistes; un point intéressant à retenir lorsque l'on sait les proximités des solutions de TAL avec les nouvelles industries de la veille web et du monitoring d'information;
  • l'air du temps que respire Lingway, avec un projet de représentation cartographique et d'analyse sémantique - qui n'est pas sans rappeler d'autres projets dans la même veine, en particulier le projet Doxa, débuté l'an dernier;
  • le très intéressant projet GlipFix, dédié à la co-création de contenus informationnels de qualité, porté par FaberNovel, qui s'est pour l'occasion notamment associé à Exalead - fleuron du moteur de recherche made in France, par ailleurs très bien implanté sur le segment des solutions entreprise;
  • on reste dans le thème de l'édition collaborative, avec le projet Topos, autour duquel on retrouve PERTIMM, entreprise également située sur le segment du traitement de l'information.

Sans savoir s'ils ont tous répondu à cet appel d'offres, j'aurais aimé avoir une trace de Temis, SineQua ou Synapse Développement - pour ne citer qu'eux. Tout cela augure cependant un bel avenir à ces - presque incontournables - noms du TAL hexagonal, et instaure un terrain favorable au développement de cette industrie en France.

lundi 22 juin 2009

A crunch on Hunch ? "Skip this question"

hunch.jpg Hunch, le nouveau produit de la start-up de Caterina Fake (co-fondatrice de Flickr), sorti en juin dernier. En quelques mots? Un moteur qui bénéficie peut-être des effets collatéraux de la campagne de Bing sur le moteur de recherche comme aide à la décision, comme le souligne ActuAbondance (qui nous apprend aussi au passage que Miss Fake s'est, à l'occasion, entourée de chercheurs du MIT) .

Le principe? Intégrer un système incrémental utilisant des arbres de décision pour retourner des propositions à l'utilisateur.

Une sortie discrète pour un outil sur lequel personne n'a grand chose à dire : on en présente le principe ici et , sans vraiment chercher à le tester. Here we go...

Une transparence appréciable et juste ce qu'il faut de camemberts... Hunch-teachHunch-camembert.PNG
Hunch nous dit quelles sont les feuilles de l'arbre de décision qui l'ont mené à nous faire une suggestion donnée : on clique sur Why did Hunch pick this? et on accède aux quatre questions qui ont le plus de poids dans le parcours de l'algorithme. Il indique également, de façon simple, votre "positionnement", en fait le pourcentage de personnes qui ont donné la même réponse que vous à l'une des questions.

Mais une base de connaissances à couverture encore restreinte
Allez donc raconter à Hunch que vous habitez en Europe de l'ouest en testant l'un des parcours proposés à la première connexion "Which cheese would I enjoy?". Surprise! Il connaît des fromages italiens, le brie, mais pas le munster! Testez le mot-clé "munster" dans la boîte de dialogue "Today I'm making a decision about..." : après vous avoir suggéré un "Did you mean : monster", il propose quelques réponses, mais sans rapport avec le fromage... Mince, et si j'avais envie de décider quel vin j'allais boire avec mon munster ce soir?

Pas de procès d'intention, mais une question : pourquoi généraliser à l'ensemble des utilisateurs du Web une procédure de décision typiquement américaine? Seriously, I never bought anything in a Walmart! Why don't you ask me what I think of an Auchan or a Leclerc? En somme, l'outil gagnera beaucoup lorsqu'il sera décliné et mieux adapté à la diversité de ses potentiels utilisateurs.

Pour finir, Hunch a quelques réflexions très curieuses pour un outil ouvert sur l'international, en particulier celle-ci : Hunch-question.PNG

Au bout du compte, on utilise beaucoup la fonction "Skip this question".

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

mercredi 8 octobre 2008

ChaCha!

ChaCha’s Guides are individuals who are part of a vibrant community dedicated to helping people by sharing their knowledge.

Interesting? Bien loin des mobile services avec beaucoup de processing dedans, ChaCha, c'est un peu comme les renseignements téléphoniques, mais avec des contributeurs volontaires à l'autre bout du fil pour vous fournir de l'information.
La vidéo de présentation de l'outil est disponible sur le site chacha.com. Alors, il ne s'agit pas d'un moteur de recherche, mais d'un service de mise en relation entre les personnes, les unes souhaitant obtenir une information, les autres souhaitant partager leur savoir. Chacha propose d'ailleurs du mobile marketing à partir de la plateforme dont dispose la société.

As usual, j'ai cherché des papiers explicitant la technologie utilisée sur le site, mais n'en ai point trouvé. Une phrase intéressante à relever cependant :

ChaCha’s technology is also learning from each answer that is provided by our guides so that we can deliver accurate answers as quickly as possible.

Pas folle la guêpe ChaCha : ils ont donc glissé un algorithme d'apprentissage automatique qui s'entraîne sur les bases de données des réponses fournies par les Guides humains. Je suppute qu'un algorithme de génération automatique de texte ne va pas tarder à pointer le bout de son nez : quelle manne, les réponses de Guides!

mercredi 3 septembre 2008

Un métamoteur à plébisciter : Wbsearch

Wbsearch-barre.jpg

Wbsearch Metasearcher Engine, un métamoteur de recherche où cocher la case Exact Phrase veut vraiment dire quelque chose! Je l'ai testé avec Who is Noam Chomsky?, linguistique et Où est la Tour Eiffel?, pas mal du tout. Il apprend aussi nos recherches favorites, restituées dans la liste sous la boîte de dialogue... :)

Wbsearch-aboutus.jpg

Give it a try!

lundi 28 juillet 2008

Microsoft : interrogation en langage naturel et réseaux sociaux

TechCrunch en parle : Microsoft s'associe à Facebook pour lier Live Search au réseau social, to provide web search and search advertising précise msnbc. Rien de trop innovant pour ce type de plateformes, monétisables avant tout par le ciblage des utilisateurs pour réduire les coûts d'affichage aux annonceurs.

Il faut rappeler que ces dernières années, les applications d'analyse des sentiments (sentiment analysis) et de la fouille de textes orientée opinion (opinion mining) se sont essentiellement élaborées avec le Web comme corpus et les sites d'avis de consommateurs comme terrain privilégié. Les technologies de la classification automatique et de la fouille de textes, qui répondaient à des problématiques documentaires, sont appliquées au traitement automatique du langage subjectif. Ces technologies trouvent donc un terrain parfaitement propice dans ces agrégateurs géants de fiches de présentation individuelles auxquelles s'apparentent les réseaux sociaux.

Inévitablement, un écho du récent rachat de Powerset se fait entendre. Pour contextualiser rapidement cette affaire, Microsoft est entré au capital de Facebook en octobre 2007, investissement dont la pertinence semble avoir fait douter. Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation des interfaces de recherche en langage naturel, a été absorbé il y a quelques semaines. Ce qui est dans la ligne d'action définie par Microsoft ces dernières années : effectuer de petits investissements pour entretenir la croissance externe du groupe.
herveG, modérateur de Webrankinfo, propose une intéressante mise en perspective sur ces agglomérations entre moteurs de recherche et réseaux sociaux. En particulier sur les développements au sein de Facebook :

Facebook ne cesse de recruter de nouveaux membres grâce à ses quelque 5.000 applications, de nouvelles étant proposées tous les jours. Et maintenant, fort de son succès, il débauche aussi chez Google: après avoir recruté début mars comme nouvelle directrice générale Sheryl Sandberg, l'une des responsables des ventes de publicité de Google, il vient de recruter Ethan Beard, qui était le directeur des médias de socialisation de Google.

Fort bien. Mais alors, si un LiveSearch peut bénéficier d'une technologie telle que Powerset, cette dernière n'aurait-elle pas également sa place dans la prochaine génération d'interfaces à la Windows Seven? Microsoft annonce, justement

"The way you interact with the system will change dramatically."

Changer les modes de consultation et d'accès aux données, sans être trop fou, avec des interfaces qui gèrent le TextToSpeech et le SpeechToText, en calant quelques modules d'analyse syntaxique, d'identification automatique des intonations, saupoudré de sentiment analysis... je n'ai pas la sensation de rêver trop fort.

jeudi 10 juillet 2008

KoolTorch, une autre lumière sur les résultats des moteurs de recherche ?

KoolTorch est un moteur de recherche qui retourne des résultats en allant fouiller sur le Web (supputons Google) et sur Ebay.

KoolTorch.jpg

J'ai bien aimé l'idée de présentation des résultats. L'interface les présente de façon synthétique, regroupés par catégories : la fouille est mieux organisée pour l'utilisateur, qui peut accéder aux sous-catégories en cliquant dans les cercles. Une explication de l'utilisation est assez bien détaillée ici.

Ex_res

Mais on en revient toujours à la même question : sur quelle ontologie des domaines se fondent-ils pour établir leur catégories? Malheureusement, les informations sur le fonctionnement interne, au moins un petit papier pour aller un peu au-delà du cliquez ici et vous obtenez ça, est loin d'être monnaie courante. C'est fort dommage, certains utilisateurs aimeraient comprendre ce qu'il se passe lorsqu'ils cliquent sur un bouton!

mardi 8 juillet 2008

Privatisation des mots... ou la méconnaissance de la trademarkabilité

Les mots, objets rentables valorisés par leur relation au Web?

Le JdN annonce que la chaîne de caractères "Emailing" a été déposée à l'INPI par la société Ludopia Interactive, au même titre qu'un nom de produit ou de service. Curieuse idée...
Regardons de plus près : sur leur site, la page vantant leurs offres de marketing direct mentionne

Nous vous proposons une mégabase de plus de 500.000 internautes que vous pouvez joindre par email, courrier postal, SMS ou téléphone pour des opérations de Marketing Direct ou pour des Etudes de Marchés et enquêtes.

Tout de suite, ça se comprend mieux : je vends des emails, une partie de mon activité est donc de l'emailing; il est certain que la cible visée opèrera très facilement l'association entre les deux. Descriptif, quand tu nous tiens!

Observons ce qu'il advint d'un cas analogue relayé par Legalis.net, avec le mot e-learning :

Force est de constater que ce terme anglais, à défaut de mot français équivalent choisi par les autorités compétentes en la matière en France, s’est imposé dans le secteur concerné avec la rapidité qui caractérise la communication par les réseaux électroniques et qu’au début avril 2000, il ne présentait déjà plus de caractère distinctif suffisant pour pouvoir être admis comme marque, utilisé seul et de manière non figurative, pour désigner des services de formation en ligne. Admettre la protection d’une telle marque reviendrait à ouvrir à la société E-Learning la possibilité d’innombrables actions en contrefaçon contre les utilisateurs de ce terme dans le domaine de la formation à distance, ce qui serait absurde étant donné sa généralisation.

Il convient donc d’annuler, mais uniquement pour les services énumérés de la classe 41, l’enregistrement de la marque “E-Learning” déposée à l’Inpi par la société E-Learning. Conformément aux dispositions de l’article L. 714-3 du code de la propriété intellectuelle, la décision d’annulation a un effet absolu.

Si l'on remonte un peu le temps, d'autres maux mots du Web ont également fait l'objet de polémiques, comme l'explique Sandrine Chicaud de 01net.com. La liste s'allonge un peu, avec entreprenaute et web réputation...
Je vous invite à lire ceci pour davantage quelques précisions supplémentaires, et ne résiste pas à citer Sandrine Chicaud :

Les marques, c'est un métier.

Ce qui me fait une belle transition pour laisser la parole à Quensis, dont c'est justement le métier : j'ai tenu à laisser la parole à Jean-Philippe Hermand et Delphine Parlier, co-fondateurs de la société de création de noms de marques, que je remercie de leurs réflexions avisées. Lisons-les donc :

« L’exemple du dépôt d’E-Mailing par Ludopia Interactive est exemplaire de l’ignorance dans laquelle se trouvent de nombreuses sociétés en matière de droit des marques. Il faut savoir que les marques descriptives ne sont pas protégeables, parce que pas distinctives ; il suffira à quiconque d’établir que « e-mailing» est un terme générique passé dans le langage courant professionnel pour faire invalider la marque déposée par Ludopia. Nous sommes ici dans un cas de figure similaire à celui d’E-learning. Par ailleurs, il est important de comprendre que l’INPI n’a pas vocation à effectuer les recherches d’antériorités des marques. La responsabilité en incombe au registrant, en l’occurrence la société Ludopia, qui aurait dû faire les vérifications préliminaires. En conclusion, une société qui pense s’adjuger un avantage en déposant « e-mailing» et qui risque d’en être pour ses frais. Il eût valu qu’elle soit mieux conseillée ».

What else?

- page 1 de 2