MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

lundi 16 novembre 2009

FastFlip, l'avenir de Google News?

Dans la famille des webservices de feuilletage de news, après le prometteur PressFlip (présenté à la dernière édition de la SearchRace et que je n'avais pas résisté à vous présenter en août 2008) dont FastFlip des Google Labs est l'un des récents émules, on assiste à une fusion de modes de consultation des actualités online.

Nos amis de SearchEngineLand annoncent en effet ce matin un petit tournant stratégique adopté par Google quant à la diffusion des contenus qu'ils agrègent et diffusent sur FastFlip :

It offers a more “branded” and visual way to consume news and magazine content from major publishers.

Avec tout le contenu 'marketing contextuel' (la 'sémantique' telle qu'on l'entend dans l'univers Web, dopée à la stratégie de monétisation) qu'on peut associer aux news, le choix d'une ergonomie en mozaïque anticipe clairement sur des problématiques de consultation sur un terminal mobile. Comme le suppute fort judicieusement Greg Sterling dans ce billet riche d'informations :

Fast Flip might be the “platform” for the micropayments system that Google has been working on with a number of newspaper publishers.

Si Schmidt s'exclamait il y a peu que "Google is not a content company", l'arrivée d'un FastFlip - après la mort prématurée d'un PressFlip qui est arrivé un an trop tôt mais avait tout pour exploser dans le contexte actuel de redéfinition des modes de consommation, de consultation et de distribution de l'information en ligne - la fonction de Google dans l'univers Web de 2010 semble bien s'orienter vers un tapis misé sur l'innovation des modes de consultation des contenus informationnels. Ce que tend d'ailleurs à confirmer ce très documenté billet d' ActuAbondance, à lire sans tarder, tout juste frais de deux jours, qui rappelle que le temps de chargement des pages est sans doute l'un des prochains grands leviers du moteur de référence de la décennie.

mercredi 11 novembre 2009

Siri : le 'Perfect Search Engine' de Marissa?

On avait consacré un billet à l'assistant virtuel Siri, qui a un peu fait parler de lui en mai dernier. Sans plus de bruit que cela, faut-il préciser : Siri avait trouvé un Web un peu sourd à ses potentialités.

Sorti par la porte, il revient par l'une des plus belles fenêtres, sous la forme allégorique d'une définition du Perfect Search Engine by Marissa Mayer herself!

A la question :

What is the perfect search engine? If you had a magic wand and could create it, what would it look like? What would it do?

la blonde Vice President of Search Product and User Experience de Google, dont on suppute deci-delà qu'elle pourrait aller voir ailleurs si le Perfect Search Engine y est, a répondu :

It would be a machine that could answer that question, really. It would be one that could understand speech, questions, phrases, what entities you’re talking about, concepts. It would be able to search all of the world’s information, (find) different ideas and concepts, and bring them back to you in a presentation that was really informative and coherent.

Fort bien, c'est précisément l'objectif de Siri, bien accueilli par la Technology Review du MIT en mars/avril. Cet assistant virtuel, fait de la reconnaissance vocale, implémente sans doute nombre ontologies, mais exploite surtout fort bien les algorithmes d'apprentissage, qui lui confèrent souplesse et autonomie.

Petit Siri ne devrait pas tarder à devenir très grand, comme je le laissais entendre dans le billet de mai qui lui était consacré. Une User Experience à faire, Marissa?

dimanche 4 octobre 2009

"Google's not a content company" : E. Schmidt sur le web, la presse et le journalisme

Une petite pensée aux connaissances web-journalistiques, qui ne doivent pas manquer de prêter l'oreille aux mots de Schmidt...

Danny Sullivan, chez SearchEngineLand, propose une série d'articles suite à son interview d'Eric Schmidt, CEO de Google depuis 2001, au sujet de la stratégie du leader de la recherche en ligne par rapport aux producteurs et éditeurs de contenus.

Le contexte ambiant, qui combine mutations de la presse off et online, apparition de web services dédiés - Fast Flip chez Google, la bonne initiative du Newspaper Consortium chez Yahoo! - , et plus généralement la mise à disposition des ressources culturelles bibliographiques et journalistiques notamment, oriente l'échange des deux protagonistes autour de la question de la fonction de Google dans l'univers Web - puisqu'il n'est plus besoin de disserter sur sa position de leader incontesté, pour l'instant.

Schmidt affirme :

We need these content partners to survive. We need their content. We are not in the content business. So, you could decide that we’re just evil businessmen trying to give money to the newspapers through the Fast Flip revenue shari..., or you could decide that we’re altruistic and trying to save an important Fourth Estate of American political discourse. Whichever one leads to the same outcome. I hope you believe the second. But even if you believe the first, it’s still good business. We need their content.

Google a besoin de contenu, il innove donc en élaborant de nouveaux outils de gestion et de production de contenus à destination du plus grand nombre. Du contenu qu'il peut se réapproprier aussitôt : je pense en particulier à la prochaine indexation de vos Google Docs, qui mérite un peu d'attention tout de même. On n'aura donc pas d'information produite par Google en dehors de la communication traditionnelle autour de ses technologies.

Pour aller plus loin, lisez les positions de Schmidt :

vendredi 18 septembre 2009

Le TAL français relancé par le volet numérique : petit panorama

NKM a fait un certain bruit médiatique avec les mesures relatives au volet numérique du plan de relance, plutôt focalisé autour du Serious Gaming que des Projets Web Innovants. Je m'intéresse ici surtout à ces derniers, qui ont généré une petite émulation dans la bulle TAL française.

Le mois de septembre a marqué un tournant pour quelques dizaines d'entreprises et laboratoires universitaires qui s'étaient, en juin dernier, lancés dans une haletante ruée vers les Projets Web Innovants. Comme promis, près de trois mois plus tard, le Ministère de l'Economie, de l'Industrie et de l'Emploi annonce la liste des projets financés.

Concernant les laboratoires plutôt connus pour leur spécialité TAL (et pas uniquement en ingénierie documentaire ou en IHM), on remarque le LIP6, le LINA et différents pôles de l'INRIA (Nancy et Sophia-Antipolis notamment), qui partagent la scène avec des écoles, en particulier Sciences-Po Médialab, et Télécom ParisTech.

Côté entreprises, on note surtout :

  • la belle performance de Syllabs, jeune entreprise qui fleurit à sa troisième année, avec Feed-ID, un projet plutôt orienté référencement que pur TAL, pour une agrégation de compétences qui semble prometteuse, compte tenu des briques technologiques développées par cette société et qui sont pour partie destinées à l'aide aux linguistes; un point intéressant à retenir lorsque l'on sait les proximités des solutions de TAL avec les nouvelles industries de la veille web et du monitoring d'information;
  • l'air du temps que respire Lingway, avec un projet de représentation cartographique et d'analyse sémantique - qui n'est pas sans rappeler d'autres projets dans la même veine, en particulier le projet Doxa, débuté l'an dernier;
  • le très intéressant projet GlipFix, dédié à la co-création de contenus informationnels de qualité, porté par FaberNovel, qui s'est pour l'occasion notamment associé à Exalead - fleuron du moteur de recherche made in France, par ailleurs très bien implanté sur le segment des solutions entreprise;
  • on reste dans le thème de l'édition collaborative, avec le projet Topos, autour duquel on retrouve PERTIMM, entreprise également située sur le segment du traitement de l'information.

Sans savoir s'ils ont tous répondu à cet appel d'offres, j'aurais aimé avoir une trace de Temis, SineQua ou Synapse Développement - pour ne citer qu'eux. Tout cela augure cependant un bel avenir à ces - presque incontournables - noms du TAL hexagonal, et instaure un terrain favorable au développement de cette industrie en France.

samedi 12 septembre 2009

Emulations et Google-killing (by M & Q)

  • Solutions grand public : pourquoi confondre "search" et "computational" engines?

Courant mai, la sortie de Wolfram Alpha avait fait son bruit, de bonne qualité m'est avis, comme on le disait ici. Wolfram incarnait alors l'archétype de l'outil de niche, l'outil "geek-profiled", pas forcément compatible avec la recherche grand public telle qu'on la connaît depuis une bonne décennie. Et à raison, parce que Wolfram n'a pas vocation à indexer l'Internet, mais à fournir des calculs complexes sur une pléiade de domaines de connaissances calculables.

ZDNet.fr publiait, début juin, un intéressant comparatif sur les performances de Bing vs. Google, lequel mettait en exergue avantages et faiblesses de chacun des protagonistes. On retiendra, entre autres, que Google a toujours de l'avance sur la pertinence des réponses, même si Bing apporte quelques fonctionnalités intéressantes (display de la recherche d'images, par exemple). J'ajouterais que la gestion de l'appariement est assez raffinée chez Google, ceci contribuant sans doute à expliquer cela.

Un peu plus tardivement dans le mois, TechCrunch US titrait :

When It Comes To Search Trends, Google Is Lagging Behind Bing

On pouvait lire, un peu plus loin dans l'article :

On Google, you can create charts showing the popularity of keywords using Google Trends. On Bing, this feature is called xRank. For all but the most popular terms, Google Trends shows a lag of about three days, whereas xRank shows data that is up to date as of today.

Et Eric Shonfeld de souligner que This may not be a major feature, but it shows a weakness in Google’s armor : cela auguré par le co-auteur de TechCrunch-Us, ça valait le coup d'être quoté!

Toutes choses égales par ailleurs, Bing est plutôt bien accueilli, malgré des habitudes de recherche généralistes fortement liées à Google : Bing gagnait 8% de VU sur le mois de juin 2009, et Google le reconnaissait fin juillet comme l'alternative à la Google-search.

Septembre. Pour la rentrée, Cuil - dont on a parlé ici il y a plus d'un an maintenant et qui s'est modestement rebaptisé "the world's biggest search engine" - a étendu son indexation aux contenus d'actualité, comme l'annonçait ActuAbondance il y a quelques jours de cela. Yuba, - qui vole pour le moment en dessous des radars du web et dont on ne reparlera pas dans ce billet - refait parler de lui, avec une année de plus également. Ils avaient participé au concours TheSearchRace l'an dernier - remporté par iSeek pour la petite histoire -, et soufflent donc leur première bougie en 2009.

  • Mais qu'en dit Alexa?

Un petit tour sur Alexa devrait permettre de se donner un point de vue sur l'évolution de ces différents acteurs de la recherche en ligne. Voyons donc...

alexa-big_three-google_yahoo_bing_wolfram.PNG

A première vue, rien de trop nouveau sous le soleil : Google est toujours la référence, suivi de relativement près par Yahoo!. Quant à Bing, il a trouvé une place et s'y tient malgré tout.

alexa-wolfram_cuil.PNG

Cuil, stable sur les 6 derniers mois tout du moins, n'a pas pâti de l'arrivée de Wolfram Alpha. A noter tout de même que sur le mois d'août, leurs mouvements respectifs en termes de pagerank sont assez synchrones, ce qui conforte l'idée de non concurrence entre ces nouveaux moteurs.

Décidément, comme on avait commencé à le dire ici, Wolfram Alpha ne devrait pas être inclus dans le paradigme des "search engines", puisqu'il n'en est pas un : son positionnement est explicable par son statut de "computational engine". L'ami Q a d'ailleurs une bonne métaphore sur la question :

Wolfram Alpha est à Google et consorts ce qu'une équipe de rugby est à une équipe de football : des gens qui ne jouent pas du tout le même jeu et n'ont rien à faire sur le même terrain.

A noter qu'environ un an après l'acquisition de Powerset par Microsoft, la firme de Steve Ballmer initie un rapprochement entre Bing et Wolfram Alpha. Bing entrerait donc dans l'innovation par la porte du "natural language + computational search inside". Et Q de rajouter :

Mais qu'est-ce qu'une équipe de foot va bien pouvoir faire avec des rugbymen? L'avenir nous le dira, mais on peut d'ores et déjà prévoir des confrontations musclées...

Le point de vue de Q d'après les statistiques Alexa :

parts_google-yahoo-bing.PNG

La diversification des activités de Google et Yahoo! fait que ces statistiques ne peuvent être prises pour argent comptant. En effet, sur la totalité des visiteurs de Yahoo! et Google, une partie non négligeable ne visite pas le moteur de recherche en propre, mais bien le webmail. Or, les statistiques de Bing ne reflètent qu'une pure utilisation de recherche, la fréquentation du webmail de Microsoft -mail.live.com- étant bien séparée de la fréquentation de Bing -bing.com-.

On aurait donc Google qui sur 35% d'internautes en attire 65% (21,78% une fois les comptes effectués) sur la recherche, là où Yahoo, sur ses 26% du total des internautes, n'en voit qu'un petit 10,5% visiter son moteur de recherche (soit 2,72%). Et Bing devancerait donc Yahoo en affichant 3,3% des internautes, tous en recherche.

Si les stats d'Alexa sont un tant soit peu fiables, et si mon raisonnement n'est pas faussé par le jéroboam de palinka qu'on vient de descendre, Bing pourrait être déjà le numéro 2 de la recherche en ligne.


  • Et après...

... une tendance qui devrait s'intensifier. Le récent rapprochement de Yahoo! et Microsoft - fruit d'une négociation longue et riche en rebondissements - a suscité des interrogations chez certains, des réactions sur les perspectives de développement de cette union chez d'autres. L'avis de Fanck Watson chez SearcEnhineWatch.com :

What impact will it really have? OK, Microsoft's market share will be the combined number of the two companies. Add this to the slight rise Bing has received through the new branding and advertising, and Microsoft may be able to start grabbing a little more of the market from Google.

La très sérieuse étude comScore de juillet dernier, fait le tour de la question :

The analysis reveals that while the two companies’ combined search share still lags Google by a wide margin, their combined search audience offers opportunity to become more competitive in the search marketplace.

Si Bing et Yahoo! parviennent à mieux fidéliser leur audience - point fort à la faveur de Google -, ce dernier pourrait céder une plus grosse part de cake à la concurrence.

Merci à Q pour ses croustillants et pertinents insights sur la question!

jeudi 10 septembre 2009

Opinion Mining and Sentiment Analysis, Pang and Lee (2008)

Pang_Lee2008.jpg Une instructive lecture sur la dernière somme de référence en date sur l'opinion mining et la sentiment analysis. J'avais eu à en faire une note, que j'ai ressortie de mes cartons : cela mérite d'être partagé! On comprendra sans doute mieux en quoi (j'y reviendrai sans doute ultérieurement) la problématique de la modélisation linguistique est cruciale et constitue l'une des clés de l'évolution des systèmes d'opinion mining et de sentiment analysis. Ma petite note de lecture, donc...

Synopsis
Cet ouvrage consiste en une étude fondée sur plus de trois cent travaux de recherche, donnant un aperçu des évolutions dans le domaine de la fouille de données orientée opinion (opinion mining) et de l’analyse des sentiments (sentiment analysis). Il présente les techniques et approches développées et fournit un panorama de l’effort de recherche ainsi que des ressources existantes.

  • Historique, types d’applications et enjeux

L’émergence du World Wide Web et l’utilisation, aujourd’hui répandue, des applications issues des Technologies de l’Information et de la Communication (TIC), ont suscité l’apparition de nouveaux modes de communication, ce faisant, contribué à instaurer de nouveaux espaces de propagation de l’information. Pouvoir accéder, et partant, élaborer une métrique pour évaluer « ce qui est dit », « comment on le dit » et « sur qui/quoi on le dit », est alors devenu un objet de recherche, ainsi qu’un enjeu stratégique pour les entreprises et les institutions.

Si des chercheurs se sont penchés sur le sujet avant l’an 2000, c’est véritablement à partir de 2001 que le nombre de travaux s’accroît. La jeunesse de ce domaine suscite des instabilités terminologiques importantes. En effet, l’effort de recherche s’est essentiellement orienté sur des problématiques applicatives, laissant les aspects épistémologiques de côté. Les travaux traitant de questions purement linguistiques sont par ailleurs peu nombreux.

Quatre grands types d’applications sont mis en exergue par les auteurs : (i) les applications liées aux sites d’avis de consommateurs, par exemple sur les films ou les jeux vidéos ; (ii) l’intégration de modules spécifiques dans des systèmes de e-commerce, de GRC (Gestion de la Relation Clientèle) ou encore de Questions/Réponses ; (iii) les applications de veille stratégique et de veille institutionnelle ; (iv) enfin, l’analyse de discours politiques.

Bien qu’elles découlent de la fouille de données et de l’analyse de textes, les technologies d’opinion mining et de sentiment analysis posent des problèmes spécifiques, qui les distinguent et les rendent plus complexes, à plusieurs égards, que les premières.

  • Problématiques de classification et d’extraction de l’information

La classification documentaire et l’extraction d’information sont les principaux domaines sur lesquels s’est concentré l’effort de recherche : les auteurs y consacrent d’ailleurs une analyse détaillée. Cet effort, lié à la mise au point d’algorithmes, donne lieu à la discussion de nouveaux concepts et méthodes, comme en témoigne l’élaboration de modèles de langage dédiés.

Des problématiques variées sont exposées. L’intégration des traits linguistiques – en particulier les propriétés syntaxiques et le traitement de la négation – et statistiques – l’impact de la présence et de la fréquence des occurrences de formes dans les textes – dans le processus d’analyse, constituent un enjeu important pour l’amélioration des systèmes.

L’adaptation au domaine de ces derniers, tout comme l’impact de l’utilisation de données manuellement annotées, est aussi largement traité. De ce point de vue, c’est avant tout le problème de la réutilisabilité des ressources qui est considéré. Par ailleurs, les technologies de classification et d’extraction sont abordées selon les approches d’apprentissage supervisé et non supervisé.

Améliorer la prise en compte du contexte dans l’analyse, en particulier par l’intégration de la structure discursive, impacte autant la classification que l’extraction. Cependant, l’identification des attributs d’un produit ou d’une opinion dans l’avis des consommateurs, comme celle des foyers de l’expression de l’opinion – la question des opinion holders –, sont plus spécifiquement liées à des problématiques d’extraction.

  • Problématiques de résumé automatique de l’information

Deux paradigmes de résumé automatique, qui prennent soit pour objet un seul texte, soit un ensemble de textes, sont successivement abordés par les auteurs. En effet, les améliorations de l’un impactent celles de l’autre. Les problématiques sont communes, même s’il faut distinguer entre les techniques de résumé fondées sur l’identification automatique de thématiques de celles qui ne le sont pas.

Corrélativement, certains systèmes peuvent intégrer une dimension temporelle pour la représentation graphique de l’information. Observer l’évolution de l’opinion en fonction du temps s’avère utile lors de l’étude de thématiques ou d’avis de consommateurs sur une marque, un produit ou un service. L’analyse du discours politique est également enrichie par des considérations diachroniques.

Les données utilisées provenant le plus souvent de sites d’avis de consommateurs, les applications de résumé automatique peuvent aussi tirer parti de la réputation des utilisateurs, par le biais de scores qui leur sont associés par la communauté, qui évalue ainsi leur crédibilité et donc, indirectement, leur pouvoir d’influence, de recommandation.

  • Domaines d’applications variés, problématiques élargies

Les travaux confirmant les corrélations entre les ventes de produits et la tendance positive ou négative des avis de consommateurs se sont multipliés. Le principe de la recommandation d’achat « de bouche à oreille », que les avis publiés en ligne permettent de suivre et d’analyser, donc la question de l’influence des leaders d’opinion sur les consommateurs, a un impact économique important.

De manière générale, les applications de fouille de données visant à étudier les préférences des individus, posent parfois un problème de confidentialité, en particulier lorsqu’il s’agit de données récoltées à partir de sources non accessibles publiquement.

Un autre aspect mentionné par les auteurs concerne la manipulation de l’information. En effet, la participation des acteurs économiques, voire institutionnels, aux conversations en ligne, peut avoir pour objectif d’introduire un biais dans la diffusion de l’information. Certaines études ont en effet révélé que ces acteurs sont attentifs à la façon dont tirer profit de cette diffusion.

  • Ressources publiquement accessibles

Cette section traite en premier lieu des banques de données textuelles, annotées ou non, dont la plupart ont été élaborées à partir de 2005. D’autre part, 2006 marque l’entrée de tâches d’opinion mining ou de sentiment analysis dans les campagnes d’évaluation TREC et NTCIR. Plusieurs ressources lexicales, par exemple des dictionnaires annotés ou des lexiques d’adjectifs, sont également pris en compte.

Il faut souligner que les ressources mentionnées sont en anglais. Loin d’être un biais initié par les auteurs, la bibliographie met en exergue le fait que peu de chercheurs européens se sont penchés sur le problème jusqu’à présent. En conséquence, les tutoriaux, banques bibliographiques et autres listes de diffusion – en particulier la liste SentimentAI – sont mises en ligne par quelques universitaires nord-américains.

Cet ouvrage est, à l’heure actuelle, l’un des premiers à donner accès à une telle compilation de travaux, problématiques et ressources, dans le domaine de l’opinion mining et de la sentiment analysis.

Référence complète : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

lundi 17 août 2009

Mozbot/Twitter : un bon combo

Image_1.png Mozbot proposait déjà des possibilités fort sympathiques pour tout utilisateur de moteur de recherche en quête de fonctionnalités peu banales. On se souvient du Mozcloud, qui permettait par exemple de paramétrer la fréquence d'occurrence des formes à représenter dans le nuage de mots. Plusieurs fonctions avaient malheureusement été "purgées" à la demande de Google, tout récemment, en février 2009. On compte parmi ces pertes, précieuses m'est avis, de bien pratiques features :

  • la possibilité de blacklister un lien lors de recherches ultérieures,
  • le choix du domaine de recherche par défaut,
  • l'affichage des copies d'écran des sites,
  • la restitution d'informations connexes sur le site (statistiques d'Alexa),
  • les statistiques sur la fréquence de saisie d'une requête donnée.

Et encore, je fais l'impasse sur d'autres petites choses agréables, mais qui touchent davantage à la customization, comme le choix de la couleur de l'interface; sans parler non plus de fonctions largement répandues depuis que Mozbot a pointé son nez en 2006, typiquement la proposition de requêtes connexes ou encore la correction orthographique.

En bref, il était vraiment dommage de voir Mozbot déplumé de son beau ramage de fonctionnalités innovantes par le plumeur Google. C'est donc avec plaisir que j'ai ouï parler du nouveau temps d'avance de Mozbot : retourner des résultats provenant aussi de Twitter, dans le frame gauche de l'interface.

Image_2.png

Et de trépigner à la lecture des futures moutures annoncées par ActuAbondance sur le sujet :

les deux listes de résultats ont chacune leur utilité : les liens "organiques", issus de Google, proposent sur la gauche les résultats "de confiance", souvent issus de sites importants en dehors de l'actualité "chaude", alors que les résultats Twitter donnent, pour leur part, une vision du "buzz" autour du domaine demandé. Ainsi, par exemple, la requête "3 Suisses" proposera sur Google des liens "corporate", alors que Twitter fournira des infos sur le "Google bombing" subi actuellement par la société

Que nous réserve l'outil du consortium frenchie Abondance, Raynette et Brioude Internet ?

D'autres fonctionnalités suivront dans les semaines et mois qui viennent.

On n'en saura pas plus pour l'instant, mais c'est décidément une affaire à suivre!

lundi 22 juin 2009

A crunch on Hunch ? "Skip this question"

hunch.jpg Hunch, le nouveau produit de la start-up de Caterina Fake (co-fondatrice de Flickr), sorti en juin dernier. En quelques mots? Un moteur qui bénéficie peut-être des effets collatéraux de la campagne de Bing sur le moteur de recherche comme aide à la décision, comme le souligne ActuAbondance (qui nous apprend aussi au passage que Miss Fake s'est, à l'occasion, entourée de chercheurs du MIT) .

Le principe? Intégrer un système incrémental utilisant des arbres de décision pour retourner des propositions à l'utilisateur.

Une sortie discrète pour un outil sur lequel personne n'a grand chose à dire : on en présente le principe ici et , sans vraiment chercher à le tester. Here we go...

Une transparence appréciable et juste ce qu'il faut de camemberts... Hunch-teachHunch-camembert.PNG
Hunch nous dit quelles sont les feuilles de l'arbre de décision qui l'ont mené à nous faire une suggestion donnée : on clique sur Why did Hunch pick this? et on accède aux quatre questions qui ont le plus de poids dans le parcours de l'algorithme. Il indique également, de façon simple, votre "positionnement", en fait le pourcentage de personnes qui ont donné la même réponse que vous à l'une des questions.

Mais une base de connaissances à couverture encore restreinte
Allez donc raconter à Hunch que vous habitez en Europe de l'ouest en testant l'un des parcours proposés à la première connexion "Which cheese would I enjoy?". Surprise! Il connaît des fromages italiens, le brie, mais pas le munster! Testez le mot-clé "munster" dans la boîte de dialogue "Today I'm making a decision about..." : après vous avoir suggéré un "Did you mean : monster", il propose quelques réponses, mais sans rapport avec le fromage... Mince, et si j'avais envie de décider quel vin j'allais boire avec mon munster ce soir?

Pas de procès d'intention, mais une question : pourquoi généraliser à l'ensemble des utilisateurs du Web une procédure de décision typiquement américaine? Seriously, I never bought anything in a Walmart! Why don't you ask me what I think of an Auchan or a Leclerc? En somme, l'outil gagnera beaucoup lorsqu'il sera décliné et mieux adapté à la diversité de ses potentiels utilisateurs.

Pour finir, Hunch a quelques réflexions très curieuses pour un outil ouvert sur l'international, en particulier celle-ci : Hunch-question.PNG

Au bout du compte, on utilise beaucoup la fonction "Skip this question".

jeudi 4 juin 2009

Wolfram a buzzé, Google Labs sort Squared des tiroirs

Image_2.png Un précédent billet donnait quelques éléments en faveur d'une opposition mal posée : Google vs. Worlfram Alpha.
L'idée était de mettre en avant que, non seulement Wolfram Alpha n'avait pas vocation à concurrencer Google, mais que Google commençait à s'inspirer des modèles de restitution des résultats de recherche de son faux outsider. En tous cas, pour ceux qui n'en étaient pas convaincus, on a la preuve tangible que l'information structurée est bien l'avenir des moteurs de recherche grand public.

On pouvait lire début mail sur TechCrunch un excellent billet sur le sujet, dans une perspective comparative à la défaveur de Wolfram Alpha. L'autre membre de la comparaison? Google Squared, très attendu, dont ActuAbondance et TechChunch-fr parlent aujourd'hui.

Nous y voilà : Google s'est bien inspiré de Wolfram Alpha, si la chronologie que donne à voir le web sur ce point peut être estimée fiable. La différence? Wolphram Alpha compute sur quelques dizaines de teraoctets. Avec Squared, Google est en train d'opérer sur le web entier pour que l'utilisateur le perçoive comme mieux rangé, facilitant son accès à l'information "pertinente". Oui, des guillemets. TechChrunch l'avait vu venir de loin, c'est déjà en train de se passer, mais comme la pilule est bien emballée, l'utilisateur l'avalera sans peine :

Turning the Web into a giant database will crush any attempt to segregate the “best” information into a separate database so that it can be processed and searched more deeply.

Une bonne raison pour les internautes de considérer avec précaution la pertinence de la référence nommée Google.

A l'heure où Pasquier prend soin de vous éviter un geste en plus en vous vendant des pains au lait prédécoupés, Google n'est-il pas en train de nous vendre de la pertinence prédécoupée, rongeant un peu plus notre envie de questionner la pertinence du résultat?

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

- page 4 de 12 -