MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

lundi 17 août 2009

Mozbot/Twitter : un bon combo

Image_1.png Mozbot proposait déjà des possibilités fort sympathiques pour tout utilisateur de moteur de recherche en quête de fonctionnalités peu banales. On se souvient du Mozcloud, qui permettait par exemple de paramétrer la fréquence d'occurrence des formes à représenter dans le nuage de mots. Plusieurs fonctions avaient malheureusement été "purgées" à la demande de Google, tout récemment, en février 2009. On compte parmi ces pertes, précieuses m'est avis, de bien pratiques features :

  • la possibilité de blacklister un lien lors de recherches ultérieures,
  • le choix du domaine de recherche par défaut,
  • l'affichage des copies d'écran des sites,
  • la restitution d'informations connexes sur le site (statistiques d'Alexa),
  • les statistiques sur la fréquence de saisie d'une requête donnée.

Et encore, je fais l'impasse sur d'autres petites choses agréables, mais qui touchent davantage à la customization, comme le choix de la couleur de l'interface; sans parler non plus de fonctions largement répandues depuis que Mozbot a pointé son nez en 2006, typiquement la proposition de requêtes connexes ou encore la correction orthographique.

En bref, il était vraiment dommage de voir Mozbot déplumé de son beau ramage de fonctionnalités innovantes par le plumeur Google. C'est donc avec plaisir que j'ai ouï parler du nouveau temps d'avance de Mozbot : retourner des résultats provenant aussi de Twitter, dans le frame gauche de l'interface.

Image_2.png

Et de trépigner à la lecture des futures moutures annoncées par ActuAbondance sur le sujet :

les deux listes de résultats ont chacune leur utilité : les liens "organiques", issus de Google, proposent sur la gauche les résultats "de confiance", souvent issus de sites importants en dehors de l'actualité "chaude", alors que les résultats Twitter donnent, pour leur part, une vision du "buzz" autour du domaine demandé. Ainsi, par exemple, la requête "3 Suisses" proposera sur Google des liens "corporate", alors que Twitter fournira des infos sur le "Google bombing" subi actuellement par la société

Que nous réserve l'outil du consortium frenchie Abondance, Raynette et Brioude Internet ?

D'autres fonctionnalités suivront dans les semaines et mois qui viennent.

On n'en saura pas plus pour l'instant, mais c'est décidément une affaire à suivre!

lundi 22 juin 2009

A crunch on Hunch ? "Skip this question"

hunch.jpg Hunch, le nouveau produit de la start-up de Caterina Fake (co-fondatrice de Flickr), sorti en juin dernier. En quelques mots? Un moteur qui bénéficie peut-être des effets collatéraux de la campagne de Bing sur le moteur de recherche comme aide à la décision, comme le souligne ActuAbondance (qui nous apprend aussi au passage que Miss Fake s'est, à l'occasion, entourée de chercheurs du MIT) .

Le principe? Intégrer un système incrémental utilisant des arbres de décision pour retourner des propositions à l'utilisateur.

Une sortie discrète pour un outil sur lequel personne n'a grand chose à dire : on en présente le principe ici et , sans vraiment chercher à le tester. Here we go...

Une transparence appréciable et juste ce qu'il faut de camemberts... Hunch-teachHunch-camembert.PNG
Hunch nous dit quelles sont les feuilles de l'arbre de décision qui l'ont mené à nous faire une suggestion donnée : on clique sur Why did Hunch pick this? et on accède aux quatre questions qui ont le plus de poids dans le parcours de l'algorithme. Il indique également, de façon simple, votre "positionnement", en fait le pourcentage de personnes qui ont donné la même réponse que vous à l'une des questions.

Mais une base de connaissances à couverture encore restreinte
Allez donc raconter à Hunch que vous habitez en Europe de l'ouest en testant l'un des parcours proposés à la première connexion "Which cheese would I enjoy?". Surprise! Il connaît des fromages italiens, le brie, mais pas le munster! Testez le mot-clé "munster" dans la boîte de dialogue "Today I'm making a decision about..." : après vous avoir suggéré un "Did you mean : monster", il propose quelques réponses, mais sans rapport avec le fromage... Mince, et si j'avais envie de décider quel vin j'allais boire avec mon munster ce soir?

Pas de procès d'intention, mais une question : pourquoi généraliser à l'ensemble des utilisateurs du Web une procédure de décision typiquement américaine? Seriously, I never bought anything in a Walmart! Why don't you ask me what I think of an Auchan or a Leclerc? En somme, l'outil gagnera beaucoup lorsqu'il sera décliné et mieux adapté à la diversité de ses potentiels utilisateurs.

Pour finir, Hunch a quelques réflexions très curieuses pour un outil ouvert sur l'international, en particulier celle-ci : Hunch-question.PNG

Au bout du compte, on utilise beaucoup la fonction "Skip this question".

jeudi 4 juin 2009

Wolfram a buzzé, Google Labs sort Squared des tiroirs

Image_2.png Un précédent billet donnait quelques éléments en faveur d'une opposition mal posée : Google vs. Worlfram Alpha.
L'idée était de mettre en avant que, non seulement Wolfram Alpha n'avait pas vocation à concurrencer Google, mais que Google commençait à s'inspirer des modèles de restitution des résultats de recherche de son faux outsider. En tous cas, pour ceux qui n'en étaient pas convaincus, on a la preuve tangible que l'information structurée est bien l'avenir des moteurs de recherche grand public.

On pouvait lire début mail sur TechCrunch un excellent billet sur le sujet, dans une perspective comparative à la défaveur de Wolfram Alpha. L'autre membre de la comparaison? Google Squared, très attendu, dont ActuAbondance et TechChunch-fr parlent aujourd'hui.

Nous y voilà : Google s'est bien inspiré de Wolfram Alpha, si la chronologie que donne à voir le web sur ce point peut être estimée fiable. La différence? Wolphram Alpha compute sur quelques dizaines de teraoctets. Avec Squared, Google est en train d'opérer sur le web entier pour que l'utilisateur le perçoive comme mieux rangé, facilitant son accès à l'information "pertinente". Oui, des guillemets. TechChrunch l'avait vu venir de loin, c'est déjà en train de se passer, mais comme la pilule est bien emballée, l'utilisateur l'avalera sans peine :

Turning the Web into a giant database will crush any attempt to segregate the “best” information into a separate database so that it can be processed and searched more deeply.

Une bonne raison pour les internautes de considérer avec précaution la pertinence de la référence nommée Google.

A l'heure où Pasquier prend soin de vous éviter un geste en plus en vous vendant des pains au lait prédécoupés, Google n'est-il pas en train de nous vendre de la pertinence prédécoupée, rongeant un peu plus notre envie de questionner la pertinence du résultat?

mardi 2 juin 2009

Wolfram Alpha / Google : les bons termes de la Question ?

WolframAlpha.PNGWolfram Alpha buzze depuis quelques semaines déjà.
L'image d'un effet d'annonce autour d'un non Google-killer le poursuit, celle d'un énième moteur de recherche "intelligent" qui laisse surtout le goût d'une communication bien orchestrée par Stephen Wolfram à ceux qui en ont parlé. En témoignent les articles parus dans 20minutes.fr et LeMonde.fr.

Des bases de données pas à jour, voire lacunaires. Une mauvaise gestion des chaînes de caractères. Un taux élevé d'échec à fournir une réponse. Ce sont ses trois grands défauts. Futura-sciences.com, qui consacrait un bel article à Wolfram en mai dernier, y fait le constat suivant :

En attendant, Google, Wikipédia et les liens qu’ils fournissent sont la plupart du temps largement meilleurs.

Sur Slate.com, la conclusion n'est pas très enjouée non plus :

Wolfram Alpha doesn't revolutionize search; at best, it adds a marginally useful new layer on top of it.

De toute évidence, en l'état, Wolphram n'a pas l'allure d'un moteur grand public. D'un moteur auquel certains trouveront des utilités, peut-être. En tous cas, il connaît un peu le breton, et ça a été une fort bonne surprise de pouvoir tester une requête sur le "Malagasy Language", pour trouver en quelques clics des informations sur le dialecte Betsimsaraka parlé dans le sud du pays. Dans le même cas de figure, Google ne fait pas aussi bien. Les fonctions de "Word Puzzle" sont sympa, les dictionnaires ne sont pas plus surprenants que ça, mais le rendu est agréable.

Manifestement, Wolfram Alpha ne suscite pas les mêmes comportements de recherche. Il s'adresse sans doute davantage à des utilisateurs en quête d'information spécifique, restituée dans un contenu structuré qui va à rebours de la logique de foisonnement de résultats. De l'information qui, si elle est estimée valide, peut être directement intégrée dans un document de travail, comme on le ferait avec des résultats d'InternetWorldStats ou d'Alexa.

Wolfram-resultats-facebook.PNG

Wolfram Alpha will prove helpful to some people. Because it's based on Wolfram Mathematica, a software package that can do complex calculations, mathematicians, engineers, and scientists will find much to love in it. Wolfram Alpha solves difficult equations and makes nice graphs for lots of specialized inquiries,

peut-on lire sur Slate.com.

Une belle transition à l'avis de Q - initiateur du présent billet -, qui met tout le monde d'accord :

Ceci étant dit, je tends à valider la conclusion que les geeks, les ingénieurs et les chercheurs en sciences devraient y trouver du bon...

Et celui-ci de conclure, fort perspicacement :

WolframAlpha ne vise pas à concurrencer Google, mais Google intègre de plus en plus de résultats Wolfram-style (tapes "scores L1" dans Google, pour voir...)

Wolfram-Google-resultat-Ligue1.PNG

Heureusement, Q est là pour montrer un nez au milieu d'une figure parfois trop familière. Prendre Google comme référence, soit, oublier que parfois, il peut s'inspirer des autres... c'est à croire qu'on peut avoir le nez bien court.

A lire à part ça : des doutes sur la Google Search Appliance 6.0

lundi 1 juin 2009

"The 100 most mentioned brands on Twitter" : de l'erreur de méthode à la désinformation

Début mai, Revolutionmagazine publiait un billet avec un titre plein de promesses, une porte ouverte (gratuite) à une étude de visibilité des marques sur Twitter : LE classement des 100 marques les plus citées.

Par l'odeur alléchée, je m'y rends, à l'affût de quelque découverte : une nouvelle application, une bonne idée, un biais méthodologique particulier... Le chapeau du billet annonce tout de même :

Revolution teamed up with i-level's social media agency Jam to reveal the 100 most mentioned brands on Twitter and how they are aiming to capitalise on the buzz

Le tableau à cinq colonnes, précisant la marque, son rang, le nombre de mentions de la marque, le compte Twitter et le nombre de followers, est un panorama un peu léger, mais passons. Pour entrée en matière, ça fait l'affaire.

LE problème? La matière justement... Aucune information sur la méthode employée, pas de contextualisation des résultats, un tableau, simplement un tableau. Indiqué par une astérisque, le seul commentaire du tableau précise :

*Figures are correct according to Jam's research which took place over three days in April 2009

Quels jours? Quels plages horaires? Un petit lien vers la 'Jam social media agency'? On n'en saura pas plus. Et pour le how they are aiming to capitalize on the buzz, on repassera.

L'idée d'observer la visibilité et l'implication des marques sur Twitter est bonne, incontournable même pour un état du 2.0. Mais les résultats de telles observations ne valent que par le contexte qui les entoure, surtout quand on parle de l'analyse d'un stream continu d'information. C'est ce point qu'il faut mettre en avant pour les lecteurs de l'étude : c'est un instantané du web qui doit être interprété avec précaution.

Des outils et une méthode de travail adaptée auraient rendu cet essai plus concluant et plus riche d'enseignements pour la métacommunauté des analystes web. Quid d'une application de TAL avec quelques bases élémentaires de statistique textuelle dedans, des ressources pour traiter plus finement les contenus? Pourquoi pas un petit graphique de l'évolution du nombre de citations par jour dans les tweets, mieux, en fonction d'une typologie des tweets?

Avec une méthodologie inexistante (un décompte manuel sur trois jours sans contexutaliser les résultats), il serait sans doute bon d'être un peu plus précautionneux lorsqu'on joue avec les effets d'annonce.

Parce qu'une information mal traitée est un premier pas vers la désinformation.

jeudi 28 mai 2009

AV, Siri! Ou l'intelligence pour iPhone et Smartphones

Image_1.pngSiri, l'AV (assistant virtuel) qui va révolutionner l'expérience utilisateur sur l'iPhone et autres Smartphones. Quelques explications...

Siri n'a pas l'objectif de révolutionner la recherche en ligne sur terminal mobile, mais de proposer des solutions pour faciliter la vie : ce n'est pas là d'un énième Google Killer, mais un assistant virtuel dont l'arrivée marque un tournant technologique majeur dans notre interaction quotidienne avec nos goodies high-tech!

Mais avant tout, qu'est-ce qu'un assistant virtuel ?

  • aider l'utilisateur à accéder à une information ou à exécuter une tâche;
  • comprendre l'intention de l'utilisateur en fonction du contexte;
  • travailler pour l'utilisateur, i.e. être autonome dans l'exécution des tâches intermédiaires pour apporter une réponse finale à l'utilisateur.

Le shift? On passe de l'adaptation d'outils - ce qu'on fait constamment en configurant les interfaces qu'on utilise au quotidien - à l'interaction avec une application intelligente. (A voir : la Technology Review du MIT en parlait dans son édition de mars/avril)

On annonce des performances exceptionnelles en reconnaissance vocale - ce que Google offre déjà avec Android - mais sur le principe, Siri fait mieux : c'est un agent conversationnel nouvelle génération, en plus d'être un outil qui n'impose pas à l'utilisateur de se servir des touches pour exécuter des actions. Tout peut se faire à la voix. L'intégration de fonctionnalités de synthèse vocales sont à l'étude, ce qui garantirait une accessibilité optimale aux utilisateurs atteints de cécité, par exemple.

Siri mettrai à profit les technologies d'autocomplétion et de navigation contextuelle. Son avantage saillant ? L'opérationnalisation, i.e. découper votre besoin en tâches et sous-tâches à exécuter pour retourner une réponse pertinente, en fonction des données contextuelles qu'il connaît sur son utilisateur. Une belle performance d'utilisation des algorithmes d'apprentissage automatique!

Les ressources actuelles pour la géolocalisation, la reconnaissance et l'extraction d'entités nommées (noms de personnes et dates, par exemple) et les technologies fondées sur les ontologies du langage (ne poussons pas le rêve trop loin, c'est un assistant, pas un humain en boîte) seraient particulièrement bien exploitées. En bref, une grille de lecture du monde étendue qui vous facilite la vie!

Siri, une startup qui aura bien exploité sa levée de fonds de 8,5 millions de dollars en 2008!

Pour aller plus loin : à lire chez nos amis de TechCrunch et de Twine

dimanche 26 avril 2009

A venir : une présentation d'OpenCalais

Cela fait déjà quelques mois que je repousse le moment de mettre sérieusement à parler du système OpenCalais. Promis, j'arrête la procrastination et je vous prépare quelque chose pour bientôt!

lundi 13 avril 2009

Les pratiques encore trop artisanales du Search Marketing

Les premiers résultats de l'Omniture Online Marketing Research Report, dont Bill Mungovan (SearchEngineLand) a entamé l'analyse, pourraient se résumer au constat de pratiques encore trop artisanales chez les Search Marketers. Quelques citations en vrac...

according recent survey of 500 marketers, most search marketers still use the most basic metrics in evaluating the performance of their programs

introduit Bill Mungovan, avant de poursuivre :

Far too many search marketers are still making campaign decisions based on superficial metrics

Bill Mungovan n'est pas spécialement tendre avec ses pairs, et affirme :

Additionally, the survey indicated the majority of search marketers are manually managing keywords using Excel, limiting their ability to effectively scale search marketing campaigns.

On approche la décennie pour ce type de technologies, dont on peut aujourd'hui estimer qu'elles sont matures et opérationnelles. Le problème mis en exergue par cette étude ne tiendrait-il pas en partie à une lacune dans les formations aux outils, raison pour laquelle les Search Marketers sont encore trop attachés à leur tableurs et à des statistiques basiques et facilement compréhensibles?

Il y aurait, à cet égard, une analogie avec certains pôles d'étude de veille en ligne, qui ont des processus métier peu automatisés parce qu'ils forment mal leur employés aux outils et aux techniques d'analyse automatique.

Espérons que ce temps est bientôt révolu !

A noter : 1ère-position donnait à voir début mars certains résultats de l'étude eMarketer de férvier 2009, et les investissements dans les solutions de Search Marketing, en particulier le SEO, laissent à penser que ce segment pourrait bénéficier de la crise.

vendredi 10 avril 2009

Xerox, Powerset et le mot de Marissa Mayer sur l'avenir des technologies linguistiques

Dans un article de février 2007, le New York Times aborde les liens entre Xerox et les équipes de Powerset.

C'est fort instructif sur l'historique de Powerset et sur le positionnement sans doute prometteur du PARC, une filiale de Xerox Corporation créée en 2002.

Il faut remarquer qu'il y a deux ans, l'implémentation de technologies linguistiques dans les moteurs de recherche laissait sceptique, comme le souligne l'article :

Researchers have predicted breakthrough applications for natural languages for years, but the technology has proved usable in only limited contexts, turning many experts into skeptics about its potential, at least in the short term.

Marissa Mayer, Vice-présidente de la section "Produits de recherche et services aux utilisateurs" chez Google, faisait alors une très juste remarque sur les développements des technologies linguistiques :

In a November interview, Marissa Mayer, Google’s vice president for search and user experience, said: “Natural language is really hard. I don’t think it will happen in the next five years.”

Si le pronostic est juste, encore trois petites années... Le temps de la maturité!

vendredi 27 mars 2009

is it ok to drink and drive? Lexxe vs. Powerset

Lexxe vs. Powerset?

LexxeLogo.jpg Lexxe, dont la version alpha est sortie en 2005, figurait début 2007 dans le Top 100 des moteurs de recherche alternatifs, établi par Charles S. Knight dans ce billet. Ce dernier en a également reparlé plus tard cette année-là, dans un billet riche d'informations sur le fonctionnement de Lexxe, qui était le Search Engine of the Day :

Lexxe is one of the new Semantic (”meaning based”) search engines that are designed to let you ask a question in plain language,

introduit-il, avant de souligner que l'approche de cet outil relève du Traitement Automatique des Langues (Natural Language Processing).

Lexxe treats the keywords as “words”, not symbols ... (it) addresses the linguistic property within the keywords as a core issue for search,

précise-t-il, avant de poursuivre :

Lexxe does not use “website popularity” as a factor to decide if a webpage is relevant or not. The relevance of a webpage is decided by the matching between the keywords and the content of the webpage based on Lexxe’s linguistic computing and algorithms.

Lexxe est donc un moteur qui s'appuie sur les technologies d'analyse linguistique, tout comme Powerset, dont on avait parlé dans un ou deux billets. Nés dans la même période - à ma connaissance, les deux ont commencé à faire parler d'eux entre 2005 et 2007 -, avant le rachat en 2008 de Powerset par Microsoft.

PowersetLogo.jpg

Si la comparaison des résultats retournés par chacun de ces moteurs à une requête identique, ne doit pas être appréhendée comme absolument représentative de leurs performances générales, on a quand même regardé ce que ça donne...

La réponse de Powerset PowersetReponse.jpg

La réponse de Lexxe LexxeReponse.jpg

Le constat immédiat : Lexxe ose me répondre, Powerset a l'air un peu perdu. N'exagérons rien et n'allons pas prendre pour argent comptant la réponse positive de Lexxe :)

Il faut dire que la question posée "is it ok to drink and drive?" (merci AntEater pour ce fort bon exemple), ne correspond pas à la structure canonique de la phrase interrogative, par exemple dans le contexte d'une application de Questions/Réponses : pas de mot interrogatif (type "wh-") à l'initiale, la tournure de cette question utilise l'inversion sujet/verbe et ne contient aucune forme de type entité nommée (par exemple un nom de personne).

Il y aurait sans doute aussi à regarder du côté de la taille de la fenêtre de mots; par exemple, si la collocation "drink and drive" est présente au moins dans les 5 premiers résultats de Lexxe, elle ne figure dans aucun des 5 premiers résultats retournés par Powerset.

En tous cas, j'espère que Lexxe sera l'objet de d'améliorations futures, car il me semble prometteur sur le segment des moteurs de recherche généralistes. Un écho qui fait bonne transition vers ces feedbacks un peu plus anciens :

"So far it (Lexxe) hasn't generated as much buzz, but the fact that it's in beta, and working is promising."

"This completely new search engine is great from the start, even in it's alpha version if you search in English."

"The concept of Lexxe will be more visible with a query like 'Who was Nietzsche'. As expected, Google produces a very long list of relevant links, but there is no topical order. In contrast Lexxe which is clustering: • German Philosopher of the Late 19th • Superman (Übermensch) • Minister • Mother • Reader • Clergyman • Author• Etc. I'm interested in his relationship to his mother and get more relevant links to his biography, to his medical history, to his mother etc. That's the true strength of Lexxe - topical drilling"

- page 2 de 5 -