MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - information retrieval

Fil des billets - Fil des commentaires

lundi 22 juin 2009

A crunch on Hunch ? "Skip this question"

hunch.jpg Hunch, le nouveau produit de la start-up de Caterina Fake (co-fondatrice de Flickr), sorti en juin dernier. En quelques mots? Un moteur qui bénéficie peut-être des effets collatéraux de la campagne de Bing sur le moteur de recherche comme aide à la décision, comme le souligne ActuAbondance (qui nous apprend aussi au passage que Miss Fake s'est, à l'occasion, entourée de chercheurs du MIT) .

Le principe? Intégrer un système incrémental utilisant des arbres de décision pour retourner des propositions à l'utilisateur.

Une sortie discrète pour un outil sur lequel personne n'a grand chose à dire : on en présente le principe ici et , sans vraiment chercher à le tester. Here we go...

Une transparence appréciable et juste ce qu'il faut de camemberts... Hunch-teachHunch-camembert.PNG
Hunch nous dit quelles sont les feuilles de l'arbre de décision qui l'ont mené à nous faire une suggestion donnée : on clique sur Why did Hunch pick this? et on accède aux quatre questions qui ont le plus de poids dans le parcours de l'algorithme. Il indique également, de façon simple, votre "positionnement", en fait le pourcentage de personnes qui ont donné la même réponse que vous à l'une des questions.

Mais une base de connaissances à couverture encore restreinte
Allez donc raconter à Hunch que vous habitez en Europe de l'ouest en testant l'un des parcours proposés à la première connexion "Which cheese would I enjoy?". Surprise! Il connaît des fromages italiens, le brie, mais pas le munster! Testez le mot-clé "munster" dans la boîte de dialogue "Today I'm making a decision about..." : après vous avoir suggéré un "Did you mean : monster", il propose quelques réponses, mais sans rapport avec le fromage... Mince, et si j'avais envie de décider quel vin j'allais boire avec mon munster ce soir?

Pas de procès d'intention, mais une question : pourquoi généraliser à l'ensemble des utilisateurs du Web une procédure de décision typiquement américaine? Seriously, I never bought anything in a Walmart! Why don't you ask me what I think of an Auchan or a Leclerc? En somme, l'outil gagnera beaucoup lorsqu'il sera décliné et mieux adapté à la diversité de ses potentiels utilisateurs.

Pour finir, Hunch a quelques réflexions très curieuses pour un outil ouvert sur l'international, en particulier celle-ci : Hunch-question.PNG

Au bout du compte, on utilise beaucoup la fonction "Skip this question".

jeudi 4 juin 2009

Wolfram a buzzé, Google Labs sort Squared des tiroirs

Image_2.png Un précédent billet donnait quelques éléments en faveur d'une opposition mal posée : Google vs. Worlfram Alpha.
L'idée était de mettre en avant que, non seulement Wolfram Alpha n'avait pas vocation à concurrencer Google, mais que Google commençait à s'inspirer des modèles de restitution des résultats de recherche de son faux outsider. En tous cas, pour ceux qui n'en étaient pas convaincus, on a la preuve tangible que l'information structurée est bien l'avenir des moteurs de recherche grand public.

On pouvait lire début mail sur TechCrunch un excellent billet sur le sujet, dans une perspective comparative à la défaveur de Wolfram Alpha. L'autre membre de la comparaison? Google Squared, très attendu, dont ActuAbondance et TechChunch-fr parlent aujourd'hui.

Nous y voilà : Google s'est bien inspiré de Wolfram Alpha, si la chronologie que donne à voir le web sur ce point peut être estimée fiable. La différence? Wolphram Alpha compute sur quelques dizaines de teraoctets. Avec Squared, Google est en train d'opérer sur le web entier pour que l'utilisateur le perçoive comme mieux rangé, facilitant son accès à l'information "pertinente". Oui, des guillemets. TechChrunch l'avait vu venir de loin, c'est déjà en train de se passer, mais comme la pilule est bien emballée, l'utilisateur l'avalera sans peine :

Turning the Web into a giant database will crush any attempt to segregate the “best” information into a separate database so that it can be processed and searched more deeply.

Une bonne raison pour les internautes de considérer avec précaution la pertinence de la référence nommée Google.

A l'heure où Pasquier prend soin de vous éviter un geste en plus en vous vendant des pains au lait prédécoupés, Google n'est-il pas en train de nous vendre de la pertinence prédécoupée, rongeant un peu plus notre envie de questionner la pertinence du résultat?

mardi 2 juin 2009

Wolfram Alpha / Google : les bons termes de la Question ?

WolframAlpha.PNGWolfram Alpha buzze depuis quelques semaines déjà.
L'image d'un effet d'annonce autour d'un non Google-killer le poursuit, celle d'un énième moteur de recherche "intelligent" qui laisse surtout le goût d'une communication bien orchestrée par Stephen Wolfram à ceux qui en ont parlé. En témoignent les articles parus dans 20minutes.fr et LeMonde.fr.

Des bases de données pas à jour, voire lacunaires. Une mauvaise gestion des chaînes de caractères. Un taux élevé d'échec à fournir une réponse. Ce sont ses trois grands défauts. Futura-sciences.com, qui consacrait un bel article à Wolfram en mai dernier, y fait le constat suivant :

En attendant, Google, Wikipédia et les liens qu’ils fournissent sont la plupart du temps largement meilleurs.

Sur Slate.com, la conclusion n'est pas très enjouée non plus :

Wolfram Alpha doesn't revolutionize search; at best, it adds a marginally useful new layer on top of it.

De toute évidence, en l'état, Wolphram n'a pas l'allure d'un moteur grand public. D'un moteur auquel certains trouveront des utilités, peut-être. En tous cas, il connaît un peu le breton, et ça a été une fort bonne surprise de pouvoir tester une requête sur le "Malagasy Language", pour trouver en quelques clics des informations sur le dialecte Betsimsaraka parlé dans le sud du pays. Dans le même cas de figure, Google ne fait pas aussi bien. Les fonctions de "Word Puzzle" sont sympa, les dictionnaires ne sont pas plus surprenants que ça, mais le rendu est agréable.

Manifestement, Wolfram Alpha ne suscite pas les mêmes comportements de recherche. Il s'adresse sans doute davantage à des utilisateurs en quête d'information spécifique, restituée dans un contenu structuré qui va à rebours de la logique de foisonnement de résultats. De l'information qui, si elle est estimée valide, peut être directement intégrée dans un document de travail, comme on le ferait avec des résultats d'InternetWorldStats ou d'Alexa.

Wolfram-resultats-facebook.PNG

Wolfram Alpha will prove helpful to some people. Because it's based on Wolfram Mathematica, a software package that can do complex calculations, mathematicians, engineers, and scientists will find much to love in it. Wolfram Alpha solves difficult equations and makes nice graphs for lots of specialized inquiries,

peut-on lire sur Slate.com.

Une belle transition à l'avis de Q - initiateur du présent billet -, qui met tout le monde d'accord :

Ceci étant dit, je tends à valider la conclusion que les geeks, les ingénieurs et les chercheurs en sciences devraient y trouver du bon...

Et celui-ci de conclure, fort perspicacement :

WolframAlpha ne vise pas à concurrencer Google, mais Google intègre de plus en plus de résultats Wolfram-style (tapes "scores L1" dans Google, pour voir...)

Wolfram-Google-resultat-Ligue1.PNG

Heureusement, Q est là pour montrer un nez au milieu d'une figure parfois trop familière. Prendre Google comme référence, soit, oublier que parfois, il peut s'inspirer des autres... c'est à croire qu'on peut avoir le nez bien court.

A lire à part ça : des doutes sur la Google Search Appliance 6.0

lundi 4 mai 2009

SEM'09// Les présentations sont en ligne!

Comme prévu, les présentations faites au Search Engine Meeting sont en ligne ici. Merci à toute l'équipe d'Infonortics!

Bonne lecture!

jeudi 30 avril 2009

SEM'09// le programme en images, plus quelques mots sur l'audience

Le secret d'un événement de qualité? L'organisation, le lieu et l'audience. Avec une centaine de personnes rassemblées dans l'ambiance feutrée des salons du Copley Plaza à Boston, il est intéressant de remarquer que plusieurs représentants d'institutions étaient présents parmi les attendees. De la web & enterprise search à l'institutional search?

En tous cas, comme promis, voici les scans du programme en détails, pour vous donner un aperçu de la façon dont se sont déroulés les deux jours du SEM'09.

L'équipe de Infornortics - parmi lesquels Madame Anne Girard, qui avait par exemple présidé la conférence Les apports de l'Intelligence Economique et Concurrentielle à la compétitivité des entreprises à l'i-expo 2004 -, emmenée avec brio par Monsieur Harry Collier, a mis en place une organisation irréprochable!

La jolie couverture du programme de cette année

program1.jpg

Les speakers du premier jour

program_day1.jpgMicrosoft, Nstein et une superbe intervention de Stephen E. Arnold sur ses fameuses Google Studies. En prime, un speech qualifié par la rumeur des couloirs de "provocative" par Frank Bandach (Eeggi).



Les speakers du second jour

program_day2.jpgTrès intéressante, la présentation de David Milward (Linguamatics); des interventions riches d'enseignement sur les problèmes de sécurité en contexte d'enterprise search, par l'équipe de New Idea Engineering, et sur la faceted search, par Daniel Tunkelang (Endeca). Cherry on top : Peter Noerr (MuseGlobal) a présenté son approche de l'underground information.

Tout ceci n'est, bien entendu, qu'un rapport non exhaustif de la richesse qui a été exposée dans les salons du Fairmont Copley Palza pendant les deux jours du SEM'09. Je vous enjoins donc fortement à vous ruer ici dès le 4 mai : toutes les présentations seront disponibles en ligne.

dimanche 26 avril 2009

The Search Engine Meeting : ne cherchez plus, ça se passe ici...

Tout commence en 1987, quand Monsieur Harry Collier a fondé Infonortics...

Harry Collier, diplômé de Oxford en Histoire Moderne, a beaucoup travaillé dans le domaine de l'édition scientifique, entre autres. Cela explique sans nul doute pourquoi Infonortics Ltd., structure spécialisée dans l'organisation de conférences, séminaires, publications et mise en oeuvre de projets liés à l'information électronique, est l'une des références dans le domaine.

Les conférences organisées par Monsieur Collier - le Search Engine Meeting et l'ICIC -, sont reconnues par les professionnels et les chercheurs d'un large panel de secteurs liés à l'information électronique, pour leur sérieux. En effet, Monsieur Collier s'est toujours refusé à faire de ces événements des "foire-à-tout" : l'objectif des meetings qu'il organise est de générer un véritable échange, et non pas de donner un lieu supplémentaire à la superficialité de l'avant-vente de solutions logicielles.

Monsieur Everett Brenner, l'autre père du Search Engine Meeting, a activement contribué au développement de cette conférence. Je vous invite à en apprendre davantage sur cet éminent personnage, qui a pressenti "the Information Age" il y a près d'un demi-siècle. Visionnaire.

Monsieur Stephen E. Arnold - dont je parle plus longuement dans un billet suivant - a publié une fort instructive interview de Monsieur Collier sur son blog, arnoldit. Extraits.

The conference, more than a decade into in-depth explorations of search and content processing, is one of the most substantive search and content processing programs. The speakers have come from a range of information retrieval disciplines. The conference organizing committee has attracted speakers from the commercial and research sectors. Sales pitches and recycled product reviews are discouraged.

Conferences about search, search engine optimization, and Intranet search have proliferated in the last decade. Some of these shows focus on the “soft” topics in search and wrap the talks with golf outings and buzzwords.

The Infonortics search conference has remained sharply focused and content centric.

Voilà pour la mise en bouche. Monsieur Collier donne explicite davantage l'esprit de cet évènement.

we wanted serious talks on serious search domain challenges (...) we have tried to avoid areas such as SEO and product puffs and to keep to the path of meaty, research talks for either search engine developers, or those in an enterprise environment charged with implementing search technology. The meetings tread a line between academic research meetings (lots of equations) and popular search engine optimization meetings (lots of commercial exhibits).

Search — and the problems of search — remains central, but we are also interested in areas such as data or text mining (extracting sense from masses of data) as well as visualization and analysis (making search results understandable and useful). We feel the center of attention is moving away from “can I retrieve all the data?” to that of “how can I find help in making sense out of all the data I am retrieving?”

It’s a meeting without too much razzmatazz; we only have a small, informal exhibition, no real sponsorship, and we try to downplay the commercialized side of the search world.

Because of Infonortics international background, we have a pretty high international attendance compared with most meetings in the United States: many Europeans, Koreans and Asians. I’ve already used the word “serious”, but this is how I would characterize our typical attendee.

A l'heure où nombreux sont ceux qui croient qu'il faut "buzzer pour exister", la sérieuse longévité du Search Engine Meeting rime aussi avec "discrétion". Parce que dans une "foire-à-tout", il y a trop de bruit pour réfléchir.

Le Search Engine Meeting, édition 2009, commence aujourd'hui à 13h30, au Fairmont Copley Plaza, Boston (MA).

samedi 25 avril 2009

SEM'09//The Search Engine Meeting 2009 : le programme

Where search engine developers, academics and corporate professionals learn from each other

Pour sa 14ème édition, le Search Engine Meeting 2009 propose un superbe programme de speechs, qui se tiendront lundi et mardi.

Nous commencerons avec de prestigieux intervenants au petit déjeuner, en particulier des acteurs majeurs du développement de systèmes pour l'analyse sémantique automatisée (Microsoft, Nstein), qui initieront la première journée du SEM'09.

Je vous prépare des revues plus complètes et fouillées de ce qui se sera passé depuis le 26, et vous enjoins à consulter le programme, pour vous donner une idée du beau monde qui se trouve ici, et du beau lieu qui accueille l'évènement. Je manque un peu d'équipement, étant en déplacement, mais vous aurez une liste exhaustive des participants au meeting dès que j'aurai de quoi scanner sous la main.

Cela vaut le coup, et fera de belles opportunités de contact pour ceux qui cherchent à obtenir davantage d'informations sur les acteurs majeurs du segment des search engines, de la semantic search et de l'enterprise search aujourd'hui.

mardi 3 février 2009

SEAmail : l'e-mail à la sauce 3.0

Ne plus perdre de temps à chercher dans vos bases de contacts... Faire du mailing massif aussi facilement qu'une recherche sur Google... vous en avez rêvé? Lisez donc!

InternetACTU en parlait la semaine dernière, faisant écho à un papier de la fameuse Technology Review : les chercheurs de Stanford planchent sur un système d'envoi de mails dores et déjà annoncée comme une application révolutionnaire du web sémantique.

En effet, le Semantic E-mail Adressing (SEAmail, un document explicatif ici) permettrait de ne plus recourir aux adresses mails d'individus spécifiques lors de l'envoi de courrier électroniques.

Comment? Une première explication :

  • l'idée est de se fonder sur une description logique des propriétés générales communes à plusieurs individus
  • cela permet donc de constituer des ensembles de types d'individus

A l'heure actuelle, le mail, c'est plutôt :

Today, we use mailing lists to email predefined groups of people ... you must be able to ardress your email to static mailing lists that are the best fit to your requierements, and you must know of their existence.

Il s'agit en fait d'un système capable d'analyser l'information structurée contenue dans les mails (expéditeur, récipiendaire, objet, corps du texte) et de l'exprimer de façon formelle, par exemple avec un formalisme de type RDF (Resource Description Framework, standard du W3C pour homogénéiser la description des métadonnées associées aux documents indexés sur le Web). Ce type de formalisme, particulièrement efficace pour l'indexation, permet d'optimiser la création de mailing lists à partir de requêtes soumises à une base de données, en exploitant très finement l'information structurée qu'elle contient.

Mais pas seulement...

Les descripteurs, c'est-à-dire les propriétés de description logiques inférées par le système sur la masse d'information traitée, permettent d'accéder à un niveau de généralisation qui ne clôture plus l'utilisateur dans un référentialisme foisonnant. Autrement dit, l'intégration d'un tel système dans un serveur de mails est le moyen de passer du "envoyer l'invitation à tous mes contacts du groupe X" à "envoyer l'invitation à tous les contacts indexés qui ont simultanément la propriété A, B et C".

En contexte d'entreprise, cela pourrait donner "envoyer l'information à tous les consultants juniors de moins de 25 ans". C'est justement l'un des leviers communicationnels autour de la solution SEAmail : un gain de temps des administrateurs du serveur jusqu'aux utilisateurs finaux.

Voilà ce que ça pourrait donner, visuellement parlant :


SEAmail.jpg

Bref, un grand pas vers le mailing intuitif!

Pour aller plus loin : quelques infos sur le standard RDF

dimanche 7 décembre 2008

If you are a US user of U Rank, please let us know your feedback on this MS service :)

U Rank, un Pressflip-Deezer-like en moteur de recherche?

Il n'apprend pas seulement vos goûts musicaux et vos thématiques favorites dans la presse.
Il n'est pas limité au bookmarking de documents intéressants, ni réduit à l'association de quelques mots-clés pour les décrire. U Rank est un service associé à la gamme Windows Live, et permet de gérer, d'éditer, d'annoter et surtout d'échanger du contenu avec sa communauté online.
En effet, U Rank est un produit développé par Microsoft, et il faut reconnaître que les équipes de R&D se sont bien données pour nous mettre à disposition ce puissant service! (à moins que ce soit le travail des équipes de com' qui le rende alléchant, car il n'est pas encore possible de le tester pour les utilisateurs européens des services Windows Live...)
Très simple d'accès, il suffit de rentrer vos identifiants MSN pour l'utiliser. J'eus aimé pouvoir l'essayer à outrance, mais ne peux pour le moment que vous recommander d'aller faire un tour sur la page de présentation du projet, en attendant la release de la version accessible à nous, chers "old-europeaners"!
URank_Error.jpg

vendredi 10 octobre 2008

La coloration thématique des contenus textuels : une réelle innovation?

"Enfin un outil qui permet une couche d'analyse par dessus les statistiques sur les liens entre les blogs", me suis-je exclamée en lisant la présentation, comme toujours, très brillante, de Marshall Kirkpatrick (ReadWriteWeb), de l'outil Memeorandum.

En lisant ce très bon papier, je me suis souvenue avoir vu des développements analogues. Eh oui, en France, on fait beaucoup moins de bruit autour des innovations concoctées par nos chercheurs CNRS... C'est bien dommage, car en 2001, Pierre Beust, chercheur à l'Université de Caen, s'intéressait déjà au développement de technologies pour ce type d'applications. Je ne peux donc que recommander la lecture de son article de l'époque, Acquisition de classes sémantiques par coloriage thématique des textes électroniques. Je me permets d'en reproduire ici l'abstract :

Cet article présente une application appelée ThemeEditor dont le but est de permettre une acquisition supervisée de classes sémantiques. Cette acquisition est réalisée dans le cours d’une tâche interactive d’analyse interprétative de textes électroniques. Le logiciel d’étude proposé met en oeuvre un principe de coloriage thématique dans un texte et plus généralement dans un corpus de textes électroniques. Il s’agit de mettre en évidence, en fonction des classes sémantiques acquises ou en cours d’acquisition, la répartition des thèmes et leurs différentes formes d’enchaînements.

Ou comment ce qui nous paraît innovant aujourd'hui ne date certainement pas d'hier... Ou comment garder à l'esprit que, quand bien même l'innovation paraît surtout venir des US, elle est pourtant endormie quelque par dans un labo hexagonal...

- page 1 de 2