MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

lundi 13 avril 2009

Les pratiques encore trop artisanales du Search Marketing

Les premiers résultats de l'Omniture Online Marketing Research Report, dont Bill Mungovan (SearchEngineLand) a entamé l'analyse, pourraient se résumer au constat de pratiques encore trop artisanales chez les Search Marketers. Quelques citations en vrac...

according recent survey of 500 marketers, most search marketers still use the most basic metrics in evaluating the performance of their programs

introduit Bill Mungovan, avant de poursuivre :

Far too many search marketers are still making campaign decisions based on superficial metrics

Bill Mungovan n'est pas spécialement tendre avec ses pairs, et affirme :

Additionally, the survey indicated the majority of search marketers are manually managing keywords using Excel, limiting their ability to effectively scale search marketing campaigns.

On approche la décennie pour ce type de technologies, dont on peut aujourd'hui estimer qu'elles sont matures et opérationnelles. Le problème mis en exergue par cette étude ne tiendrait-il pas en partie à une lacune dans les formations aux outils, raison pour laquelle les Search Marketers sont encore trop attachés à leur tableurs et à des statistiques basiques et facilement compréhensibles?

Il y aurait, à cet égard, une analogie avec certains pôles d'étude de veille en ligne, qui ont des processus métier peu automatisés parce qu'ils forment mal leur employés aux outils et aux techniques d'analyse automatique.

Espérons que ce temps est bientôt révolu !

A noter : 1ère-position donnait à voir début mars certains résultats de l'étude eMarketer de férvier 2009, et les investissements dans les solutions de Search Marketing, en particulier le SEO, laissent à penser que ce segment pourrait bénéficier de la crise.

vendredi 10 avril 2009

Xerox, Powerset et le mot de Marissa Mayer sur l'avenir des technologies linguistiques

Dans un article de février 2007, le New York Times aborde les liens entre Xerox et les équipes de Powerset.

C'est fort instructif sur l'historique de Powerset et sur le positionnement sans doute prometteur du PARC, une filiale de Xerox Corporation créée en 2002.

Il faut remarquer qu'il y a deux ans, l'implémentation de technologies linguistiques dans les moteurs de recherche laissait sceptique, comme le souligne l'article :

Researchers have predicted breakthrough applications for natural languages for years, but the technology has proved usable in only limited contexts, turning many experts into skeptics about its potential, at least in the short term.

Marissa Mayer, Vice-présidente de la section "Produits de recherche et services aux utilisateurs" chez Google, faisait alors une très juste remarque sur les développements des technologies linguistiques :

In a November interview, Marissa Mayer, Google’s vice president for search and user experience, said: “Natural language is really hard. I don’t think it will happen in the next five years.”

Si le pronostic est juste, encore trois petites années... Le temps de la maturité!

vendredi 27 mars 2009

is it ok to drink and drive? Lexxe vs. Powerset

Lexxe vs. Powerset?

LexxeLogo.jpg Lexxe, dont la version alpha est sortie en 2005, figurait début 2007 dans le Top 100 des moteurs de recherche alternatifs, établi par Charles S. Knight dans ce billet. Ce dernier en a également reparlé plus tard cette année-là, dans un billet riche d'informations sur le fonctionnement de Lexxe, qui était le Search Engine of the Day :

Lexxe is one of the new Semantic (”meaning based”) search engines that are designed to let you ask a question in plain language,

introduit-il, avant de souligner que l'approche de cet outil relève du Traitement Automatique des Langues (Natural Language Processing).

Lexxe treats the keywords as “words”, not symbols ... (it) addresses the linguistic property within the keywords as a core issue for search,

précise-t-il, avant de poursuivre :

Lexxe does not use “website popularity” as a factor to decide if a webpage is relevant or not. The relevance of a webpage is decided by the matching between the keywords and the content of the webpage based on Lexxe’s linguistic computing and algorithms.

Lexxe est donc un moteur qui s'appuie sur les technologies d'analyse linguistique, tout comme Powerset, dont on avait parlé dans un ou deux billets. Nés dans la même période - à ma connaissance, les deux ont commencé à faire parler d'eux entre 2005 et 2007 -, avant le rachat en 2008 de Powerset par Microsoft.

PowersetLogo.jpg

Si la comparaison des résultats retournés par chacun de ces moteurs à une requête identique, ne doit pas être appréhendée comme absolument représentative de leurs performances générales, on a quand même regardé ce que ça donne...

La réponse de Powerset PowersetReponse.jpg

La réponse de Lexxe LexxeReponse.jpg

Le constat immédiat : Lexxe ose me répondre, Powerset a l'air un peu perdu. N'exagérons rien et n'allons pas prendre pour argent comptant la réponse positive de Lexxe :)

Il faut dire que la question posée "is it ok to drink and drive?" (merci AntEater pour ce fort bon exemple), ne correspond pas à la structure canonique de la phrase interrogative, par exemple dans le contexte d'une application de Questions/Réponses : pas de mot interrogatif (type "wh-") à l'initiale, la tournure de cette question utilise l'inversion sujet/verbe et ne contient aucune forme de type entité nommée (par exemple un nom de personne).

Il y aurait sans doute aussi à regarder du côté de la taille de la fenêtre de mots; par exemple, si la collocation "drink and drive" est présente au moins dans les 5 premiers résultats de Lexxe, elle ne figure dans aucun des 5 premiers résultats retournés par Powerset.

En tous cas, j'espère que Lexxe sera l'objet de d'améliorations futures, car il me semble prometteur sur le segment des moteurs de recherche généralistes. Un écho qui fait bonne transition vers ces feedbacks un peu plus anciens :

"So far it (Lexxe) hasn't generated as much buzz, but the fact that it's in beta, and working is promising."

"This completely new search engine is great from the start, even in it's alpha version if you search in English."

"The concept of Lexxe will be more visible with a query like 'Who was Nietzsche'. As expected, Google produces a very long list of relevant links, but there is no topical order. In contrast Lexxe which is clustering: • German Philosopher of the Late 19th • Superman (Übermensch) • Minister • Mother • Reader • Clergyman • Author• Etc. I'm interested in his relationship to his mother and get more relevant links to his biography, to his medical history, to his mother etc. That's the true strength of Lexxe - topical drilling"

lundi 23 mars 2009

L'âge des widgets utiles : quelles applications après le e-commerce?

LaTransparenceDesPrix

Voyons voir... un comparateur de prix déguisé en widget? Un widget avec du comparateur de prix dedans? La seconde formulation correspondrait mieux à l'idée du "widget utile".

"Widget utile"? Oui, car si par définition, l'une des réalités recouvertes par le terme "widget" est forcément utile (un élément de l'interface d'une application, par exemple un bouton), les instances de widgets les plus répandues sur le web sont des widgets interactifs, qui permettent d'obtenir de l'information, oui, (météo, dictionnaire, post-it...), mais de l' information qui n'est pas corrélée à l'activité immédiate de l'internaute.

Et pourtant, il est certain qu'une grande part des internautes bénéficierait d'outils dont la fin n'est pas leur téléchargement et l'abonnement gratuit à un webservice quelconque. Surtout que, rappelons-le, l'internaute lambda peut aussi être un chargé de veille, un analyste d'opinion online, un linguiste dont le terrain d'analyse est sur le web, ou appartenir à n'importe quelle autre profession qui a de près ou de loin à voir avec l'infini vivier d'information non structurée à sémantiser qu'est le web.

De LaTransparenceDesPrix, le widget avec du comparateur de prix dedans, il est dit :

Dès qu’il « reconnaît » un produit, il affiche automatiquement les offres des concurrents.

Un peu plus loin, on peut lire :

En vous suivant sur les sites marchands que vous visitez, le widget “ La Transparence des Prix” joue le rôle d’un véritable compagnon d’aide à l’achat.

Nous y voilà : un compagnon d'aide à ... à la recherche d'information, à l'analyse thématique automatique, à l'extraction d'entités nommées... et caetera, et caetera (bref, avec du TAL dedans, pourquoi pas!)

Un véritable arsenal de widgets pour partir à l'attaque du touffu web, autant d'applications dont on pourrait s'équiper en fonction du besoin du moment, au gré des analyses à réaliser et des contenus observés.

LaTransparenceDesPrix, une application e-commerce dont le principe pourrait bien être appliqué à la veille d'information en tous genres? Le portage me semble prometteur : c'est aujourd'hui un créneau vide, sur lequel personne, à ma connaissance, n'est encore venu s'insérer. Gageons que l'idée fera son chemin et que d'ici un an ou deux, les premiers essais seront sortis des tubes!

A noter : ITR-News en parlait la semaine dernière.

A noter(2) : le mode "widget" n'est pas exclusif, mais les interfaces, d'une part, et les pratiques des internautes, d'autre part, rendraient ces outils plus accessibles, pour des raisons d'ergonomie et de simplicité d'utilisation. On retrouve un peu cette idée de "modularité ++" dans les widgets de Plasma, la partie visuelle de l'environnement de bureau KDE.

A noter(3) : une excellente ressource pour ceux qui veulent en savoir plus sur les petits envahisseurs que sont les widgets, par Guillaume Thavaud (cellule de veille (veille@brioude-internet.fr) de la société Brioude-Internet Référencement) sur abondance.com.

vendredi 26 décembre 2008

VeoSearch, le moteur solidaire

veosearch1.png VeoSearch est un moteur de recherche français, dont le principe est de financer des associations en reversant une part des profits générés par chaque recherche effectuée sur le site.
Une initiative intéressante : l'idée est innovante et ce service est au centre d'un tissu associatif actif. VeoSearch répertorie plus de 900 associations réparties dans 4 pays (France, Belgique, Suisse, Royaume-Uni). Il faut bien souligner que ce moteur n'a, en termes de fonctionnalités de recherche, rien à envier aux moteurs de recherche classiques dont nous avons l'habitude :

VeoSearch is a search engine working for Sustainable Development (social, economic or environment care). We are in partnership with Google, Yahoo and Ask which allows us to use their technology

L'interface est simple, intuitive : on peut choisir très facilement les associations qu'on souhaite soutenir, sur un panel comme celui ci-dessous.

veosearch2.png

Des groupes sur les grands réseaux sociaux, des informations sur les associations répertoriées et sur le mode de financement sont disponibles ici.

Une belle réussite pour ce service qui compte déjà plus de 60 000 inscrits et a pu collecter plus de 50 000€! Un web-réflexe sur la liste des bonnes résolutions qu'on peut arriver à tenir pour 2009?

dimanche 7 décembre 2008

If you are a US user of U Rank, please let us know your feedback on this MS service :)

U Rank, un Pressflip-Deezer-like en moteur de recherche?

Il n'apprend pas seulement vos goûts musicaux et vos thématiques favorites dans la presse.
Il n'est pas limité au bookmarking de documents intéressants, ni réduit à l'association de quelques mots-clés pour les décrire. U Rank est un service associé à la gamme Windows Live, et permet de gérer, d'éditer, d'annoter et surtout d'échanger du contenu avec sa communauté online.
En effet, U Rank est un produit développé par Microsoft, et il faut reconnaître que les équipes de R&D se sont bien données pour nous mettre à disposition ce puissant service! (à moins que ce soit le travail des équipes de com' qui le rende alléchant, car il n'est pas encore possible de le tester pour les utilisateurs européens des services Windows Live...)
Très simple d'accès, il suffit de rentrer vos identifiants MSN pour l'utiliser. J'eus aimé pouvoir l'essayer à outrance, mais ne peux pour le moment que vous recommander d'aller faire un tour sur la page de présentation du projet, en attendant la release de la version accessible à nous, chers "old-europeaners"!
URank_Error.jpg

mardi 21 octobre 2008

Twitrratr : how to make a fuzz over nothing

Today, twitrratr, another utterance of the so-called "semantic-apps" flooding the web those days, made quite a buzz.

I just cannot resist but to report here the presentation provided on the "about" page of twitrratr :

" We wanted to keep things as simple as possible. We built a list of positive keywords and a list of negative keywords. We search Twitter for a keyword and the results we get back are crossreferenced against our adjective lists, then displayed accordingly. There are obvious issues with this, so if you have any ideas on how we could do this better let us know."

As it is not necessary to demonstrate the weakness of this twitter-based application, which conclusion you can just come to by yourself while trying it, I would like to give here a very basic linguistic point of view, in order to avoid pointless amazement.

We are going to make a little simple exercise, with words taken from the "positive" list and the "negative" list twitrratr uses to process its automatic classification of tweets. Let's just keep in mind that the "neutral" category is the rubbish one, where the tweets with no positive or negative clusters are classified.

1) semantic ambiguity, even in a 140 characters message

Let's begin with two clusters taken from the "negative list" : "completely wrong" and "nothing is".

What if you were to say (a) "Obama wasn't completely wrong" and (b) "I guess nothing is better than that"? The context effect of the negation in (a) reverses the semantic orientation of the cluster. In (b), the comparative adjective "better (than)" also does so. Hence, those simple cases show the importance of the context in which negative clusters appears.

It also works for positive clusters, such as (c) "awesome" or (d) "thank you" : "Let's try this awesome shit" or "I thank you for letting me down". (c) is a case of ironic utterance; up to now, the automatic identification of irony is an unsolved problem, even for the best searchers in natural language processing. (d) shows an example of the sarcastic opinion expressed by the speaker; sarcasm is as tough to process automatically as irony, because these turns of phrases need context to be interpreted properly.

One could think that short text messages tend to be easier to process, but determining the semantic orientation of sentences is a difficult task to accomplish without taking into account the grammatical relations between the words.

2) why natural language processing should be of prior interest for twitrratr developpers

The best technologies developped for the automatic processing of subjective content, such as those developed by CELI, can analyse the positive or negative orientation of sentences. But this achievement requires several levels of linguistic analysis : the grammatical level, that is to say the relations between words in a sentence, is not easy to represent. Why? Because this is natural language, which characteristic are ambiguity and semantic variation depending on the context (textual context, social context, cultural context) in which words occur.

That's why twitrratr developers need a linguist to avoid most of the mistakes in automatic classification of tweets, such as the following, found using the query "cartier" (classified in the positive tweets because of the positive cluster "hilarious"):

twittrratr.jpg

After reading this tweet, do you consider it as a positive one?

mercredi 8 octobre 2008

ChaCha!

ChaCha’s Guides are individuals who are part of a vibrant community dedicated to helping people by sharing their knowledge.

Interesting? Bien loin des mobile services avec beaucoup de processing dedans, ChaCha, c'est un peu comme les renseignements téléphoniques, mais avec des contributeurs volontaires à l'autre bout du fil pour vous fournir de l'information.
La vidéo de présentation de l'outil est disponible sur le site chacha.com. Alors, il ne s'agit pas d'un moteur de recherche, mais d'un service de mise en relation entre les personnes, les unes souhaitant obtenir une information, les autres souhaitant partager leur savoir. Chacha propose d'ailleurs du mobile marketing à partir de la plateforme dont dispose la société.

As usual, j'ai cherché des papiers explicitant la technologie utilisée sur le site, mais n'en ai point trouvé. Une phrase intéressante à relever cependant :

ChaCha’s technology is also learning from each answer that is provided by our guides so that we can deliver accurate answers as quickly as possible.

Pas folle la guêpe ChaCha : ils ont donc glissé un algorithme d'apprentissage automatique qui s'entraîne sur les bases de données des réponses fournies par les Guides humains. Je suppute qu'un algorithme de génération automatique de texte ne va pas tarder à pointer le bout de son nez : quelle manne, les réponses de Guides!

jeudi 2 octobre 2008

Google "In Quotes" : déguiser l'analyse d'impact presse en résonance textuelle?

ActuAbondance en parle cette semaine et propose une première petite étude de cas sur les résultats du nouveau service Google : "In Quotes".
Sur le principe, entendons-nous bien, l'idée de pouvoir mettre en regard les citations de deux personnalités publiques sur un sujet identique ne manque certes pas d'intérêt. Par chez nous les TAListes, cette mise en regard est indexée par l'intitulé "résonance textuelle". Je vous recommande d'ailleurs la lecture d'un article d'André Salem, référence en la matière, intitulé ''Introduction à la résonance textuelle'' (JADT'04).
resonanceTextuelleSalemJADT04.jpg
Ce schéma vise à illustrer un phénomène simple : comparer les discours en fonction des occurrences que l'ont peut y identifier, afin de les étudier en contexte, en résonance, justement.

Observons maintenant une page de résultats In Quotes :
InQuotesExample.jpg

L'identification automatique des citations est un problème non trivial en TAL. Peut-on se limiter au segments de texte encadrés par des guillemets? Non, et Google Labs a évité cet écueil en effectuant (je suppute) la reconnaissance automatique des citations en mettant à profit des tournures fréquentes du discours rapporté, du type "Mr. X said".

In Quotes semble bien fonctionner en procédant par reconnaissance de mots-clés, associés de façon univoque à une thématique. Il suffirait donc de trouver une occurrence d'"Iraq" pour que le texte la contenant soit classé dans la thématique "Iraq". Il n'est bien entendu pas question de prendre en compte les paraphrases des noms propres, pourtant largement utilisées dans le discours journalistique, comme par exemple "Baghdad" (le nom de la capitale du pays en question est souvent utilisée pour renvoyer au pays lui-même), pour ne prendre que cet exemple.

Autre remarque sur l'alignement d'In Quotes : il n'y en a pas, tout du moins les extraits de texte restitués et mis en parallèle ne présentent pas d'alignement par date, par source, par période (la semaine, le mois, par exemple). C'est dommage : il eût été fort commode pour l'utilisateur de pouvoir se faire une idée de la recrudescence de ces "thèmes" (fussent-ils réduits à de simples mots-clés) au cours du temps, en fonction du nombre d'articles et de la personnalité publique à l'origine des citations relayées dans la presse. Le seul point de comparaison est finalement un mot-clé qui apparaît dans les "quotes", ce que ne manque pas de relever TechCrunch : the site doesn’t seem to be utilizing any algorithms to determine how each keyword is used.

Bref, pourquoi proposer un service aussi pauvre, qui ne répond pas à l'attente de pré-analyse de l'information que peut concevoir l'utilisateur?

samedi 6 septembre 2008

Firefox, la limite de Yoono

YoonoYoono, l'extension Firefox qui fait parler d'elle depuis quelques temps, en particulier dans ce petit billet, fait l'objet d'un papier très positif sur ReadWriteWeb.

Alors, j'ai envie de dire : oui, avec une reco comme ça, il y a de fortes chances que ce service marche. Le widget apparaît alors comme l'invention du diable :

Yoono is a Firefox extension that sits in your browser's sidebar and provides access to a ton of widgets that help keep you connected to your friends. The available widgets range from your favorite social networks such as Twitter, FriendFeed, Facebook, and Flickr, to providing related web page recommendations.However the things that Yoono is able to do are endless. Essentially Yoono is a tool that can do a lot more than it seems at first glance.

Des tonnes de widgets qui, telles des synapses libérant des neurotransmetteurs potentiellement lucratifs, confèrent un pouvoir infini à ce service dont on est loin de soupçonner l'étendue des talents. Il est tout publics, autant adapté aux mainstream users qu'aux early adopters, bref, rien à redire.
Fort bien, mais n'est-ce pas afficher un enthousiasme un peu trop transcendant? Yoono a une limite inéluctable : son potentiel d'expansion dépend de celui des utilisateurs de Firefox. Comme le relève très justement l'un des lecteurs de cet article sur RWW,

The majority of people still do not use Firefox and the majority of Firefox users are early adopters. ... As long as Yoono remains confined to Firefox, its chances of bringing social media tools to the masses remains small.

What else?

- page 3 de 5 -