MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

lundi 23 mars 2009

L'âge des widgets utiles : quelles applications après le e-commerce?

LaTransparenceDesPrix

Voyons voir... un comparateur de prix déguisé en widget? Un widget avec du comparateur de prix dedans? La seconde formulation correspondrait mieux à l'idée du "widget utile".

"Widget utile"? Oui, car si par définition, l'une des réalités recouvertes par le terme "widget" est forcément utile (un élément de l'interface d'une application, par exemple un bouton), les instances de widgets les plus répandues sur le web sont des widgets interactifs, qui permettent d'obtenir de l'information, oui, (météo, dictionnaire, post-it...), mais de l' information qui n'est pas corrélée à l'activité immédiate de l'internaute.

Et pourtant, il est certain qu'une grande part des internautes bénéficierait d'outils dont la fin n'est pas leur téléchargement et l'abonnement gratuit à un webservice quelconque. Surtout que, rappelons-le, l'internaute lambda peut aussi être un chargé de veille, un analyste d'opinion online, un linguiste dont le terrain d'analyse est sur le web, ou appartenir à n'importe quelle autre profession qui a de près ou de loin à voir avec l'infini vivier d'information non structurée à sémantiser qu'est le web.

De LaTransparenceDesPrix, le widget avec du comparateur de prix dedans, il est dit :

Dès qu’il « reconnaît » un produit, il affiche automatiquement les offres des concurrents.

Un peu plus loin, on peut lire :

En vous suivant sur les sites marchands que vous visitez, le widget “ La Transparence des Prix” joue le rôle d’un véritable compagnon d’aide à l’achat.

Nous y voilà : un compagnon d'aide à ... à la recherche d'information, à l'analyse thématique automatique, à l'extraction d'entités nommées... et caetera, et caetera (bref, avec du TAL dedans, pourquoi pas!)

Un véritable arsenal de widgets pour partir à l'attaque du touffu web, autant d'applications dont on pourrait s'équiper en fonction du besoin du moment, au gré des analyses à réaliser et des contenus observés.

LaTransparenceDesPrix, une application e-commerce dont le principe pourrait bien être appliqué à la veille d'information en tous genres? Le portage me semble prometteur : c'est aujourd'hui un créneau vide, sur lequel personne, à ma connaissance, n'est encore venu s'insérer. Gageons que l'idée fera son chemin et que d'ici un an ou deux, les premiers essais seront sortis des tubes!

A noter : ITR-News en parlait la semaine dernière.

A noter(2) : le mode "widget" n'est pas exclusif, mais les interfaces, d'une part, et les pratiques des internautes, d'autre part, rendraient ces outils plus accessibles, pour des raisons d'ergonomie et de simplicité d'utilisation. On retrouve un peu cette idée de "modularité ++" dans les widgets de Plasma, la partie visuelle de l'environnement de bureau KDE.

A noter(3) : une excellente ressource pour ceux qui veulent en savoir plus sur les petits envahisseurs que sont les widgets, par Guillaume Thavaud (cellule de veille (veille@brioude-internet.fr) de la société Brioude-Internet Référencement) sur abondance.com.

vendredi 26 décembre 2008

VeoSearch, le moteur solidaire

veosearch1.png VeoSearch est un moteur de recherche français, dont le principe est de financer des associations en reversant une part des profits générés par chaque recherche effectuée sur le site.
Une initiative intéressante : l'idée est innovante et ce service est au centre d'un tissu associatif actif. VeoSearch répertorie plus de 900 associations réparties dans 4 pays (France, Belgique, Suisse, Royaume-Uni). Il faut bien souligner que ce moteur n'a, en termes de fonctionnalités de recherche, rien à envier aux moteurs de recherche classiques dont nous avons l'habitude :

VeoSearch is a search engine working for Sustainable Development (social, economic or environment care). We are in partnership with Google, Yahoo and Ask which allows us to use their technology

L'interface est simple, intuitive : on peut choisir très facilement les associations qu'on souhaite soutenir, sur un panel comme celui ci-dessous.

veosearch2.png

Des groupes sur les grands réseaux sociaux, des informations sur les associations répertoriées et sur le mode de financement sont disponibles ici.

Une belle réussite pour ce service qui compte déjà plus de 60 000 inscrits et a pu collecter plus de 50 000€! Un web-réflexe sur la liste des bonnes résolutions qu'on peut arriver à tenir pour 2009?

dimanche 7 décembre 2008

If you are a US user of U Rank, please let us know your feedback on this MS service :)

U Rank, un Pressflip-Deezer-like en moteur de recherche?

Il n'apprend pas seulement vos goûts musicaux et vos thématiques favorites dans la presse.
Il n'est pas limité au bookmarking de documents intéressants, ni réduit à l'association de quelques mots-clés pour les décrire. U Rank est un service associé à la gamme Windows Live, et permet de gérer, d'éditer, d'annoter et surtout d'échanger du contenu avec sa communauté online.
En effet, U Rank est un produit développé par Microsoft, et il faut reconnaître que les équipes de R&D se sont bien données pour nous mettre à disposition ce puissant service! (à moins que ce soit le travail des équipes de com' qui le rende alléchant, car il n'est pas encore possible de le tester pour les utilisateurs européens des services Windows Live...)
Très simple d'accès, il suffit de rentrer vos identifiants MSN pour l'utiliser. J'eus aimé pouvoir l'essayer à outrance, mais ne peux pour le moment que vous recommander d'aller faire un tour sur la page de présentation du projet, en attendant la release de la version accessible à nous, chers "old-europeaners"!
URank_Error.jpg

mardi 21 octobre 2008

Twitrratr : how to make a fuzz over nothing

Today, twitrratr, another utterance of the so-called "semantic-apps" flooding the web those days, made quite a buzz.

I just cannot resist but to report here the presentation provided on the "about" page of twitrratr :

" We wanted to keep things as simple as possible. We built a list of positive keywords and a list of negative keywords. We search Twitter for a keyword and the results we get back are crossreferenced against our adjective lists, then displayed accordingly. There are obvious issues with this, so if you have any ideas on how we could do this better let us know."

As it is not necessary to demonstrate the weakness of this twitter-based application, which conclusion you can just come to by yourself while trying it, I would like to give here a very basic linguistic point of view, in order to avoid pointless amazement.

We are going to make a little simple exercise, with words taken from the "positive" list and the "negative" list twitrratr uses to process its automatic classification of tweets. Let's just keep in mind that the "neutral" category is the rubbish one, where the tweets with no positive or negative clusters are classified.

1) semantic ambiguity, even in a 140 characters message

Let's begin with two clusters taken from the "negative list" : "completely wrong" and "nothing is".

What if you were to say (a) "Obama wasn't completely wrong" and (b) "I guess nothing is better than that"? The context effect of the negation in (a) reverses the semantic orientation of the cluster. In (b), the comparative adjective "better (than)" also does so. Hence, those simple cases show the importance of the context in which negative clusters appears.

It also works for positive clusters, such as (c) "awesome" or (d) "thank you" : "Let's try this awesome shit" or "I thank you for letting me down". (c) is a case of ironic utterance; up to now, the automatic identification of irony is an unsolved problem, even for the best searchers in natural language processing. (d) shows an example of the sarcastic opinion expressed by the speaker; sarcasm is as tough to process automatically as irony, because these turns of phrases need context to be interpreted properly.

One could think that short text messages tend to be easier to process, but determining the semantic orientation of sentences is a difficult task to accomplish without taking into account the grammatical relations between the words.

2) why natural language processing should be of prior interest for twitrratr developpers

The best technologies developped for the automatic processing of subjective content, such as those developed by CELI, can analyse the positive or negative orientation of sentences. But this achievement requires several levels of linguistic analysis : the grammatical level, that is to say the relations between words in a sentence, is not easy to represent. Why? Because this is natural language, which characteristic are ambiguity and semantic variation depending on the context (textual context, social context, cultural context) in which words occur.

That's why twitrratr developers need a linguist to avoid most of the mistakes in automatic classification of tweets, such as the following, found using the query "cartier" (classified in the positive tweets because of the positive cluster "hilarious"):

twittrratr.jpg

After reading this tweet, do you consider it as a positive one?

mercredi 8 octobre 2008

ChaCha!

ChaCha’s Guides are individuals who are part of a vibrant community dedicated to helping people by sharing their knowledge.

Interesting? Bien loin des mobile services avec beaucoup de processing dedans, ChaCha, c'est un peu comme les renseignements téléphoniques, mais avec des contributeurs volontaires à l'autre bout du fil pour vous fournir de l'information.
La vidéo de présentation de l'outil est disponible sur le site chacha.com. Alors, il ne s'agit pas d'un moteur de recherche, mais d'un service de mise en relation entre les personnes, les unes souhaitant obtenir une information, les autres souhaitant partager leur savoir. Chacha propose d'ailleurs du mobile marketing à partir de la plateforme dont dispose la société.

As usual, j'ai cherché des papiers explicitant la technologie utilisée sur le site, mais n'en ai point trouvé. Une phrase intéressante à relever cependant :

ChaCha’s technology is also learning from each answer that is provided by our guides so that we can deliver accurate answers as quickly as possible.

Pas folle la guêpe ChaCha : ils ont donc glissé un algorithme d'apprentissage automatique qui s'entraîne sur les bases de données des réponses fournies par les Guides humains. Je suppute qu'un algorithme de génération automatique de texte ne va pas tarder à pointer le bout de son nez : quelle manne, les réponses de Guides!

jeudi 2 octobre 2008

Google "In Quotes" : déguiser l'analyse d'impact presse en résonance textuelle?

ActuAbondance en parle cette semaine et propose une première petite étude de cas sur les résultats du nouveau service Google : "In Quotes".
Sur le principe, entendons-nous bien, l'idée de pouvoir mettre en regard les citations de deux personnalités publiques sur un sujet identique ne manque certes pas d'intérêt. Par chez nous les TAListes, cette mise en regard est indexée par l'intitulé "résonance textuelle". Je vous recommande d'ailleurs la lecture d'un article d'André Salem, référence en la matière, intitulé ''Introduction à la résonance textuelle'' (JADT'04).
resonanceTextuelleSalemJADT04.jpg
Ce schéma vise à illustrer un phénomène simple : comparer les discours en fonction des occurrences que l'ont peut y identifier, afin de les étudier en contexte, en résonance, justement.

Observons maintenant une page de résultats In Quotes :
InQuotesExample.jpg

L'identification automatique des citations est un problème non trivial en TAL. Peut-on se limiter au segments de texte encadrés par des guillemets? Non, et Google Labs a évité cet écueil en effectuant (je suppute) la reconnaissance automatique des citations en mettant à profit des tournures fréquentes du discours rapporté, du type "Mr. X said".

In Quotes semble bien fonctionner en procédant par reconnaissance de mots-clés, associés de façon univoque à une thématique. Il suffirait donc de trouver une occurrence d'"Iraq" pour que le texte la contenant soit classé dans la thématique "Iraq". Il n'est bien entendu pas question de prendre en compte les paraphrases des noms propres, pourtant largement utilisées dans le discours journalistique, comme par exemple "Baghdad" (le nom de la capitale du pays en question est souvent utilisée pour renvoyer au pays lui-même), pour ne prendre que cet exemple.

Autre remarque sur l'alignement d'In Quotes : il n'y en a pas, tout du moins les extraits de texte restitués et mis en parallèle ne présentent pas d'alignement par date, par source, par période (la semaine, le mois, par exemple). C'est dommage : il eût été fort commode pour l'utilisateur de pouvoir se faire une idée de la recrudescence de ces "thèmes" (fussent-ils réduits à de simples mots-clés) au cours du temps, en fonction du nombre d'articles et de la personnalité publique à l'origine des citations relayées dans la presse. Le seul point de comparaison est finalement un mot-clé qui apparaît dans les "quotes", ce que ne manque pas de relever TechCrunch : the site doesn’t seem to be utilizing any algorithms to determine how each keyword is used.

Bref, pourquoi proposer un service aussi pauvre, qui ne répond pas à l'attente de pré-analyse de l'information que peut concevoir l'utilisateur?

samedi 6 septembre 2008

Firefox, la limite de Yoono

YoonoYoono, l'extension Firefox qui fait parler d'elle depuis quelques temps, en particulier dans ce petit billet, fait l'objet d'un papier très positif sur ReadWriteWeb.

Alors, j'ai envie de dire : oui, avec une reco comme ça, il y a de fortes chances que ce service marche. Le widget apparaît alors comme l'invention du diable :

Yoono is a Firefox extension that sits in your browser's sidebar and provides access to a ton of widgets that help keep you connected to your friends. The available widgets range from your favorite social networks such as Twitter, FriendFeed, Facebook, and Flickr, to providing related web page recommendations.However the things that Yoono is able to do are endless. Essentially Yoono is a tool that can do a lot more than it seems at first glance.

Des tonnes de widgets qui, telles des synapses libérant des neurotransmetteurs potentiellement lucratifs, confèrent un pouvoir infini à ce service dont on est loin de soupçonner l'étendue des talents. Il est tout publics, autant adapté aux mainstream users qu'aux early adopters, bref, rien à redire.
Fort bien, mais n'est-ce pas afficher un enthousiasme un peu trop transcendant? Yoono a une limite inéluctable : son potentiel d'expansion dépend de celui des utilisateurs de Firefox. Comme le relève très justement l'un des lecteurs de cet article sur RWW,

The majority of people still do not use Firefox and the majority of Firefox users are early adopters. ... As long as Yoono remains confined to Firefox, its chances of bringing social media tools to the masses remains small.

What else?

mercredi 3 septembre 2008

Un métamoteur à plébisciter : Wbsearch

Wbsearch-barre.jpg

Wbsearch Metasearcher Engine, un métamoteur de recherche où cocher la case Exact Phrase veut vraiment dire quelque chose! Je l'ai testé avec Who is Noam Chomsky?, linguistique et Où est la Tour Eiffel?, pas mal du tout. Il apprend aussi nos recherches favorites, restituées dans la liste sous la boîte de dialogue... :)

Wbsearch-aboutus.jpg

Give it a try!

mercredi 20 août 2008

IBM, la reconnaissance vocale et ses nouveaux marchés

BusinessWeek en parle cette semaine : IBM entend trouver de nouveaux marchés pour ses applications de reconnaissance vocale embarquée,

in applications including autos, mobile phones, call centers, medical systems, and transcription services.

Ces dernières années, de nombreux chercheurs à travers le monde se sont préoccupés de l'adaptation de technologies et de la constitution de ressources pour des langues peu dotées (depuis l'arabe dialectal irakien jusqu'au khmer, en passant par l'amharique). Si IBM ne trouve pas un marché tout à fait réceptif aujourd'hui, la firme peut tout de même envisager le rachat, tout du moins l'absorption des retombées de ces travaux (pour mémoire, je vous invite à lire la section 3 d'un précédent papier lié à ce billet).
Espérons Rêvons que l'assaut d'IBM pour transférer ces technologies, initialement développées pour des utilisations militaires, à des marchés grand public, n'oubliera pas l'ensemble des problématiques humaines, culturelles, éducationnelles liées à l'effort de recherche.

mardi 19 août 2008

Pressflip : la revue de presse façon Deezer

pf_web_logo_front2.pngPressflip, l'un des petits derniers dans la course aux moteurs de recherche, apprend ce que nous aimons à lire dans la presse en ligne.
L'avantage? Pouvoir sauvegarder ses critères de recherche de façon intuitive. Ce n'est pas exactement la smartradio de Deezer, mais ça y ressemble fort et c'est très pratique : on peut filer une ou plusieurs thématiques dans l'actualité, dont le moteur retient la pertinence au fur et à mesure de notre utilisation.
Search Save Learn sur ce prometteur adage, je vous enjoins à tester ce service, dont la release n'a pas tout à fait deux mois :)

- page 3 de 5 -