MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - information retrieval

Fil des billets - Fil des commentaires

dimanche 7 décembre 2008

If you are a US user of U Rank, please let us know your feedback on this MS service :)

U Rank, un Pressflip-Deezer-like en moteur de recherche?

Il n'apprend pas seulement vos goûts musicaux et vos thématiques favorites dans la presse.
Il n'est pas limité au bookmarking de documents intéressants, ni réduit à l'association de quelques mots-clés pour les décrire. U Rank est un service associé à la gamme Windows Live, et permet de gérer, d'éditer, d'annoter et surtout d'échanger du contenu avec sa communauté online.
En effet, U Rank est un produit développé par Microsoft, et il faut reconnaître que les équipes de R&D se sont bien données pour nous mettre à disposition ce puissant service! (à moins que ce soit le travail des équipes de com' qui le rende alléchant, car il n'est pas encore possible de le tester pour les utilisateurs européens des services Windows Live...)
Très simple d'accès, il suffit de rentrer vos identifiants MSN pour l'utiliser. J'eus aimé pouvoir l'essayer à outrance, mais ne peux pour le moment que vous recommander d'aller faire un tour sur la page de présentation du projet, en attendant la release de la version accessible à nous, chers "old-europeaners"!
URank_Error.jpg

vendredi 10 octobre 2008

La coloration thématique des contenus textuels : une réelle innovation?

"Enfin un outil qui permet une couche d'analyse par dessus les statistiques sur les liens entre les blogs", me suis-je exclamée en lisant la présentation, comme toujours, très brillante, de Marshall Kirkpatrick (ReadWriteWeb), de l'outil Memeorandum.

En lisant ce très bon papier, je me suis souvenue avoir vu des développements analogues. Eh oui, en France, on fait beaucoup moins de bruit autour des innovations concoctées par nos chercheurs CNRS... C'est bien dommage, car en 2001, Pierre Beust, chercheur à l'Université de Caen, s'intéressait déjà au développement de technologies pour ce type d'applications. Je ne peux donc que recommander la lecture de son article de l'époque, Acquisition de classes sémantiques par coloriage thématique des textes électroniques. Je me permets d'en reproduire ici l'abstract :

Cet article présente une application appelée ThemeEditor dont le but est de permettre une acquisition supervisée de classes sémantiques. Cette acquisition est réalisée dans le cours d’une tâche interactive d’analyse interprétative de textes électroniques. Le logiciel d’étude proposé met en oeuvre un principe de coloriage thématique dans un texte et plus généralement dans un corpus de textes électroniques. Il s’agit de mettre en évidence, en fonction des classes sémantiques acquises ou en cours d’acquisition, la répartition des thèmes et leurs différentes formes d’enchaînements.

Ou comment ce qui nous paraît innovant aujourd'hui ne date certainement pas d'hier... Ou comment garder à l'esprit que, quand bien même l'innovation paraît surtout venir des US, elle est pourtant endormie quelque par dans un labo hexagonal...

mercredi 8 octobre 2008

ChaCha!

ChaCha’s Guides are individuals who are part of a vibrant community dedicated to helping people by sharing their knowledge.

Interesting? Bien loin des mobile services avec beaucoup de processing dedans, ChaCha, c'est un peu comme les renseignements téléphoniques, mais avec des contributeurs volontaires à l'autre bout du fil pour vous fournir de l'information.
La vidéo de présentation de l'outil est disponible sur le site chacha.com. Alors, il ne s'agit pas d'un moteur de recherche, mais d'un service de mise en relation entre les personnes, les unes souhaitant obtenir une information, les autres souhaitant partager leur savoir. Chacha propose d'ailleurs du mobile marketing à partir de la plateforme dont dispose la société.

As usual, j'ai cherché des papiers explicitant la technologie utilisée sur le site, mais n'en ai point trouvé. Une phrase intéressante à relever cependant :

ChaCha’s technology is also learning from each answer that is provided by our guides so that we can deliver accurate answers as quickly as possible.

Pas folle la guêpe ChaCha : ils ont donc glissé un algorithme d'apprentissage automatique qui s'entraîne sur les bases de données des réponses fournies par les Guides humains. Je suppute qu'un algorithme de génération automatique de texte ne va pas tarder à pointer le bout de son nez : quelle manne, les réponses de Guides!

jeudi 2 octobre 2008

Google "In Quotes" : déguiser l'analyse d'impact presse en résonance textuelle?

ActuAbondance en parle cette semaine et propose une première petite étude de cas sur les résultats du nouveau service Google : "In Quotes".
Sur le principe, entendons-nous bien, l'idée de pouvoir mettre en regard les citations de deux personnalités publiques sur un sujet identique ne manque certes pas d'intérêt. Par chez nous les TAListes, cette mise en regard est indexée par l'intitulé "résonance textuelle". Je vous recommande d'ailleurs la lecture d'un article d'André Salem, référence en la matière, intitulé ''Introduction à la résonance textuelle'' (JADT'04).
resonanceTextuelleSalemJADT04.jpg
Ce schéma vise à illustrer un phénomène simple : comparer les discours en fonction des occurrences que l'ont peut y identifier, afin de les étudier en contexte, en résonance, justement.

Observons maintenant une page de résultats In Quotes :
InQuotesExample.jpg

L'identification automatique des citations est un problème non trivial en TAL. Peut-on se limiter au segments de texte encadrés par des guillemets? Non, et Google Labs a évité cet écueil en effectuant (je suppute) la reconnaissance automatique des citations en mettant à profit des tournures fréquentes du discours rapporté, du type "Mr. X said".

In Quotes semble bien fonctionner en procédant par reconnaissance de mots-clés, associés de façon univoque à une thématique. Il suffirait donc de trouver une occurrence d'"Iraq" pour que le texte la contenant soit classé dans la thématique "Iraq". Il n'est bien entendu pas question de prendre en compte les paraphrases des noms propres, pourtant largement utilisées dans le discours journalistique, comme par exemple "Baghdad" (le nom de la capitale du pays en question est souvent utilisée pour renvoyer au pays lui-même), pour ne prendre que cet exemple.

Autre remarque sur l'alignement d'In Quotes : il n'y en a pas, tout du moins les extraits de texte restitués et mis en parallèle ne présentent pas d'alignement par date, par source, par période (la semaine, le mois, par exemple). C'est dommage : il eût été fort commode pour l'utilisateur de pouvoir se faire une idée de la recrudescence de ces "thèmes" (fussent-ils réduits à de simples mots-clés) au cours du temps, en fonction du nombre d'articles et de la personnalité publique à l'origine des citations relayées dans la presse. Le seul point de comparaison est finalement un mot-clé qui apparaît dans les "quotes", ce que ne manque pas de relever TechCrunch : the site doesn’t seem to be utilizing any algorithms to determine how each keyword is used.

Bref, pourquoi proposer un service aussi pauvre, qui ne répond pas à l'attente de pré-analyse de l'information que peut concevoir l'utilisateur?

jeudi 4 septembre 2008

askBoss : le Powerset-like pour images

Quelques feuillets de ce petit carnet Web on été consacrés, çà et , à Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation en langage naturel.

a natural language image search powered by Yahoo Boss and Google App Engine

askBoss, justement, reprend et applique ce mode de consultation des données aux contenus images. Le moteur indexe les noms d'images. A priori, il indexe les chaînes de caractères exactes (au moins un des mots complets saisis dans la boîte de dialogue) et partielles (une des séries de lettres présentes dans au moins un des mots complets saisis dans la boîte de dialogue).
Comparez les résultats de Where am I? (indexation sur la suite am) et Who is Aphex Twin? (indexation sur les mots exacts aphex et twin).

askBoss.jpg

En passant, j'ai beaucoup rit en cherchant Who is Tim Berner's Lee? : des images en ribambelle, mais pas une de l'intéressé avant la deuxième page de résultats. L'aura passe sans doute mieux avec des photos de ses fameux cakes et des illustrations à l'effigie du WorldWideWeb.

mercredi 3 septembre 2008

Un métamoteur à plébisciter : Wbsearch

Wbsearch-barre.jpg

Wbsearch Metasearcher Engine, un métamoteur de recherche où cocher la case Exact Phrase veut vraiment dire quelque chose! Je l'ai testé avec Who is Noam Chomsky?, linguistique et Où est la Tour Eiffel?, pas mal du tout. Il apprend aussi nos recherches favorites, restituées dans la liste sous la boîte de dialogue... :)

Wbsearch-aboutus.jpg

Give it a try!

mercredi 27 août 2008

Jixperts : funny chatterbots from Russia

jixperts.jpg

Une fort sympathique idée d'application Web : proposer des chatterbots, ou agents conversationnels, qui prennent la forme de personnages, de personnalités publiques ou de l'une des diverses entités webbiques bien connues des internautes.

L'autre idée, c'est de transmuter l'internaute en contributeur : on peut créer un chatterbot à l'effigie d'un de nos persos préférés :)

Have you ever felt like talking to your favourite character from some movie or cartoon? to a politician, philosopher, or some other famous person? The mission of our project is to allow you to freely and enjoyably communicate with the characters you like. Jixperts.com allows you to not only talk to existing experts, but also to create new ones and teach them by simply asking and answering questions! Passing Turing test? Easy! Characters are taught by real people asking and answering questions!

La base de données de phrases (questions et réponses) est donc alimentée pour tout ou partie par les contributions de ceux qui apprécieront. Bon, sinon, j'ai dit bonjour à un cher ami de South Park : sa base de réponses n'est pas très complète... des fans pour aider cette instance de Stan?

jixpertStan.jpg

Autre chose : cette application est disponible en anglais et en russe! (je souligne par cette ponctuation exclamative mon plaisir de voir les langues se diversifier un peu).

Une base de connaissances générée par l'internaute, des interlocuteurs par et pour l'internaute, un système de génération automatique de textes pour combiner le tout : on pensera ce que l'on veut du packaging, l'idée n'est pas mauvaise, m'est avis bien entendu!

mardi 19 août 2008

Pressflip : la revue de presse façon Deezer

pf_web_logo_front2.pngPressflip, l'un des petits derniers dans la course aux moteurs de recherche, apprend ce que nous aimons à lire dans la presse en ligne.
L'avantage? Pouvoir sauvegarder ses critères de recherche de façon intuitive. Ce n'est pas exactement la smartradio de Deezer, mais ça y ressemble fort et c'est très pratique : on peut filer une ou plusieurs thématiques dans l'actualité, dont le moteur retient la pertinence au fur et à mesure de notre utilisation.
Search Save Learn sur ce prometteur adage, je vous enjoins à tester ce service, dont la release n'a pas tout à fait deux mois :)

vendredi 15 août 2008

Hewlett-Packard mécène la recherche d'information

BusinessWeek annonce aujourd'hui les résultats de l'appel à soumissions lancé par Hewlett-Packard en mai dernier. Les chercheurs étaient invités à faire part de leurs projets pour décrocher un éventuel financement.
En somme,

HP said it awarded 41 professors as much as $100,000 apiece.

L'article ne manque pas de le préciser, HP Labs finance la Recherche très régulièrement. Pourquoi alors faire cas de l'orientation esquissée par HP cette année? Parce qu'un précédent papier de BusinessWeek relatait l'intention de la firme de

link research more closely to business objectives

business objectives, un syntagme qui évoque les applications des technologies de traitement automatique de l'information appliquées à l'entreprise, en particulier la CRM (Consumer Relationship Management), dont les applications sont de plus en plus rentables depuis les années 2000, ce qui n'a pas du échapper aux HP data analysis labs.

Alors la chose à retenir : inviting researchers from around the world to submit proposals for research in one of 49 areas of particular interest to HP , avec une emphase sur Erik Brynjolfsson, qui cherche comment rendre l'entreprise plus compétitive grâce à l'interaction avec les TIC. Un signal aux grands groupes pour pérenniser leur compétititvité?

L'un des champs d'investigation liés à Brynjolfsson : how social behavior interacts with social technology. Les technologies de recherche d'information auront sans aucun doute la part belle, et j'imagine que leurs émules appliquées au langage naturel, au langage évaluatif en particulier, ne seront pas en reste. La rénovation des systèmes d'information est sur une bonne lancée :) m'est avis, bien entendu.

page 2 de 2 -