MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - natural language processing

Fil des billets - Fil des commentaires

jeudi 28 mai 2009

AV, Siri! Ou l'intelligence pour iPhone et Smartphones

Image_1.pngSiri, l'AV (assistant virtuel) qui va révolutionner l'expérience utilisateur sur l'iPhone et autres Smartphones. Quelques explications...

Siri n'a pas l'objectif de révolutionner la recherche en ligne sur terminal mobile, mais de proposer des solutions pour faciliter la vie : ce n'est pas là d'un énième Google Killer, mais un assistant virtuel dont l'arrivée marque un tournant technologique majeur dans notre interaction quotidienne avec nos goodies high-tech!

Mais avant tout, qu'est-ce qu'un assistant virtuel ?

  • aider l'utilisateur à accéder à une information ou à exécuter une tâche;
  • comprendre l'intention de l'utilisateur en fonction du contexte;
  • travailler pour l'utilisateur, i.e. être autonome dans l'exécution des tâches intermédiaires pour apporter une réponse finale à l'utilisateur.

Le shift? On passe de l'adaptation d'outils - ce qu'on fait constamment en configurant les interfaces qu'on utilise au quotidien - à l'interaction avec une application intelligente. (A voir : la Technology Review du MIT en parlait dans son édition de mars/avril)

On annonce des performances exceptionnelles en reconnaissance vocale - ce que Google offre déjà avec Android - mais sur le principe, Siri fait mieux : c'est un agent conversationnel nouvelle génération, en plus d'être un outil qui n'impose pas à l'utilisateur de se servir des touches pour exécuter des actions. Tout peut se faire à la voix. L'intégration de fonctionnalités de synthèse vocales sont à l'étude, ce qui garantirait une accessibilité optimale aux utilisateurs atteints de cécité, par exemple.

Siri mettrai à profit les technologies d'autocomplétion et de navigation contextuelle. Son avantage saillant ? L'opérationnalisation, i.e. découper votre besoin en tâches et sous-tâches à exécuter pour retourner une réponse pertinente, en fonction des données contextuelles qu'il connaît sur son utilisateur. Une belle performance d'utilisation des algorithmes d'apprentissage automatique!

Les ressources actuelles pour la géolocalisation, la reconnaissance et l'extraction d'entités nommées (noms de personnes et dates, par exemple) et les technologies fondées sur les ontologies du langage (ne poussons pas le rêve trop loin, c'est un assistant, pas un humain en boîte) seraient particulièrement bien exploitées. En bref, une grille de lecture du monde étendue qui vous facilite la vie!

Siri, une startup qui aura bien exploité sa levée de fonds de 8,5 millions de dollars en 2008!

Pour aller plus loin : à lire chez nos amis de TechCrunch et de Twine

lundi 4 mai 2009

SEM'09// Les présentations sont en ligne!

Comme prévu, les présentations faites au Search Engine Meeting sont en ligne ici. Merci à toute l'équipe d'Infonortics!

Bonne lecture!

dimanche 26 avril 2009

The Search Engine Meeting : ne cherchez plus, ça se passe ici...

Tout commence en 1987, quand Monsieur Harry Collier a fondé Infonortics...

Harry Collier, diplômé de Oxford en Histoire Moderne, a beaucoup travaillé dans le domaine de l'édition scientifique, entre autres. Cela explique sans nul doute pourquoi Infonortics Ltd., structure spécialisée dans l'organisation de conférences, séminaires, publications et mise en oeuvre de projets liés à l'information électronique, est l'une des références dans le domaine.

Les conférences organisées par Monsieur Collier - le Search Engine Meeting et l'ICIC -, sont reconnues par les professionnels et les chercheurs d'un large panel de secteurs liés à l'information électronique, pour leur sérieux. En effet, Monsieur Collier s'est toujours refusé à faire de ces événements des "foire-à-tout" : l'objectif des meetings qu'il organise est de générer un véritable échange, et non pas de donner un lieu supplémentaire à la superficialité de l'avant-vente de solutions logicielles.

Monsieur Everett Brenner, l'autre père du Search Engine Meeting, a activement contribué au développement de cette conférence. Je vous invite à en apprendre davantage sur cet éminent personnage, qui a pressenti "the Information Age" il y a près d'un demi-siècle. Visionnaire.

Monsieur Stephen E. Arnold - dont je parle plus longuement dans un billet suivant - a publié une fort instructive interview de Monsieur Collier sur son blog, arnoldit. Extraits.

The conference, more than a decade into in-depth explorations of search and content processing, is one of the most substantive search and content processing programs. The speakers have come from a range of information retrieval disciplines. The conference organizing committee has attracted speakers from the commercial and research sectors. Sales pitches and recycled product reviews are discouraged.

Conferences about search, search engine optimization, and Intranet search have proliferated in the last decade. Some of these shows focus on the “soft” topics in search and wrap the talks with golf outings and buzzwords.

The Infonortics search conference has remained sharply focused and content centric.

Voilà pour la mise en bouche. Monsieur Collier donne explicite davantage l'esprit de cet évènement.

we wanted serious talks on serious search domain challenges (...) we have tried to avoid areas such as SEO and product puffs and to keep to the path of meaty, research talks for either search engine developers, or those in an enterprise environment charged with implementing search technology. The meetings tread a line between academic research meetings (lots of equations) and popular search engine optimization meetings (lots of commercial exhibits).

Search — and the problems of search — remains central, but we are also interested in areas such as data or text mining (extracting sense from masses of data) as well as visualization and analysis (making search results understandable and useful). We feel the center of attention is moving away from “can I retrieve all the data?” to that of “how can I find help in making sense out of all the data I am retrieving?”

It’s a meeting without too much razzmatazz; we only have a small, informal exhibition, no real sponsorship, and we try to downplay the commercialized side of the search world.

Because of Infonortics international background, we have a pretty high international attendance compared with most meetings in the United States: many Europeans, Koreans and Asians. I’ve already used the word “serious”, but this is how I would characterize our typical attendee.

A l'heure où nombreux sont ceux qui croient qu'il faut "buzzer pour exister", la sérieuse longévité du Search Engine Meeting rime aussi avec "discrétion". Parce que dans une "foire-à-tout", il y a trop de bruit pour réfléchir.

Le Search Engine Meeting, édition 2009, commence aujourd'hui à 13h30, au Fairmont Copley Plaza, Boston (MA).

vendredi 10 avril 2009

Xerox, Powerset et le mot de Marissa Mayer sur l'avenir des technologies linguistiques

Dans un article de février 2007, le New York Times aborde les liens entre Xerox et les équipes de Powerset.

C'est fort instructif sur l'historique de Powerset et sur le positionnement sans doute prometteur du PARC, une filiale de Xerox Corporation créée en 2002.

Il faut remarquer qu'il y a deux ans, l'implémentation de technologies linguistiques dans les moteurs de recherche laissait sceptique, comme le souligne l'article :

Researchers have predicted breakthrough applications for natural languages for years, but the technology has proved usable in only limited contexts, turning many experts into skeptics about its potential, at least in the short term.

Marissa Mayer, Vice-présidente de la section "Produits de recherche et services aux utilisateurs" chez Google, faisait alors une très juste remarque sur les développements des technologies linguistiques :

In a November interview, Marissa Mayer, Google’s vice president for search and user experience, said: “Natural language is really hard. I don’t think it will happen in the next five years.”

Si le pronostic est juste, encore trois petites années... Le temps de la maturité!

lundi 23 mars 2009

L'âge des widgets utiles : quelles applications après le e-commerce?

LaTransparenceDesPrix

Voyons voir... un comparateur de prix déguisé en widget? Un widget avec du comparateur de prix dedans? La seconde formulation correspondrait mieux à l'idée du "widget utile".

"Widget utile"? Oui, car si par définition, l'une des réalités recouvertes par le terme "widget" est forcément utile (un élément de l'interface d'une application, par exemple un bouton), les instances de widgets les plus répandues sur le web sont des widgets interactifs, qui permettent d'obtenir de l'information, oui, (météo, dictionnaire, post-it...), mais de l' information qui n'est pas corrélée à l'activité immédiate de l'internaute.

Et pourtant, il est certain qu'une grande part des internautes bénéficierait d'outils dont la fin n'est pas leur téléchargement et l'abonnement gratuit à un webservice quelconque. Surtout que, rappelons-le, l'internaute lambda peut aussi être un chargé de veille, un analyste d'opinion online, un linguiste dont le terrain d'analyse est sur le web, ou appartenir à n'importe quelle autre profession qui a de près ou de loin à voir avec l'infini vivier d'information non structurée à sémantiser qu'est le web.

De LaTransparenceDesPrix, le widget avec du comparateur de prix dedans, il est dit :

Dès qu’il « reconnaît » un produit, il affiche automatiquement les offres des concurrents.

Un peu plus loin, on peut lire :

En vous suivant sur les sites marchands que vous visitez, le widget “ La Transparence des Prix” joue le rôle d’un véritable compagnon d’aide à l’achat.

Nous y voilà : un compagnon d'aide à ... à la recherche d'information, à l'analyse thématique automatique, à l'extraction d'entités nommées... et caetera, et caetera (bref, avec du TAL dedans, pourquoi pas!)

Un véritable arsenal de widgets pour partir à l'attaque du touffu web, autant d'applications dont on pourrait s'équiper en fonction du besoin du moment, au gré des analyses à réaliser et des contenus observés.

LaTransparenceDesPrix, une application e-commerce dont le principe pourrait bien être appliqué à la veille d'information en tous genres? Le portage me semble prometteur : c'est aujourd'hui un créneau vide, sur lequel personne, à ma connaissance, n'est encore venu s'insérer. Gageons que l'idée fera son chemin et que d'ici un an ou deux, les premiers essais seront sortis des tubes!

A noter : ITR-News en parlait la semaine dernière.

A noter(2) : le mode "widget" n'est pas exclusif, mais les interfaces, d'une part, et les pratiques des internautes, d'autre part, rendraient ces outils plus accessibles, pour des raisons d'ergonomie et de simplicité d'utilisation. On retrouve un peu cette idée de "modularité ++" dans les widgets de Plasma, la partie visuelle de l'environnement de bureau KDE.

A noter(3) : une excellente ressource pour ceux qui veulent en savoir plus sur les petits envahisseurs que sont les widgets, par Guillaume Thavaud (cellule de veille (veille@brioude-internet.fr) de la société Brioude-Internet Référencement) sur abondance.com.

mardi 21 octobre 2008

Twitrratr : how to make a fuzz over nothing

Today, twitrratr, another utterance of the so-called "semantic-apps" flooding the web those days, made quite a buzz.

I just cannot resist but to report here the presentation provided on the "about" page of twitrratr :

" We wanted to keep things as simple as possible. We built a list of positive keywords and a list of negative keywords. We search Twitter for a keyword and the results we get back are crossreferenced against our adjective lists, then displayed accordingly. There are obvious issues with this, so if you have any ideas on how we could do this better let us know."

As it is not necessary to demonstrate the weakness of this twitter-based application, which conclusion you can just come to by yourself while trying it, I would like to give here a very basic linguistic point of view, in order to avoid pointless amazement.

We are going to make a little simple exercise, with words taken from the "positive" list and the "negative" list twitrratr uses to process its automatic classification of tweets. Let's just keep in mind that the "neutral" category is the rubbish one, where the tweets with no positive or negative clusters are classified.

1) semantic ambiguity, even in a 140 characters message

Let's begin with two clusters taken from the "negative list" : "completely wrong" and "nothing is".

What if you were to say (a) "Obama wasn't completely wrong" and (b) "I guess nothing is better than that"? The context effect of the negation in (a) reverses the semantic orientation of the cluster. In (b), the comparative adjective "better (than)" also does so. Hence, those simple cases show the importance of the context in which negative clusters appears.

It also works for positive clusters, such as (c) "awesome" or (d) "thank you" : "Let's try this awesome shit" or "I thank you for letting me down". (c) is a case of ironic utterance; up to now, the automatic identification of irony is an unsolved problem, even for the best searchers in natural language processing. (d) shows an example of the sarcastic opinion expressed by the speaker; sarcasm is as tough to process automatically as irony, because these turns of phrases need context to be interpreted properly.

One could think that short text messages tend to be easier to process, but determining the semantic orientation of sentences is a difficult task to accomplish without taking into account the grammatical relations between the words.

2) why natural language processing should be of prior interest for twitrratr developpers

The best technologies developped for the automatic processing of subjective content, such as those developed by CELI, can analyse the positive or negative orientation of sentences. But this achievement requires several levels of linguistic analysis : the grammatical level, that is to say the relations between words in a sentence, is not easy to represent. Why? Because this is natural language, which characteristic are ambiguity and semantic variation depending on the context (textual context, social context, cultural context) in which words occur.

That's why twitrratr developers need a linguist to avoid most of the mistakes in automatic classification of tweets, such as the following, found using the query "cartier" (classified in the positive tweets because of the positive cluster "hilarious"):

twittrratr.jpg

After reading this tweet, do you consider it as a positive one?

dimanche 5 octobre 2008

Les bons augures de David Provost...

laissent à penser que l'arrivée sur le marché des technologies de TAL (Traitement Automatique des Langues) annonce celle de réponses plurielles à des besoins industriels importants. On the cusp, belle forme parabolique. Fort bien.

Semantic science is being productized, differentiated, invested in by mainstream players and increasingly sought after in the business world

Je tique sur ce semantic science qui sent très fort la présentation commerciale, mais ce qui est dit ensuite n'est pas faux; c'est même très vrai : la demande existe, la technologie peut envisager de quitter les laboratoires pour arriver en contexte industriel, les formations universitaires doivent donc être reconnues à leur juste valeur.
Au-delà de la très aguicheuse quatrième section intitulée Who should read this report, qui fera en 38 pages un état de l'art profitable aussi bien aux business managers and strategists qu'aux software engineers, je laisse Marshall Kirkpatrick plier l'affaire de son excellente formule :

In fact, while Provost has glowingly positive things to about all the companies he surveyed, the absence of engagement with any of their shortcomings makes the report read more like marketing material than any objective take on what's supposed to be world-changing technology.

En effet, le champ couvert par les exemples relève surtout de la gestion d'information et d'outils permettant l'association de métadonnées aux documents, le tout dans un packaging qui tient plutôt de l'outil de travail collaboratif que d'un outil sémantique. A cet égard, la présentation d'Anzo, un module Excel développé par l'Université de Cambridge, apporte de l'eau à notre moulin.

Ce rapport me semble illustrer l'un des écueils liés à l'émergence de cette industrie : le flou autour d'un ensemble de technologies expérimentales à fort potentiel lucratif, avec des cahiers des charges encore mal définis, où les sites des entreprises citées exhibent plutôt de beaux schémas qui bougent et un panneau de success stories, que leurs papiers de recherche...

page 2 de 2 -