MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - Semantic Web

Fil des billets - Fil des commentaires

jeudi 27 mai 2010

Des nouvelles de Wolfram

Wolfram, notre ami le moteur computationnel dont on a déjà eu l'occasion de parler sur ce petit carnet web - ici, ici et notamment - a refait pulser certaines régions du web en premier Quarter 2010. Par quoi cette émulation fut-elle générée ? Par un prix, pardi !

Incipit. Wolfram participe au South by Southwest (SXSW, Inc.), un événement culturel global (cinéma, musique, technologies digitales) actif depuis 1987, au Texas (USA). Sélectionnée pour figurer parmi les finalistes le 12 février, c'est l'annonce des lauréats des SXSW web awards 2010 le 14 mars qui coiffe la famille d'outils Wolfram de succès.

La brève AFP qui en découle est relayée par Le Figaro le 15 mars 2010. Un billet de Motrech sur le prix SXSW remporté par Wolfram Alpha, en parle également dès le 18 mars.

Ce retour sur le devant de la scène est fort bénéfique à Wolfram, qui fait l'objet d'une excellente présentation, parue le 26 mai, dans la Tribune de Genève :

une pléiade de sites Web, parmi lesquels un compendium de connaissances mathématiques (Wolfram Math World, mathworld.wolfram.com), un répertoire de visualisations interactives (Demonstrations Project, demonstrations.wolfram.com) et le moteur «computationnel» Wolfram Alpha (lire ci-dessus). Plus léger et amusant, Wolfram Tones (tones.wolfram.com) permet de composer sa propre musique à partir de modèles sonores et de formules mathématiques. Bluffant!

Ce qui est sûr, c'est que le moteur a bénéficié d'une nette amélioration des résultats : la base de données computables s'est considérablement étendue.

Seule petite ombre : Wolfram a d'emblée pâti de verrous en Traitement Automatique des Langues, ce que nous expliquait Tom Krazit de chez CNET News en août 2009, dans un billet republié sur la version US de ZDNet où il rapportait les propos de Stephen Wolfram :

linguistic problems are to blame for half of the occasions when Wolfram Alpha does not return a result. That percentage is changing as Wolfram refines the science behind Wolfram Alpha, but it will take some time.

Voyons-voir, avec un petit test simple. La base en Traitement Automatique des Langues, c'est avant tout de travailler avec des unités textuelles "propres", i.e. bien isolées et pour lesquelles on a observé une grande quantité de phénomènes d'occurrence afin d'identifier des problèmes d'ambiguïté, de silence (ce qui est pertinent et que l'on n'arrive pas à capter) et de bruit (ce que l'on capte et qui n'est pas pertinent) potentiels.

Voyons donc :

Etape 1 : WolframAlpha_test_1.png

Constat 1 > Le moteur ne sait pas comment interpréter.

Etape 2 : WolframAlpha_test_2.png

Constat 2 > Le moteur interprète et retourne une réponse. Il m'explique ce qu'est un astérisque.

Etape 3 : WolframAlpha_test_3.png

Constat 3 > Le moteur interprète et retourne une réponse. Il m'explique à nouveau ce qu'est un astérisque.

Qu'en dire ? Le blanc (espace entre deux caractères alphanumériques) n'est pas un critère distinctif pour le moteur, il retourne donc la même réponse pour la séquence "a*" et "a *". On suppute dans l'oreillette que la segmentation du texte saisi par l'utilisateur ne fait probablement pas trop cas de ce qui se trouve à gauche ou à droite pour y isoler des unités.

Oui, je l'avoue, si la réponse du Test 3 me paraît pertinente et riche en informations sur le caractère qu'est l'astérisque, j'espérais secrètement que Wolfram mette en rapport la recherche du Test 2 avec l'écriture conventionnelle de l'étoile de Kleene, souvent notée V*. En regexp, c'est proche (recherche d'un caractère alphabétique en casse majeure ou mineure suivi d'une astérisque).

Par contre, regardez : Wolfram_whatisalinguist.png

Et oui, Wolfram est un moteur bien cultivé :) Les ressources encyclopédiques du système sont en constante expansion, et même si des remarques plus consistantes sont possibles - sur la segmentation par exemple - je pense que ces points sont en cours de résolution et que Wolfram Alpha est véritablement à la hauteur des retours positifs suite au SXSW.

A voir pour en savoir plus sur l'ensemble des initiatives Wolfram :

  • http://www.wolfram.com/solutions/france/
  • http://blog.wolframalpha.com/
  • http://www.wolframalpha.com/
  • http://www.wolfram.com/

samedi 3 avril 2010

Quelles perspectives pour les systèmes de Q/A ?

Les systèmes de Questions/Answers - Q/A pour les intimes - ne sont pas nés de la dernière pluie, et arrosent le grand public depuis plusieurs décennies déjà. Véritables moteurs de recherche évolués, ce sont des solutions clairement adaptées aux problématiques de Data Journalism et sans doute à certaines attentes des utilisateurs de Search Engines grand public. Tentative de panorama.

Les mythes véhiculés par les médias audiovisuels prenant comme sujet la machine détentrice de connaissance absolue ne se comptent plus : le paradigme s'étend de 3PO dans Star Wars à Ziggy dans Code Quantum. Une bonne part de ces mythes sont matérialisés par les systèmes de Q/A - ou Q/R pour "Questions/Réponses" en français dans le texte. N'étant pas spécialiste de mythocritique, je vous propose quelques pistes pour vous faire une idée de ce qu'est un système de Q/A.

Q/A, c'est quoi ? Très simplement, un système de Q/A est un moteur de recherche, en ce qu'on adresse une question (une requête) au système et qu'on en attend un ou plusieurs résultats pertinents quant à une requête donnée. Comme un moteur de recherche, un système de Q/A fait appel à des fonctionnalités de recherche documentaire - pour fouiller un ensemble de documents - et inclut des calculs de pertinence - pour retourner à l'utilisateur des documents susceptibles de contenir la/les réponse(s) adéquate(s).

Pourquoi donc parler de "moteur de recherche évolué" ? Parce qu'à la différence d'un moteur de recherche traditionnel, un système de Q/A intègre des modules de traitement linguistique un peu plus complexes : d'une part, il doit traiter des questions, et non des séries de mots-clés; d'autre part, il doit retourner soit une réponse (ou une série de réponses) pertinente, soit un passage textuel (ou une série de passages) comportant la réponse à la question. Par exemple, imaginons le scénario suivant, dans le cadre d'un système de Q/A basé sur Wikipédia en français :
Question :

Quand Jacques Chirac est-il né ?

Réponse (basée sur la page Wikipédia en français dédiée à Jacques Chirac) :

Jacques Chirac est né le 29 novembre 1932

On imagine bien la complexité des traitements impliqués, étant donnée la variété des formulations possibles pour une même question, la sélection de sources documentaires fiables, sans même parler de points plus spécifiques (traitement des Entités Nommées, typage des questions,...), sans même se placer dans un contexte multilingue. Bref, la conception de tels système est bien loin d'être une mince affaire!

Et aujourd'hui, quels exemples concrets ? Reprenons un peu l'actualité de quelques acquisitions, par exemple, des firmes de Redmond et de Mountain View :

Qu'en dire ? Au moins que les systèmes de Q/A intégralement automatiques ne sont pas viables dans un contexte de "real life", et ne sont qu'encore partiellement efficaces sur des bases documentaires fermées et thématiquement homogènes (i.e. des ensembles de documents liés au même domaine, par exemple le domaine médical). Les algorithmes implémentés pour cibler des besoins grand public sont donc plutôt conçus pour router les questions vers des humains qui ont le plus de probabilités de pouvoir répondre correctement.

Les intiatives à la Orange ou certaines tentatives de Google (non, je ne bondirai pas une énième fois sur l'emploi plus ou moins impropre de la lexie "sémantique"), illustrent parfaitement l'avenir des systèmes de Q/A : restituer de l'information encyclopédique. Dommage, moi aussi j'aurais aimé continuer à nourrir le fantasme d'avoir un jour un 3PO ou un Ziggy ;)

vendredi 4 décembre 2009

OpenCalais : une API pragmatique

Semantic Web or Wolrd Wise Web?

OpenCalais.jpg Le projet OpenCalais a soufflé sa première bougie.

Et son arrivée sur le marché des technologies sémantiques est bien reçu par les confréries professionnelles du Web 2.0, en particulier celles gravitant autour de ReadWriteWeb, qui sortait justement cette semaine son top des produits du Web Sémantique (RDF, Linked Data, tout ça tout ça). En témoigne ce message de remerciements adressé à la rédaction de ReadWriteWeb, spotté sur Twitter le 3 décembre 2009 à 18:48 (comme un certain chocolat, signe? Qui sait... bref, je n'ai que trop attendu pour parler de ce Calais ouvert : presque 8 mois, tout de même).

Many thanks to @RWW for including us in their Top 10 Semantic Web Products of 2009 http://bit.ly/5vWo8R

En février 2008, alors que le projet OpenCalais commençait à faire parler de lui, chez Mondeca par exemple, Jean-Marie Le Ray faisait un très bon wrap-up introductif sur les circonstances de la naissance de cet acteur majeur de la donnée avec de la métadonnée augmentée dedans.

Comme le souligne indirectement Nicolas Cynober, qui, je n'en doute point, ne circonscrit pas le traitement automatique des langues naturelles à la simple extraction d'entités nommées, OpenCalais exploite fort bien l'extraction d'information non structurée et sa structuration sur le modèle des Linked Data. Tout cela à grand renfort d'ontologies de relations entre entités, dont il est appréciable que ces ressources, initialement dédiées à l'anglais, aient été étendues au français et à l'espagnol.

Mais, comme la vérité, le sens est ailleurs. Les technologies dites "sémantiques" ne devraient pas donner l'impression - dans la tradition des croyances de l'IA - que le sens est dans un outil de computation. Quand bien même il sait désambiguïser les occurrences d'entités nommées, et quelles que soient sa robustesse, la qualité de ses algorithmes ou encore l'étendue de ses ressources linguistiques.

OpenCalais constitue cependant un véritable progrès : il s'agit là d'un beau projet d'ingénierie, auquel la robustesse technique ne manque pas. En bref, un judicieux outil.

lundi 16 novembre 2009

FastFlip, l'avenir de Google News?

Dans la famille des webservices de feuilletage de news, après le prometteur PressFlip (présenté à la dernière édition de la SearchRace et que je n'avais pas résisté à vous présenter en août 2008) dont FastFlip des Google Labs est l'un des récents émules, on assiste à une fusion de modes de consultation des actualités online.

Nos amis de SearchEngineLand annoncent en effet ce matin un petit tournant stratégique adopté par Google quant à la diffusion des contenus qu'ils agrègent et diffusent sur FastFlip :

It offers a more “branded” and visual way to consume news and magazine content from major publishers.

Avec tout le contenu 'marketing contextuel' (la 'sémantique' telle qu'on l'entend dans l'univers Web, dopée à la stratégie de monétisation) qu'on peut associer aux news, le choix d'une ergonomie en mozaïque anticipe clairement sur des problématiques de consultation sur un terminal mobile. Comme le suppute fort judicieusement Greg Sterling dans ce billet riche d'informations :

Fast Flip might be the “platform” for the micropayments system that Google has been working on with a number of newspaper publishers.

Si Schmidt s'exclamait il y a peu que "Google is not a content company", l'arrivée d'un FastFlip - après la mort prématurée d'un PressFlip qui est arrivé un an trop tôt mais avait tout pour exploser dans le contexte actuel de redéfinition des modes de consommation, de consultation et de distribution de l'information en ligne - la fonction de Google dans l'univers Web de 2010 semble bien s'orienter vers un tapis misé sur l'innovation des modes de consultation des contenus informationnels. Ce que tend d'ailleurs à confirmer ce très documenté billet d' ActuAbondance, à lire sans tarder, tout juste frais de deux jours, qui rappelle que le temps de chargement des pages est sans doute l'un des prochains grands leviers du moteur de référence de la décennie.

jeudi 30 avril 2009

SEM'09// le programme en images, plus quelques mots sur l'audience

Le secret d'un événement de qualité? L'organisation, le lieu et l'audience. Avec une centaine de personnes rassemblées dans l'ambiance feutrée des salons du Copley Plaza à Boston, il est intéressant de remarquer que plusieurs représentants d'institutions étaient présents parmi les attendees. De la web & enterprise search à l'institutional search?

En tous cas, comme promis, voici les scans du programme en détails, pour vous donner un aperçu de la façon dont se sont déroulés les deux jours du SEM'09.

L'équipe de Infornortics - parmi lesquels Madame Anne Girard, qui avait par exemple présidé la conférence Les apports de l'Intelligence Economique et Concurrentielle à la compétitivité des entreprises à l'i-expo 2004 -, emmenée avec brio par Monsieur Harry Collier, a mis en place une organisation irréprochable!

La jolie couverture du programme de cette année

program1.jpg

Les speakers du premier jour

program_day1.jpgMicrosoft, Nstein et une superbe intervention de Stephen E. Arnold sur ses fameuses Google Studies. En prime, un speech qualifié par la rumeur des couloirs de "provocative" par Frank Bandach (Eeggi).



Les speakers du second jour

program_day2.jpgTrès intéressante, la présentation de David Milward (Linguamatics); des interventions riches d'enseignement sur les problèmes de sécurité en contexte d'enterprise search, par l'équipe de New Idea Engineering, et sur la faceted search, par Daniel Tunkelang (Endeca). Cherry on top : Peter Noerr (MuseGlobal) a présenté son approche de l'underground information.

Tout ceci n'est, bien entendu, qu'un rapport non exhaustif de la richesse qui a été exposée dans les salons du Fairmont Copley Palza pendant les deux jours du SEM'09. Je vous enjoins donc fortement à vous ruer ici dès le 4 mai : toutes les présentations seront disponibles en ligne.

samedi 25 avril 2009

SEM'09//The Search Engine Meeting 2009 : le programme

Where search engine developers, academics and corporate professionals learn from each other

Pour sa 14ème édition, le Search Engine Meeting 2009 propose un superbe programme de speechs, qui se tiendront lundi et mardi.

Nous commencerons avec de prestigieux intervenants au petit déjeuner, en particulier des acteurs majeurs du développement de systèmes pour l'analyse sémantique automatisée (Microsoft, Nstein), qui initieront la première journée du SEM'09.

Je vous prépare des revues plus complètes et fouillées de ce qui se sera passé depuis le 26, et vous enjoins à consulter le programme, pour vous donner une idée du beau monde qui se trouve ici, et du beau lieu qui accueille l'évènement. Je manque un peu d'équipement, étant en déplacement, mais vous aurez une liste exhaustive des participants au meeting dès que j'aurai de quoi scanner sous la main.

Cela vaut le coup, et fera de belles opportunités de contact pour ceux qui cherchent à obtenir davantage d'informations sur les acteurs majeurs du segment des search engines, de la semantic search et de l'enterprise search aujourd'hui.

vendredi 10 avril 2009

Xerox, Powerset et le mot de Marissa Mayer sur l'avenir des technologies linguistiques

Dans un article de février 2007, le New York Times aborde les liens entre Xerox et les équipes de Powerset.

C'est fort instructif sur l'historique de Powerset et sur le positionnement sans doute prometteur du PARC, une filiale de Xerox Corporation créée en 2002.

Il faut remarquer qu'il y a deux ans, l'implémentation de technologies linguistiques dans les moteurs de recherche laissait sceptique, comme le souligne l'article :

Researchers have predicted breakthrough applications for natural languages for years, but the technology has proved usable in only limited contexts, turning many experts into skeptics about its potential, at least in the short term.

Marissa Mayer, Vice-présidente de la section "Produits de recherche et services aux utilisateurs" chez Google, faisait alors une très juste remarque sur les développements des technologies linguistiques :

In a November interview, Marissa Mayer, Google’s vice president for search and user experience, said: “Natural language is really hard. I don’t think it will happen in the next five years.”

Si le pronostic est juste, encore trois petites années... Le temps de la maturité!

lundi 2 mars 2009

Truevert : les bons augures de la communauté 3.0

The Truevert system, powered by OrcaTec's discovery toolkit, is narrowly defined around green, but it's definitely an eye-opening, fresh approach to an elusive problem.

dixit Fritz Nelson (InformationWeek), dans un billet très complet du mois de janvier, pour accueillir la sortie de Truevert, quelques mois auparavant (6 octobre 2008).

Un moteur qui a manifestement retenu son attention et qu'il a bien documenté, avec des vidéos édifiantes à l'appui (notamment l'interview de Herbet L. Roitblat, chercheur chez OrcaTec, qui en explique la technologie, visibles ici également). We take the meaning of the patterns of word usage, explique Roitblat. Au lieu de se fonder sur une catégorisation (jamais) exhaustive, Truevert opère sur les relations statistiques qui émergent entre les mots d'un document, procédant par apprentissage non supervisé.

Paul Miller postait sur ZDNet le jour de la sortie de Truevert, expliquant : Some of the search results are impressively on-target, but there’s still work to do…. Effectivement, l'apprentissage non supervisé n'est pas sans générer de bruit dans les résultats de recherche. Il semble cependant que les sets d'entraînement des algorithmes soient bien optimisés, pour une version bêta, rappelons-le.

L'une des fonctionnalités appréciables à la consultation des résultats est l'accès à la liste des termes pertinents, sur lesquels s'est appuyé le moteur : il suffit de cliquer sur l'icône d'information à côté du lien du résultat pour l'obtenir. Au moins, ce moteur est honnête!

truvert-interestingterms-icon.jpg

truevert-iterestingterms.jpg

Effectivement, il y a un peu de bruit là-dedans (charset utf parameter était l'intrus le plus évident à trouver pour une recherche sur paper). Mais cela ne fait pas faiblir les bons échos sur Truevert...

Fritz Nelson note :

The approach can be applied to any vertical using the same approach. You could even apply it to enterprise content management, given that most corporations have their own jargon -- you just train the engine on the documents that you index.

Jaymi Heimbuch (Treehugger.com) met en avant un aspect particulièrement intéressant sur la place d'un tel moteur sémantique dans le contexte du content mining :

the new web 3.0 features are likely to greatly impact online commerce and advertising

Ce constat fait écho à celui de Fritz Nelson : You also can imagine that if you can get more precise in your search results, a decent amount of ad revenue, in the form of better matching, might result.

Moins de coût pour la mise en service - le développement de ressources exogènes, en particulier thésaurus, lexiques et ontologies, ne sont pertinents que dans des cas précis et peu nombreux - et un impact majeur sur le commerce en ligne et la monétisation des applications web. De bons augures, disais-je...

Le mot de la fin : Charles Knight (altsearchengines.com) a testé pour nous le module Firefox de Truevert. Verdict :

Tried to stump Truevert with the question, "How deep is the ocean?" It returned the answer, " Mostly the ocean is about 4000 metres deep, but is deeper in places. ..." Well done!

mardi 3 février 2009

SEAmail : l'e-mail à la sauce 3.0

Ne plus perdre de temps à chercher dans vos bases de contacts... Faire du mailing massif aussi facilement qu'une recherche sur Google... vous en avez rêvé? Lisez donc!

InternetACTU en parlait la semaine dernière, faisant écho à un papier de la fameuse Technology Review : les chercheurs de Stanford planchent sur un système d'envoi de mails dores et déjà annoncée comme une application révolutionnaire du web sémantique.

En effet, le Semantic E-mail Adressing (SEAmail, un document explicatif ici) permettrait de ne plus recourir aux adresses mails d'individus spécifiques lors de l'envoi de courrier électroniques.

Comment? Une première explication :

  • l'idée est de se fonder sur une description logique des propriétés générales communes à plusieurs individus
  • cela permet donc de constituer des ensembles de types d'individus

A l'heure actuelle, le mail, c'est plutôt :

Today, we use mailing lists to email predefined groups of people ... you must be able to ardress your email to static mailing lists that are the best fit to your requierements, and you must know of their existence.

Il s'agit en fait d'un système capable d'analyser l'information structurée contenue dans les mails (expéditeur, récipiendaire, objet, corps du texte) et de l'exprimer de façon formelle, par exemple avec un formalisme de type RDF (Resource Description Framework, standard du W3C pour homogénéiser la description des métadonnées associées aux documents indexés sur le Web). Ce type de formalisme, particulièrement efficace pour l'indexation, permet d'optimiser la création de mailing lists à partir de requêtes soumises à une base de données, en exploitant très finement l'information structurée qu'elle contient.

Mais pas seulement...

Les descripteurs, c'est-à-dire les propriétés de description logiques inférées par le système sur la masse d'information traitée, permettent d'accéder à un niveau de généralisation qui ne clôture plus l'utilisateur dans un référentialisme foisonnant. Autrement dit, l'intégration d'un tel système dans un serveur de mails est le moyen de passer du "envoyer l'invitation à tous mes contacts du groupe X" à "envoyer l'invitation à tous les contacts indexés qui ont simultanément la propriété A, B et C".

En contexte d'entreprise, cela pourrait donner "envoyer l'information à tous les consultants juniors de moins de 25 ans". C'est justement l'un des leviers communicationnels autour de la solution SEAmail : un gain de temps des administrateurs du serveur jusqu'aux utilisateurs finaux.

Voilà ce que ça pourrait donner, visuellement parlant :


SEAmail.jpg

Bref, un grand pas vers le mailing intuitif!

Pour aller plus loin : quelques infos sur le standard RDF

mardi 21 octobre 2008

Twitrratr : how to make a fuzz over nothing

Today, twitrratr, another utterance of the so-called "semantic-apps" flooding the web those days, made quite a buzz.

I just cannot resist but to report here the presentation provided on the "about" page of twitrratr :

" We wanted to keep things as simple as possible. We built a list of positive keywords and a list of negative keywords. We search Twitter for a keyword and the results we get back are crossreferenced against our adjective lists, then displayed accordingly. There are obvious issues with this, so if you have any ideas on how we could do this better let us know."

As it is not necessary to demonstrate the weakness of this twitter-based application, which conclusion you can just come to by yourself while trying it, I would like to give here a very basic linguistic point of view, in order to avoid pointless amazement.

We are going to make a little simple exercise, with words taken from the "positive" list and the "negative" list twitrratr uses to process its automatic classification of tweets. Let's just keep in mind that the "neutral" category is the rubbish one, where the tweets with no positive or negative clusters are classified.

1) semantic ambiguity, even in a 140 characters message

Let's begin with two clusters taken from the "negative list" : "completely wrong" and "nothing is".

What if you were to say (a) "Obama wasn't completely wrong" and (b) "I guess nothing is better than that"? The context effect of the negation in (a) reverses the semantic orientation of the cluster. In (b), the comparative adjective "better (than)" also does so. Hence, those simple cases show the importance of the context in which negative clusters appears.

It also works for positive clusters, such as (c) "awesome" or (d) "thank you" : "Let's try this awesome shit" or "I thank you for letting me down". (c) is a case of ironic utterance; up to now, the automatic identification of irony is an unsolved problem, even for the best searchers in natural language processing. (d) shows an example of the sarcastic opinion expressed by the speaker; sarcasm is as tough to process automatically as irony, because these turns of phrases need context to be interpreted properly.

One could think that short text messages tend to be easier to process, but determining the semantic orientation of sentences is a difficult task to accomplish without taking into account the grammatical relations between the words.

2) why natural language processing should be of prior interest for twitrratr developpers

The best technologies developped for the automatic processing of subjective content, such as those developed by CELI, can analyse the positive or negative orientation of sentences. But this achievement requires several levels of linguistic analysis : the grammatical level, that is to say the relations between words in a sentence, is not easy to represent. Why? Because this is natural language, which characteristic are ambiguity and semantic variation depending on the context (textual context, social context, cultural context) in which words occur.

That's why twitrratr developers need a linguist to avoid most of the mistakes in automatic classification of tweets, such as the following, found using the query "cartier" (classified in the positive tweets because of the positive cluster "hilarious"):

twittrratr.jpg

After reading this tweet, do you consider it as a positive one?

- page 1 de 3