Wolfram, notre ami le moteur computationnel dont on a déjà eu l'occasion
de parler sur ce petit carnet web - ici, ici
et là notamment - a
refait pulser certaines régions du web en premier Quarter 2010. Par quoi cette
émulation fut-elle générée ? Par un prix, pardi !
Incipit. Wolfram participe au South by Southwest (SXSW,
Inc.), un événement culturel global (cinéma, musique, technologies digitales)
actif depuis 1987, au Texas (USA). Sélectionnée pour figurer parmi les
finalistes le 12 février, c'est l'annonce des lauréats des SXSW web awards
2010 le 14 mars qui coiffe la famille d'outils Wolfram de succès.
La brève AFP qui en découle est
relayée par Le Figaro le 15 mars 2010. Un billet de
Motrech sur le prix SXSW remporté par Wolfram Alpha, en parle également dès
le 18 mars.
Ce retour sur le devant de la scène est fort bénéfique à Wolfram, qui fait
l'objet d'une excellente présentation, parue le 26 mai, dans la Tribune de
Genève :
une pléiade de sites Web, parmi lesquels un compendium
de connaissances mathématiques (Wolfram Math World, mathworld.wolfram.com), un
répertoire de visualisations interactives (Demonstrations Project,
demonstrations.wolfram.com) et le moteur «computationnel» Wolfram Alpha (lire
ci-dessus). Plus léger et amusant, Wolfram Tones (tones.wolfram.com) permet de
composer sa propre musique à partir de modèles sonores et de formules
mathématiques. Bluffant!
Ce qui est sûr, c'est que le moteur a bénéficié d'une nette amélioration des
résultats : la base de données computables s'est considérablement
étendue.
Seule petite ombre : Wolfram a d'emblée pâti de verrous en Traitement
Automatique des Langues, ce que nous expliquait Tom Krazit de chez CNET News en
août 2009, dans un
billet republié sur la version US de ZDNet où il rapportait les propos de
Stephen Wolfram :
linguistic problems are to blame for half of the occasions when Wolfram
Alpha does not return a result. That percentage is changing as Wolfram refines
the science behind Wolfram Alpha, but it will take some time.
Voyons-voir, avec un petit test simple. La base en
Traitement Automatique des Langues, c'est avant tout de travailler avec des
unités textuelles "propres", i.e. bien isolées et pour lesquelles on a observé
une grande quantité de phénomènes d'occurrence afin d'identifier des problèmes
d'ambiguïté, de silence (ce qui est pertinent et que l'on n'arrive pas à
capter) et de bruit (ce que l'on capte et qui n'est pas pertinent)
potentiels.
Voyons donc :
Etape 1 : 
Constat 1 > Le moteur ne sait pas comment interpréter.
Etape 2 : 
Constat 2 > Le moteur interprète et retourne une réponse. Il m'explique
ce qu'est un astérisque.
Etape 3 : 
Constat 3 > Le moteur interprète et retourne une réponse. Il m'explique à
nouveau ce qu'est un astérisque.
Qu'en dire ? Le blanc (espace entre deux caractères
alphanumériques) n'est pas un critère distinctif pour le moteur, il retourne
donc la même réponse pour la séquence "a*" et "a *". On suppute dans
l'oreillette que la segmentation du texte saisi par l'utilisateur ne fait
probablement pas trop cas de ce qui se trouve à gauche ou à droite pour y
isoler des unités.
Oui, je l'avoue, si la réponse du Test 3 me paraît pertinente et riche en
informations sur le caractère qu'est l'astérisque, j'espérais secrètement que
Wolfram mette en rapport la recherche du Test 2 avec l'écriture conventionnelle
de l'étoile de Kleene, souvent notée V*. En regexp, c'est proche
(recherche d'un caractère alphabétique en casse majeure ou mineure suivi d'une
astérisque).
Par contre, regardez : 
Et oui, Wolfram est un moteur bien cultivé
Les ressources encyclopédiques
du système sont en constante expansion, et même si des remarques plus
consistantes sont possibles - sur la segmentation par exemple - je pense que
ces points sont en cours de résolution et que Wolfram Alpha est
véritablement à la hauteur des retours positifs suite au SXSW.
A voir pour en savoir plus sur l'ensemble des initiatives Wolfram
:
- http://www.wolfram.com/solutions/france/
- http://blog.wolframalpha.com/
- http://www.wolframalpha.com/
- http://www.wolfram.com/