MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 27 mai 2010

Des nouvelles de Wolfram

Wolfram, notre ami le moteur computationnel dont on a déjà eu l'occasion de parler sur ce petit carnet web - ici, ici et notamment - a refait pulser certaines régions du web en premier Quarter 2010. Par quoi cette émulation fut-elle générée ? Par un prix, pardi !

Incipit. Wolfram participe au South by Southwest (SXSW, Inc.), un événement culturel global (cinéma, musique, technologies digitales) actif depuis 1987, au Texas (USA). Sélectionnée pour figurer parmi les finalistes le 12 février, c'est l'annonce des lauréats des SXSW web awards 2010 le 14 mars qui coiffe la famille d'outils Wolfram de succès.

La brève AFP qui en découle est relayée par Le Figaro le 15 mars 2010. Un billet de Motrech sur le prix SXSW remporté par Wolfram Alpha, en parle également dès le 18 mars.

Ce retour sur le devant de la scène est fort bénéfique à Wolfram, qui fait l'objet d'une excellente présentation, parue le 26 mai, dans la Tribune de Genève :

une pléiade de sites Web, parmi lesquels un compendium de connaissances mathématiques (Wolfram Math World, mathworld.wolfram.com), un répertoire de visualisations interactives (Demonstrations Project, demonstrations.wolfram.com) et le moteur «computationnel» Wolfram Alpha (lire ci-dessus). Plus léger et amusant, Wolfram Tones (tones.wolfram.com) permet de composer sa propre musique à partir de modèles sonores et de formules mathématiques. Bluffant!

Ce qui est sûr, c'est que le moteur a bénéficié d'une nette amélioration des résultats : la base de données computables s'est considérablement étendue.

Seule petite ombre : Wolfram a d'emblée pâti de verrous en Traitement Automatique des Langues, ce que nous expliquait Tom Krazit de chez CNET News en août 2009, dans un billet republié sur la version US de ZDNet où il rapportait les propos de Stephen Wolfram :

linguistic problems are to blame for half of the occasions when Wolfram Alpha does not return a result. That percentage is changing as Wolfram refines the science behind Wolfram Alpha, but it will take some time.

Voyons-voir, avec un petit test simple. La base en Traitement Automatique des Langues, c'est avant tout de travailler avec des unités textuelles "propres", i.e. bien isolées et pour lesquelles on a observé une grande quantité de phénomènes d'occurrence afin d'identifier des problèmes d'ambiguïté, de silence (ce qui est pertinent et que l'on n'arrive pas à capter) et de bruit (ce que l'on capte et qui n'est pas pertinent) potentiels.

Voyons donc :

Etape 1 : WolframAlpha_test_1.png

Constat 1 > Le moteur ne sait pas comment interpréter.

Etape 2 : WolframAlpha_test_2.png

Constat 2 > Le moteur interprète et retourne une réponse. Il m'explique ce qu'est un astérisque.

Etape 3 : WolframAlpha_test_3.png

Constat 3 > Le moteur interprète et retourne une réponse. Il m'explique à nouveau ce qu'est un astérisque.

Qu'en dire ? Le blanc (espace entre deux caractères alphanumériques) n'est pas un critère distinctif pour le moteur, il retourne donc la même réponse pour la séquence "a*" et "a *". On suppute dans l'oreillette que la segmentation du texte saisi par l'utilisateur ne fait probablement pas trop cas de ce qui se trouve à gauche ou à droite pour y isoler des unités.

Oui, je l'avoue, si la réponse du Test 3 me paraît pertinente et riche en informations sur le caractère qu'est l'astérisque, j'espérais secrètement que Wolfram mette en rapport la recherche du Test 2 avec l'écriture conventionnelle de l'étoile de Kleene, souvent notée V*. En regexp, c'est proche (recherche d'un caractère alphabétique en casse majeure ou mineure suivi d'une astérisque).

Par contre, regardez : Wolfram_whatisalinguist.png

Et oui, Wolfram est un moteur bien cultivé :) Les ressources encyclopédiques du système sont en constante expansion, et même si des remarques plus consistantes sont possibles - sur la segmentation par exemple - je pense que ces points sont en cours de résolution et que Wolfram Alpha est véritablement à la hauteur des retours positifs suite au SXSW.

A voir pour en savoir plus sur l'ensemble des initiatives Wolfram :

  • http://www.wolfram.com/solutions/france/
  • http://blog.wolframalpha.com/
  • http://www.wolframalpha.com/
  • http://www.wolfram.com/

samedi 3 avril 2010

Quelles perspectives pour les systèmes de Q/A ?

Les systèmes de Questions/Answers - Q/A pour les intimes - ne sont pas nés de la dernière pluie, et arrosent le grand public depuis plusieurs décennies déjà. Véritables moteurs de recherche évolués, ce sont des solutions clairement adaptées aux problématiques de Data Journalism et sans doute à certaines attentes des utilisateurs de Search Engines grand public. Tentative de panorama.

Les mythes véhiculés par les médias audiovisuels prenant comme sujet la machine détentrice de connaissance absolue ne se comptent plus : le paradigme s'étend de 3PO dans Star Wars à Ziggy dans Code Quantum. Une bonne part de ces mythes sont matérialisés par les systèmes de Q/A - ou Q/R pour "Questions/Réponses" en français dans le texte. N'étant pas spécialiste de mythocritique, je vous propose quelques pistes pour vous faire une idée de ce qu'est un système de Q/A.

Q/A, c'est quoi ? Très simplement, un système de Q/A est un moteur de recherche, en ce qu'on adresse une question (une requête) au système et qu'on en attend un ou plusieurs résultats pertinents quant à une requête donnée. Comme un moteur de recherche, un système de Q/A fait appel à des fonctionnalités de recherche documentaire - pour fouiller un ensemble de documents - et inclut des calculs de pertinence - pour retourner à l'utilisateur des documents susceptibles de contenir la/les réponse(s) adéquate(s).

Pourquoi donc parler de "moteur de recherche évolué" ? Parce qu'à la différence d'un moteur de recherche traditionnel, un système de Q/A intègre des modules de traitement linguistique un peu plus complexes : d'une part, il doit traiter des questions, et non des séries de mots-clés; d'autre part, il doit retourner soit une réponse (ou une série de réponses) pertinente, soit un passage textuel (ou une série de passages) comportant la réponse à la question. Par exemple, imaginons le scénario suivant, dans le cadre d'un système de Q/A basé sur Wikipédia en français :
Question :

Quand Jacques Chirac est-il né ?

Réponse (basée sur la page Wikipédia en français dédiée à Jacques Chirac) :

Jacques Chirac est né le 29 novembre 1932

On imagine bien la complexité des traitements impliqués, étant donnée la variété des formulations possibles pour une même question, la sélection de sources documentaires fiables, sans même parler de points plus spécifiques (traitement des Entités Nommées, typage des questions,...), sans même se placer dans un contexte multilingue. Bref, la conception de tels système est bien loin d'être une mince affaire!

Et aujourd'hui, quels exemples concrets ? Reprenons un peu l'actualité de quelques acquisitions, par exemple, des firmes de Redmond et de Mountain View :

Qu'en dire ? Au moins que les systèmes de Q/A intégralement automatiques ne sont pas viables dans un contexte de "real life", et ne sont qu'encore partiellement efficaces sur des bases documentaires fermées et thématiquement homogènes (i.e. des ensembles de documents liés au même domaine, par exemple le domaine médical). Les algorithmes implémentés pour cibler des besoins grand public sont donc plutôt conçus pour router les questions vers des humains qui ont le plus de probabilités de pouvoir répondre correctement.

Les intiatives à la Orange ou certaines tentatives de Google (non, je ne bondirai pas une énième fois sur l'emploi plus ou moins impropre de la lexie "sémantique"), illustrent parfaitement l'avenir des systèmes de Q/A : restituer de l'information encyclopédique. Dommage, moi aussi j'aurais aimé continuer à nourrir le fantasme d'avoir un jour un 3PO ou un Ziggy ;)

dimanche 21 février 2010

Goggles : un oeil neuf sur la Traduction Automatique

Goggles, le bien nommé, c'est le type d'application qui représente le mieux ce que Google peut avoir d'idées innovantes pour mettre au point un applicatif qui change (positivement) l'expérience utilisateur sur les terminaux mobiles. M'est avis, bien entendu.

L'Official Google Translate Blog dévoilait, le 17 février dernier, le prototype de Goggles. Le principe ? (1) On prend une portion de texte en photo (2) l'application transmet la photo à un module d'OCR (3) le résultat de l'OCRisation est transmise à un module de traduction automatique (TA), (4) qui renvoie le texte traduit à l'utilisateur final. Une façon judicieuse de mettre au point un procédé en phase avec les besoins utilisateur, en s'appuyant sur des technologies robustes telles que l'OCR. L'application s'appuie, bien entendu, sur Google Translate pour la TA. Le prototype présenté est fonctionnel de l'Allemand vers l'Anglais.

Loin de centrer le propos sur la TA - l'Allemand et l'Anglais, couple de langues entre lesquelles les proximités linguistiques sont fortes, me semble un choix logique pour valider un processus expérimental -, c'est plutôt le caractère innovant, au sens d'innovation dans l'expérience utilisateur, de Goggles qui retient l'attention.

Un procédé efficace, qui concrétise un peu plus l'ouverture au grand public des technologies de TAL : à quand la suite ? En attendant, vous pouvez voir la présentation du prototype de Goggles par Hartmut Neven, Google Scientist , pour concrétiser votre idée sur tout ça :


La démo de Goggles, par Hartmut Neven, Google Scientist

mercredi 17 février 2010

Bing Maps : un coup de maître en préparation

Ce n'est pas à une vieille guenon qu'on apprend à faire la grimace... ou comment Microsoft Bing prend des allures de kishi face à Google Search.

L'upgrade de Bing Maps, annoncée le 10 novembre 2009 sur le blog de Bing avait été fort bien reçue. On note en particulier Frogz, GénérationNT, le JdG, pour les échos francophones, en décembre dernier. TechCrunch US en parlait dès novembre, Mashable US n'était pas en reste et a notamment fourni de très bons insights, en particulier sur les features de synchronisation avec la géolocalisation de tweets.

Je découvre fort tardivement, non sans délices - merci à l'ami A.G. d'avoir comblé ma part d'inculture - les nouveautés annoncées pour la mouture de Bing Maps à venir. Une exclamation d'agréable surprise m'a échappé en découvrant cette boîte de Pandore, de mon petit point de vue de novice en fonctionnalités de recherche géographique. La découverte a commencé chez MacGeneration - A.G. est un pure Apple fanboy ;) - et très vite, les onglets de navigation ont poppé. Ici, , , et , entre autres liens plus ou moins bien heureusement arrangés dans ce billet.

Un nouvel algorithme intégrant des données sur la géométrie des immeubles pour un rendu plus réaliste, les bénéfices de SilverLight pour le rendu vectoriel, avec, cherry on top, la fameuse synchronisation avec l'API de géolocalisation Twitter. Voyez donc :

Les tweets géolocalisés sur Bing Maps (piqué chez Mashable) Une très belle illustration, piquée de l'un des très bons billets de Ben Parr chez Mashable

Enfin, ne renoncez pas à ce plaisir des mirettes qu'est ce talk de Blaise Aguera y Arcas (Microsoft Labs) :


La démo de Blaise Aguera y Arcas pendant son talk au dernier TED.

Autant dire qu'après avoir vu ça, on a juste envie de donner un pot de co-enzyme Q10 à Google Street View, ce que formule délicieusement Ben Parr chez Mashable:

Clearly Bing wants to make Google Maps (Google Maps) seem prehistoric with its Silverlight-based interface. And from what we’ve seen in today’s demo at Bing’s San Francisco headquarters, it’s incredibly impressive.

Sans doute la firme de Mountain View prépare-t-elle une mise à jour de Street View, sans fesses à l'air et qui lui fera un meilleur Buzz ;)

A voir pour tout savoir sur les technos Microsoft et .NET, le blog d'un ami vrai spécialiste du sujet : BlogMyMind. Avis aux éclairés qui veulent suivre l'actu des frameworks Microsoft, avec liens à l'appui, sur SilverLight 3 ou Visual Studio, par exemple. De la bonne lecture pour dév, tout ça!

samedi 13 février 2010

Emulations et Google killing II

Le keynote 2010 de Steve Jobs inaugure un climax qui tiendra en haleine les webbeurs pour les semaines et mois à venir. Apple diversifie son offre avec sa tablette, mais ce que tient Steve Jobs en main n'est peut-être rien de plus qu'un arbre qui cache la forêt. Allons donc nous promener dans les bois, là où s'augure une guerre de territoires bien plus globale qu'il n'y paraît. Cela va ressembler à une partie de Risk en live et en 3D...

Un des grands maux de la Pomme ? Ne pas souffrir de se faire croquer un autre morceau par l'arrivée du Google Phone. Car c'est bien là le grand malheur de ce beau fruit : alors que la concurrence s'intensifie sur le marché des terminaux dédiés au web mobile, Apple offre encore au moteur de recherche de Mountain View une superbe fenêtre d'exposition. Les iPhoners passent, entre autres, par Google Search pour explorer le web, tandis que Google structure une flotte de terminaux mobiles à sa couleur, qui confine les utilisateurs dans GoogleLand! Déloyale concurrence, n'est-il pas ?

Et pourtant, Steve Jobs pourrait rendre la monnaie de leur pièce à Larry Page et Sergey Brin.

Réfléchissons-y un instant. Tout d'abord, les fonctionnalités de recherche de contenus sous Mac OS X sont extrêmement robustes. La solution d'indexation et de recherche de ce système d'exploitation permet déjà d'outrepasser des verrous, tels que le passage de la recherche plein-texte à la recherche de contenus multimédia. Ensuite, la popularité croissante d'Apple, qui entraîne de plus en plus le grand public, assure à la Pomme une très forte pénétration du marché. Troisième point, la fidélisation d'au moins 75 millions d'utilisateurs emportés par Mac OS X si Wikipédia ne ment pas via les différents terminaux (iPhone, iPodTouch, postes fixes, et maintenant l'iPad) offre un pool de cibles qualifiées plutôt très étendu. Enfin, les applications iPhone, notamment, constituent une entrée privilégiée sur les données utilisateurs, donc sur l'étude et l'évolution des moeurs sociodigitales.

Après cet instant de réflexion, on distingue un peu mieux ce qui se trame dans la forêt, n'est-il pas ? Un Apple Search, pardi! L'idée n'est pas si farfelue, et le temps infirmera (ou pas) si la Pomme entre dans la guerre des Search Engines. Ce me semble en tous cas une perspective logique, dont le nez fin de Steve Jobs n'a pu manquer les effluves.

vendredi 5 février 2010

Siri arrive sur l'iPhone!

Alors, ça, c'est fait... Un très joli coup by SRI International, dont on regrette qu'il ne retentisse pas en Europe!

Siri, qui petit à petit fait son nid, je vous le disais, depuis le printemps dernier, arrive maintenant sur l'iTunes Store d'Apple : depuis hier, l'application Siri pour iPhone est disponible! mais seulement aux USA... dommage

http://blog.louisgray.com/2010/02/siri-brings-artificial-intelligence-to.html?utm_source=feedburner&utm_medium=twitter&utm_campaign=Feed%3A+LouisgraycomLive+(louisgray.com)&utm_content=Twitter

Les premières réactions postées à son sujet sur son étagère du Store ont plutôt une tonalité positive, voire même extatique :

A great app. Siri was able to figure out nearly everything I asked! A must have

I had read about the Siri service but was stunned with both the accuracy and efficacy of early use of this application. It seems to do what I want all apps to do, which is "just work." Not a big learning curve, except to figure out how many things Siri can do. Wonderful!

J'avais déjà abordé sur ce blog la bonne facture des bases de connaissances, l'appareillage ontologique et l'efficience des algorithmes d'apprentissage implémentés dans Siri. Ces qualités n'avaient d'ailleurs pas échappé à Marissa Mayer, VP Search Products & User Experience de Google, qui les rassemblait dans sa définition du "perfect search engine".

On reporte quelques bugs, mais ça ne l'empêchera sans doute pas de remporter un vif succès! A quand le portage sur les autres smartphones?

A voir pour tout savoir : Jetez-vous avec délectation sur cet excellent post de Louis Gray, qui vous dit tout (premiers tests, informations sur le moteur de reconnaissance vocale développé par Nuance et autres joyeuseries) sur cette belle appli!

lundi 25 janvier 2010

Les Australiens, leaders de l'audience sur les réseaux sociaux

Dans une récente étude, rendue publique le 22 janvier dernier, le renommé institut Nielsen annonçait sur son blog, le NielsenWire, quelques unes des tendances majeures de la consommation des médias sociaux.

A partir de résultats agrégés entre 2007 et 2009, les premiers éléments donnés à voir confirment les changements globaux chez les internautes : l'explosion de Facebook, le relatif déclin de MySpace, l'exponentielle croissance de Twitter, entre autres choses dont nombre d'entre vous ont déjà entendu parler.

social-media-Nielsen09.png

Le temps moyen par internaute sur un service de réseau social a quasiment doublé en un an, de même que l'audience de ces services (mesurée en VU).

social-network-growth_Nielsen09.png

La consommation des internautes américains est particulièrement vorace de Facebook et Twitter (ce dont les Trending Topics de ce dernier donnent une belle preuve jour après jour). Mais là où ça devient vraiment fort, c'est ensuite...

Si les USA capitalisent toujours la plus forte audience (en VU) sur ces services de réseau sociaux, en proportion ils sont nettement moins bons que l'Australie! Je vous laisse admirer la beauté du tableau de données ci-après.

Nielsen_TableauDonnees_SocialMedia09.png

Amis Australiens, toutes mes félicitations! Il ne manque plus qu'une petite étude des moeurs sociodigitales pour expliciter ce phénomène avec un peu de consistance...

dimanche 24 janvier 2010

Parution : note de lecture dans la revue TAL

Le numéro 50:1 Varia 2009 de la revue TAL vient de paraître.

Un petit mot très rapide pour vous annoncer la publication de l'une de mes notes de lectures dans cette revue de référence du domaine!

Vous y aviez eu accès en avant première, via un billet de septembre dernier : Opinion Mining and Sentiment Analysis, Pang and Lee (2008). Un grand merci à Denis Maurel, qui a supervisé cette rubrique!

Je vous invite à aller consulter le sommaire de ce numéro, dirigé par Béatrice Daille, Yves Lepage, Éric Villemonte de La Clergerie et François Yvon.

Vous pouvez accéder directement à la rubrique ''Notes de lecture'' de la revue TAL : bonne lecture!

samedi 9 janvier 2010

Moteur de recherche, téléphonie & énergies renouvelables : Grand écart ou stratégie Gagnante?

Cela ressemble à un scénario alternatif de victoire totale par conquête commerciale et conversion culturelle dans Civilization, le mythique jeu conçu par Sid Meier.

La Grande faim du Géant de la recherche est décidément bien omnivore! En pleine période d'excitation générale du Web autour de la sortie du Nexus One, la nouvelle a presque toutes les chances de passer inaperçue. Mais elle étaie si bien le tournant qu'est en train de prendre la firme de Mountain View que ne pas en parler est tout bonnement impensable. De quoi donc, au fait?

Publiée sur Twitter par @sheagunther il y a moins de 24 heures, l'annonce du lancement de l'offre Google Energy est très rapidement reprise par le Huffington Post - suscitant au passage un petit buzz international, essaimé depuis le Canada jusqu'en Belgique et en France ici et , ou encore relayé par l'agrégateur ContinentalNews, pour ne pas poursuivre plus longuement l'énumération.

Nous étions pourtant prévenus dès le 10 janvier 2008, par un post sur le blog officiel de Google :

This year Google has invested more than $45 million in startup companies with breakthrough wind, solar and geothermal technologies through our Renewable Energy Cheaper than Coal initiative (RE<C)

Progress will accelerate when the price of carbon reflects its true costs to society. Putting a price on carbon through cap-and-trade or a carbon tax would help address this.

Voilà grosso modo pour les chiffres et l'esprit bien-pensant. On distingue entre les lignes quelques dents longues qui reluisent (encore emballées d'esprit bien-pensant) : c'est là que ça devient intéressant :

When homes are equipped with smart meters and real-time pricing, research shows that energy use typically drops. Google is looking at ways that we can use our information technology and our reach to help increase awareness and bring better, real-time information to consumers.

Je parlais d'un Google Blitz en marche et d'un intérêt croissant du géant américain pour l'analyse des comportements des internautes. Le marketbabble développé autour de Google Energy concrétiserait-il un switch bigbrotheresque?

En tous cas, c'est sûr qu'avec la quantité et la variété des données capitalisées, il y aura de quoi prendre un pas décisif sur la bulle DataVizualization, en passe d'exploser bientôt, qui entraînera sans doute dans son souffle un renouveau du DataMining et du SemanticSearch.

mercredi 6 janvier 2010

Le Google Blitz est en marche

Il y a un an à peine s'élevaient encore les voix de quelques sceptiques quant à l'arrivée de Google sur le marché de la téléphonie.

Le Nexus One sort aujourd'hui aux USA - arrivée programmée au printemps en Europe -, et si certains se prêtent au jeu de l'émerveillement et des supputations sur le volume du "Google marketing muscle" déployé pour le promouvoir, le web fourmille déjà de questions sur la prochaine glissade du singe de la firme de Mountain View sur le grand goban des TIC globales - à l'image d'ActuAbondance qui posait hier une question qui n'est que rhétorique : Une tablette Google après le smartphone et le netbook?

Tout frais posté, le dernier billet de l'Official Google Blog feint la nouvelle stratégie de vente, titrant sans hésiter Our new approach to bying a mobile phone :

today we're pleased to announce a new way for consumers to purchase a mobile phone through a Google hosted web store

Vendre un téléphone mobile unlocké? Une stratégie pourtant déjà rôdée, entre autres par Nokia. Vendre exclusivement en ligne? Plus très novateur en 2010. Reste à voir comment Google va tirer profit de sa force de frappe pour appâter le web-chaland, sans risquer de souiller sa légendaire page d'accueil à l'allure spartiate - qui doit coûte que coûte continuer à inspirer "la recherche au service de l'internaute lambda" - sans pour autant rater le temps de cerveau disponible du client lambda.

A ce sujet aussi, les supputations vont bon train :

Already seen a couple Nexus One ads on sites using Adsense

rapporte @nferno commentant l'un des billets de TechCrunch sur la sortie du Nexus One.

nexus one google ad on my rss feed of this article…. and hey, maybe someone will google wave it, lol

ironisent d'autres lecteurs, tandis que se profile déjà une guerre de joutes entre Google et Apple fanboys.

Ce qui est sûr, c'est qu'un vent de superlativité souffle sur la créativité lexicale donnée à voir dans le discours de Mario Queiroz, VP of Product Management de Google (auteur affiché du billet cité plus haut et paru sur l'Official Google Blog)

The Nexus One belongs in the emerging class of devices which we call "superphones."

Un peu too much pour un terminal mobile dont on murmure qu'il serait dépourvu de fonctionnalités multitouch et de copié/collé? Peut-être. Mais la question n'est à n'en pas douter plus celle-là. Oublions l'arbre et intéressons-nous à la forêt : qu'importe le qu'en-dira-t-on sur les différents dispositifs brandés Google, il faut surtout souligner l'arrivée du géant de la recherche là où il n'était pas forcément attendu. Un pied dans le plat de la téléphonie mobile et des terminaux web, soit. Ce pas est petit est ce n'est que le premier.

Un pronostic? Le prochain pied sera dans le plat des opérateurs traditionnels qui n'ont ni la technologie, ni les investissements pour coloniser des espaces encore vierges de réseaux téléphoniques.

- page 1 de 10