MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

vendredi 5 février 2010

Siri arrive sur l'iPhone!

Alors, ça, c'est fait... Un très joli coup by SRI International, dont on regrette qu'il ne retentisse pas en Europe!

Siri, qui petit à petit fait son nid, je vous le disais, depuis le printemps dernier, arrive maintenant sur l'iTunes Store d'Apple : depuis hier, l'application Siri pour iPhone est disponible! mais seulement aux USA... dommage

http://blog.louisgray.com/2010/02/siri-brings-artificial-intelligence-to.html?utm_source=feedburner&utm_medium=twitter&utm_campaign=Feed%3A+LouisgraycomLive+(louisgray.com)&utm_content=Twitter

Les premières réactions postées à son sujet sur son étagère du Store ont plutôt une tonalité positive, voire même extatique :

A great app. Siri was able to figure out nearly everything I asked! A must have

I had read about the Siri service but was stunned with both the accuracy and efficacy of early use of this application. It seems to do what I want all apps to do, which is "just work." Not a big learning curve, except to figure out how many things Siri can do. Wonderful!

J'avais déjà abordé sur ce blog la bonne facture des bases de connaissances, l'appareillage ontologique et l'efficience des algorithmes d'apprentissage implémentés dans Siri. Ces qualités n'avaient d'ailleurs pas échappé à Marissa Mayer, VP Search Products & User Experience de Google, qui les rassemblait dans sa définition du "perfect search engine".

On reporte quelques bugs, mais ça ne l'empêchera sans doute pas de remporter un vif succès! A quand le portage sur les autres smartphones?

A voir pour tout savoir : Jetez-vous avec délectation sur cet excellent post de Louis Gray, qui vous dit tout (premiers tests, informations sur le moteur de reconnaissance vocale développé par Nuance et autres joyeuseries) sur cette belle appli!

lundi 25 janvier 2010

Les Australiens, leaders de l'audience sur les réseaux sociaux

Dans une récente étude, rendue publique le 22 janvier dernier, le renommé institut Nielsen annonçait sur son blog, le NielsenWire, quelques unes des tendances majeures de la consommation des médias sociaux.

A partir de résultats agrégés entre 2007 et 2009, les premiers éléments donnés à voir confirment les changements globaux chez les internautes : l'explosion de Facebook, le relatif déclin de MySpace, l'exponentielle croissance de Twitter, entre autres choses dont nombre d'entre vous ont déjà entendu parler.

social-media-Nielsen09.png

Le temps moyen par internaute sur un service de réseau social a quasiment doublé en un an, de même que l'audience de ces services (mesurée en VU).

social-network-growth_Nielsen09.png

La consommation des internautes américains est particulièrement vorace de Facebook et Twitter (ce dont les Trending Topics de ce dernier donnent une belle preuve jour après jour). Mais là où ça devient vraiment fort, c'est ensuite...

Si les USA capitalisent toujours la plus forte audience (en VU) sur ces services de réseau sociaux, en proportion ils sont nettement moins bons que l'Australie! Je vous laisse admirer la beauté du tableau de données ci-après.

Nielsen_TableauDonnees_SocialMedia09.png

Amis Australiens, toutes mes félicitations! Il ne manque plus qu'une petite étude des moeurs sociodigitales pour expliciter ce phénomène avec un peu de consistance...

dimanche 24 janvier 2010

Parution : note de lecture dans la revue TAL

Le numéro 50:1 Varia 2009 de la revue TAL vient de paraître.

Un petit mot très rapide pour vous annoncer la publication de l'une de mes notes de lectures dans cette revue de référence du domaine!

Vous y aviez eu accès en avant première, via un billet de septembre dernier : Opinion Mining and Sentiment Analysis, Pang and Lee (2008). Un grand merci à Denis Maurel, qui a supervisé cette rubrique!

Je vous invite à aller consulter le sommaire de ce numéro, dirigé par Béatrice Daille, Yves Lepage, Éric Villemonte de La Clergerie et François Yvon.

Vous pouvez accéder directement à la rubrique ''Notes de lecture'' de la revue TAL : bonne lecture!

samedi 9 janvier 2010

Moteur de recherche, téléphonie & énergies renouvelables : Grand écart ou stratégie Gagnante?

Cela ressemble à un scénario alternatif de victoire totale par conquête commerciale et conversion culturelle dans Civilization, le mythique jeu conçu par Sid Meier.

La Grande faim du Géant de la recherche est décidément bien omnivore! En pleine période d'excitation générale du Web autour de la sortie du Nexus One, la nouvelle a presque toutes les chances de passer inaperçue. Mais elle étaie si bien le tournant qu'est en train de prendre la firme de Mountain View que ne pas en parler est tout bonnement impensable. De quoi donc, au fait?

Publiée sur Twitter par @sheagunther il y a moins de 24 heures, l'annonce du lancement de l'offre Google Energy est très rapidement reprise par le Huffington Post - suscitant au passage un petit buzz international, essaimé depuis le Canada jusqu'en Belgique et en France ici et , ou encore relayé par l'agrégateur ContinentalNews, pour ne pas poursuivre plus longuement l'énumération.

Nous étions pourtant prévenus dès le 10 janvier 2008, par un post sur le blog officiel de Google :

This year Google has invested more than $45 million in startup companies with breakthrough wind, solar and geothermal technologies through our Renewable Energy Cheaper than Coal initiative (RE<C)

Progress will accelerate when the price of carbon reflects its true costs to society. Putting a price on carbon through cap-and-trade or a carbon tax would help address this.

Voilà grosso modo pour les chiffres et l'esprit bien-pensant. On distingue entre les lignes quelques dents longues qui reluisent (encore emballées d'esprit bien-pensant) : c'est là que ça devient intéressant :

When homes are equipped with smart meters and real-time pricing, research shows that energy use typically drops. Google is looking at ways that we can use our information technology and our reach to help increase awareness and bring better, real-time information to consumers.

Je parlais d'un Google Blitz en marche et d'un intérêt croissant du géant américain pour l'analyse des comportements des internautes. Le marketbabble développé autour de Google Energy concrétiserait-il un switch bigbrotheresque?

En tous cas, c'est sûr qu'avec la quantité et la variété des données capitalisées, il y aura de quoi prendre un pas décisif sur la bulle DataVizualization, en passe d'exploser bientôt, qui entraînera sans doute dans son souffle un renouveau du DataMining et du SemanticSearch.

mercredi 6 janvier 2010

Le Google Blitz est en marche

Il y a un an à peine s'élevaient encore les voix de quelques sceptiques quant à l'arrivée de Google sur le marché de la téléphonie.

Le Nexus One sort aujourd'hui aux USA - arrivée programmée au printemps en Europe -, et si certains se prêtent au jeu de l'émerveillement et des supputations sur le volume du "Google marketing muscle" déployé pour le promouvoir, le web fourmille déjà de questions sur la prochaine glissade du singe de la firme de Mountain View sur le grand goban des TIC globales - à l'image d'ActuAbondance qui posait hier une question qui n'est que rhétorique : Une tablette Google après le smartphone et le netbook?

Tout frais posté, le dernier billet de l'Official Google Blog feint la nouvelle stratégie de vente, titrant sans hésiter Our new approach to bying a mobile phone :

today we're pleased to announce a new way for consumers to purchase a mobile phone through a Google hosted web store

Vendre un téléphone mobile unlocké? Une stratégie pourtant déjà rôdée, entre autres par Nokia. Vendre exclusivement en ligne? Plus très novateur en 2010. Reste à voir comment Google va tirer profit de sa force de frappe pour appâter le web-chaland, sans risquer de souiller sa légendaire page d'accueil à l'allure spartiate - qui doit coûte que coûte continuer à inspirer "la recherche au service de l'internaute lambda" - sans pour autant rater le temps de cerveau disponible du client lambda.

A ce sujet aussi, les supputations vont bon train :

Already seen a couple Nexus One ads on sites using Adsense

rapporte @nferno commentant l'un des billets de TechCrunch sur la sortie du Nexus One.

nexus one google ad on my rss feed of this article…. and hey, maybe someone will google wave it, lol

ironisent d'autres lecteurs, tandis que se profile déjà une guerre de joutes entre Google et Apple fanboys.

Ce qui est sûr, c'est qu'un vent de superlativité souffle sur la créativité lexicale donnée à voir dans le discours de Mario Queiroz, VP of Product Management de Google (auteur affiché du billet cité plus haut et paru sur l'Official Google Blog)

The Nexus One belongs in the emerging class of devices which we call "superphones."

Un peu too much pour un terminal mobile dont on murmure qu'il serait dépourvu de fonctionnalités multitouch et de copié/collé? Peut-être. Mais la question n'est à n'en pas douter plus celle-là. Oublions l'arbre et intéressons-nous à la forêt : qu'importe le qu'en-dira-t-on sur les différents dispositifs brandés Google, il faut surtout souligner l'arrivée du géant de la recherche là où il n'était pas forcément attendu. Un pied dans le plat de la téléphonie mobile et des terminaux web, soit. Ce pas est petit est ce n'est que le premier.

Un pronostic? Le prochain pied sera dans le plat des opérateurs traditionnels qui n'ont ni la technologie, ni les investissements pour coloniser des espaces encore vierges de réseaux téléphoniques.

Bribes de l'audit d'image de l'Islam online

Moteurs de recherche et religions : des rapports pleins de suggestions?

Matt McGee a mis le doigt sur un bien curieux "bug" de l'incontournable du jour : Google. Curieuse nouvelle circulant ce matin dans le fil RSS de SearchEngineLand, en écho à l'un des derniers billets parus sur TheNextWeb, intitulé Google Blocking Negative Search Recommendations On Islam – Why?

La situation se résume en une phrase :

As The Next Web has reported, typing Islam is into Google shows no terms from Google Suggest.

J'emprunte l'image qui fait preuve :

islam.png

Bien entendu, me prend l'irrésistible envie de faire un comparatif, histoire de voir ce que raconte Google.fr avec une requête analogue : islam est. Surprise! Sur Google France, les résultats de recherche suggérés ont comme des petits relans de débat sur les minarets, ne trouvez-vous pas?

IslamEstUneSecte_GoogleSuggestedResults.png

Bien entendu, avec les requêtes christianisme est, "judaïsme est", catholicisme est ou encore protestantisme est, notre cher et tendre moteur ne nous suggère... rien. A noter tout de même que le bouddhisme semble être source de nombreux questionnements :

BouddhismeEst_google.png

En bref, une bien pernicieuse image de l'Islam sur le Web. Ou plutôt des internautes qui y contribuent. Culturellement dommageable? Indubitablement.

samedi 19 décembre 2009

Avec Guru et Browser Size, Google fait un pas de plus dans l'analyse de nos (inter)actions

Parmi les derniers produits mis en place sur l'étagère Google Labs, ActuAbondance annonçait cette semaine l'apparition de Guru et de Brower Size.

Le principe de Guru rappelle tout de même à notre bon souvenir le pitch du service ChaCha, dont j'avais parlé en octobre 2008 : l'échange entre deux humains pour collaborer à une interaction de type "Requête/Réponse".

Chacha_1.png

On comprend mieux pourquoi en allant lire quelques-uns des ''Fast Facts'' de ChaCha, par exemple :

ChaCha is one of the largest and fastest growing text-based services. ChaCha recently passed Google and is the #1 SMS search service according to Nielsen Mobile.

ChaCha is the fastest growing Top 100 website according to Quantcast and has over 10 Million monthly U.S. unique visitors.

Beau bout de chemin parcouru, pour un service qui concurrait, il y a maintenant plus d'un an, à TheSearchRace by AltSearchEngines - événement dont vous trouverez un excellent wrap-up ici. Pas si surprenant, donc, que ce type de service suscite l'intéret d'un Google qui se met à la téléphonie. Pourquoi pas une évolution vers un service de Questions/Réponses avec de l'expert humain dedans, et qui de sucroît tire parti des nouveaux usages des terminaux de téléphonie mobile?

Quant à Browser Size, comme le disent nos amis d'ActuAbondance :

Le système est simple : vous tapez l'URL d'une page et vous voyez immédiatement, en transparence, les zones les plus vues sur la page par vos visiteurs. Intéressant...

browsersize4.png

                                 Source : Google

Intéressant ? Certainement. Dans un contexte d'exposition web, pour évaluer la qualité ergonomique de la conception d'un site, au moins. Pour du ciblage comportemental, au plus. Google légitime donc quasiment son intérêt pour l'analyse des petits internautes devant leur ordinateur comportements dans le cadre des interactions homme-machine - dont le premier contact est visuel lorsqu'on navigue en ligne - en ouvrant un webservice dédié.

En somme...

Laisser des experts humains gérer la demande de connaissances spécifiques, sans doute en profiter pour appuyer son arrivée sur le secteur de la téléphonie avec Guru +
ouvrir au public des services liés à des technologies qui ne représentent plus un avantage concurrentiel avec Browzer Size =

                     la prochaine bonne équation de Google

vendredi 4 décembre 2009

OpenCalais : une API pragmatique

Semantic Web or Wolrd Wise Web?

OpenCalais.jpg Le projet OpenCalais a soufflé sa première bougie.

Et son arrivée sur le marché des technologies sémantiques est bien reçu par les confréries professionnelles du Web 2.0, en particulier celles gravitant autour de ReadWriteWeb, qui sortait justement cette semaine son top des produits du Web Sémantique (RDF, Linked Data, tout ça tout ça). En témoigne ce message de remerciements adressé à la rédaction de ReadWriteWeb, spotté sur Twitter le 3 décembre 2009 à 18:48 (comme un certain chocolat, signe? Qui sait... bref, je n'ai que trop attendu pour parler de ce Calais ouvert : presque 8 mois, tout de même).

Many thanks to @RWW for including us in their Top 10 Semantic Web Products of 2009 http://bit.ly/5vWo8R

En février 2008, alors que le projet OpenCalais commençait à faire parler de lui, chez Mondeca par exemple, Jean-Marie Le Ray faisait un très bon wrap-up introductif sur les circonstances de la naissance de cet acteur majeur de la donnée avec de la métadonnée augmentée dedans.

Comme le souligne indirectement Nicolas Cynober, qui, je n'en doute point, ne circonscrit pas le traitement automatique des langues naturelles à la simple extraction d'entités nommées, OpenCalais exploite fort bien l'extraction d'information non structurée et sa structuration sur le modèle des Linked Data. Tout cela à grand renfort d'ontologies de relations entre entités, dont il est appréciable que ces ressources, initialement dédiées à l'anglais, aient été étendues au français et à l'espagnol.

Mais, comme la vérité, le sens est ailleurs. Les technologies dites "sémantiques" ne devraient pas donner l'impression - dans la tradition des croyances de l'IA - que le sens est dans un outil de computation. Quand bien même il sait désambiguïser les occurrences d'entités nommées, et quelles que soient sa robustesse, la qualité de ses algorithmes ou encore l'étendue de ses ressources linguistiques.

OpenCalais constitue cependant un véritable progrès : il s'agit là d'un beau projet d'ingénierie, auquel la robustesse technique ne manque pas. En bref, un judicieux outil.

vendredi 27 novembre 2009

Le cas "Michelle Obama" : qualité des algorithmes vs. qualité éthique, le nouvel enjeu des moteurs de recherche

Et si la qualité technique des algorithmes ne suffisait plus à assurer la qualité éthique des résultats?

C'est une question-ricochet à l'information relayée hier par ActuAbondance, dans un article explicitement intitulé Google Images renvoie des photos racistes sur Michelle Obama. Point d'utilité à trop discourir sur la nature de ces contenus, voyez plutôt :

michelle-obama-1.jpg

Quand bien même à l'heure actuelle le caractère politiquement correct des résultats de recherche d'image sur la first lady est rétabli, ActuAbondance rapporte clairement la position de Google sur la question :

Google, tout en s'excusant auprès de la femme de chef de l'état, a expliqué qu'il ne supprimerait pas cette image et qu'il ne modifierait pas son algorithme en conséquence car ce dernier ne fait que refléter le contenu du Web.

Je ne peux m'empêcher de trouver là un écho au précédent billet posté ici, qui traitait du dépôt de brevet par Yahoo! d'un algorithme de recherche incluant une intervention humaine, et ce dans le but d'améliorer la qualité des résultats de recherche.

Alors qu'une réflexion profonde sur l'éthique du Net fait couler les chaînes de caractères un peu partout sur le Web, du fait de son impact sur la circulation et la qualité de l'information, le positionnement de Yahoo! - donc les conséquences sur les algorithmes de recherche implémentés dans Bing, le moteur de Microsoft - prend une toute autre envergure.

Le tollé venu des internautes US annonce clairement la couleur : outre les performances de rapidité ou encore de facilité de navigation, l'un des prochains enjeux sera pour eux d'avoir une véritable qualité éthique des résultats de recherche. Parce que la qualité du contenu diffusé fait aussi la qualité du support... l'on attend d'un moteur presque autant que d'un journal. Et les feuilles de chou ne seront probablement pas plébiscitées.

lundi 23 novembre 2009

L'expert dans le système, le retour

Yahoo! a décidé d'humaniser ses résultats de recherche.

Il y a près d'un mois maintenant, Neteco.com revenait sur l'achèvement d'une course au brevet qui s'est presque éternisée - sept années tout de même - et qui, abrégée, aurait sans doute pas mal redessiné le rapport de force actuel dans le sillon des moteurs de recherche généralistes.

S'il avait été obtenu en 2002 ce brevet aurait permis à Yahoo! de protéger la technologie de son répertoire de sites Internet.

précise d'ailleurs la rédaction de Neteco.com. Mais après tout, qu'a-t-il de si spécial, ce brevet? Humaniser? Non, rien à voir avec le fait de rendre plus humain le moteur de recherche, de policer un affichage frustre pour la restitution des résultats, ni de le civiliser pour lui faire perdre son caractère primitif. Quoique...

Ce petit abus de langage - imprécision, quand tu nous tiens - se comprend mieux avec un dessin. En l'occurrence, dire que Yahoo! humanise ses résultats de recherche signifie tout simplement qu'il y a de l'intervention humaine dedans.

YahooBrevet (Cette figure est reprise de l'article cité ci-dessus chez Neteco.com, dont la provenance originale n'est d'ailleurs pas mentionnée.)

Le brevet en question repose en effet sur un procédé impliquant la présence d'humains pour raffiner les résultats d'algorithmes de recherche. Et Yahoo! de préciser :

« le classement par les intervenants humains permet d'obtenir des résultats plus affinés que par des processus automatiques »

Nous y voilà. Sans insister sur les potentiels bénéfices en termes de qualité qu'en pourrait retirer Microsoft pour son moteur Bing, je veux simplement souligner une tendance convergente entre des acteurs différents qui traitent des facettes variées mais fort semblables de notre manne contemporaine : l'information.

Et mettre le tout en perspective avec les bâts qui blessent de plus en plus sur le segment des social media monitoring technologies, qu'Asi Sharabi passait d'ailleurs au crible en août dernier sur le très bon No Man's Blog. Pour coller à la culture verbatim et vous laisser lire son excellent billet par vous-mêmes, je n'en citerai que cinq mots qui dressent le portrait d'une situation avec laquelle la linguiste que je suis ne peut qu'être d'accord : The technology is fairly stupid. Bien entendu, si on s'en tient à cela, rien ne sert d'écrire. Quelle tendance convergente voit-on émerger alors avec d'autres acteurs du traitement et de l'analyse d'information? La réhabilitation de l'utilisateur expert, pardi!

Dans le petit monde des études médias et de l'analyse d'opinion online, c'est pourtant encore peu habituel, les utilisateurs experts. Connaître le fonctionnement d'un moteur de recherche ou comprendre qu'analyser finement l'information demande une compétence avancée en solutions d'analyse linguistique? La belle affaire! Dans l'encore plus petit monde des éditeurs de logiciels TAL, on transite globalement vers les solutions d'aide aux linguistes. On en trouve même des échos dans le microcosme des spécialistes de l'analyse textuelle, sous la forme d'une linguistique des textes instrumentée.

La qualité d'analyse est à l'information ce que le savoir-faire helvète est à la haute horlogerie. C'est assez naturellement que ces différents acteurs de l'analyse d'information convergeront peu ou prou vers une réflexion méthodologique sur ce qu'il conviendrait plutôt d'appeler l'analyse linguistique assistée par ordinateur (ALAO). Et certains y travaillent d'ailleurs déjà ;)

- page 3 de 12 -