MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

dimanche 21 février 2010

Goggles : un oeil neuf sur la Traduction Automatique

Goggles, le bien nommé, c'est le type d'application qui représente le mieux ce que Google peut avoir d'idées innovantes pour mettre au point un applicatif qui change (positivement) l'expérience utilisateur sur les terminaux mobiles. M'est avis, bien entendu.

L'Official Google Translate Blog dévoilait, le 17 février dernier, le prototype de Goggles. Le principe ? (1) On prend une portion de texte en photo (2) l'application transmet la photo à un module d'OCR (3) le résultat de l'OCRisation est transmise à un module de traduction automatique (TA), (4) qui renvoie le texte traduit à l'utilisateur final. Une façon judicieuse de mettre au point un procédé en phase avec les besoins utilisateur, en s'appuyant sur des technologies robustes telles que l'OCR. L'application s'appuie, bien entendu, sur Google Translate pour la TA. Le prototype présenté est fonctionnel de l'Allemand vers l'Anglais.

Loin de centrer le propos sur la TA - l'Allemand et l'Anglais, couple de langues entre lesquelles les proximités linguistiques sont fortes, me semble un choix logique pour valider un processus expérimental -, c'est plutôt le caractère innovant, au sens d'innovation dans l'expérience utilisateur, de Goggles qui retient l'attention.

Un procédé efficace, qui concrétise un peu plus l'ouverture au grand public des technologies de TAL : à quand la suite ? En attendant, vous pouvez voir la présentation du prototype de Goggles par Hartmut Neven, Google Scientist , pour concrétiser votre idée sur tout ça :


La démo de Goggles, par Hartmut Neven, Google Scientist

samedi 13 février 2010

Emulations et Google killing II

Le keynote 2010 de Steve Jobs inaugure un climax qui tiendra en haleine les webbeurs pour les semaines et mois à venir. Apple diversifie son offre avec sa tablette, mais ce que tient Steve Jobs en main n'est peut-être rien de plus qu'un arbre qui cache la forêt. Allons donc nous promener dans les bois, là où s'augure une guerre de territoires bien plus globale qu'il n'y paraît. Cela va ressembler à une partie de Risk en live et en 3D...

Un des grands maux de la Pomme ? Ne pas souffrir de se faire croquer un autre morceau par l'arrivée du Google Phone. Car c'est bien là le grand malheur de ce beau fruit : alors que la concurrence s'intensifie sur le marché des terminaux dédiés au web mobile, Apple offre encore au moteur de recherche de Mountain View une superbe fenêtre d'exposition. Les iPhoners passent, entre autres, par Google Search pour explorer le web, tandis que Google structure une flotte de terminaux mobiles à sa couleur, qui confine les utilisateurs dans GoogleLand! Déloyale concurrence, n'est-il pas ?

Et pourtant, Steve Jobs pourrait rendre la monnaie de leur pièce à Larry Page et Sergey Brin.

Réfléchissons-y un instant. Tout d'abord, les fonctionnalités de recherche de contenus sous Mac OS X sont extrêmement robustes. La solution d'indexation et de recherche de ce système d'exploitation permet déjà d'outrepasser des verrous, tels que le passage de la recherche plein-texte à la recherche de contenus multimédia. Ensuite, la popularité croissante d'Apple, qui entraîne de plus en plus le grand public, assure à la Pomme une très forte pénétration du marché. Troisième point, la fidélisation d'au moins 75 millions d'utilisateurs emportés par Mac OS X si Wikipédia ne ment pas via les différents terminaux (iPhone, iPodTouch, postes fixes, et maintenant l'iPad) offre un pool de cibles qualifiées plutôt très étendu. Enfin, les applications iPhone, notamment, constituent une entrée privilégiée sur les données utilisateurs, donc sur l'étude et l'évolution des moeurs sociodigitales.

Après cet instant de réflexion, on distingue un peu mieux ce qui se trame dans la forêt, n'est-il pas ? Un Apple Search, pardi! L'idée n'est pas si farfelue, et le temps infirmera (ou pas) si la Pomme entre dans la guerre des Search Engines. Ce me semble en tous cas une perspective logique, dont le nez fin de Steve Jobs n'a pu manquer les effluves.

mercredi 6 janvier 2010

Le Google Blitz est en marche

Il y a un an à peine s'élevaient encore les voix de quelques sceptiques quant à l'arrivée de Google sur le marché de la téléphonie.

Le Nexus One sort aujourd'hui aux USA - arrivée programmée au printemps en Europe -, et si certains se prêtent au jeu de l'émerveillement et des supputations sur le volume du "Google marketing muscle" déployé pour le promouvoir, le web fourmille déjà de questions sur la prochaine glissade du singe de la firme de Mountain View sur le grand goban des TIC globales - à l'image d'ActuAbondance qui posait hier une question qui n'est que rhétorique : Une tablette Google après le smartphone et le netbook?

Tout frais posté, le dernier billet de l'Official Google Blog feint la nouvelle stratégie de vente, titrant sans hésiter Our new approach to bying a mobile phone :

today we're pleased to announce a new way for consumers to purchase a mobile phone through a Google hosted web store

Vendre un téléphone mobile unlocké? Une stratégie pourtant déjà rôdée, entre autres par Nokia. Vendre exclusivement en ligne? Plus très novateur en 2010. Reste à voir comment Google va tirer profit de sa force de frappe pour appâter le web-chaland, sans risquer de souiller sa légendaire page d'accueil à l'allure spartiate - qui doit coûte que coûte continuer à inspirer "la recherche au service de l'internaute lambda" - sans pour autant rater le temps de cerveau disponible du client lambda.

A ce sujet aussi, les supputations vont bon train :

Already seen a couple Nexus One ads on sites using Adsense

rapporte @nferno commentant l'un des billets de TechCrunch sur la sortie du Nexus One.

nexus one google ad on my rss feed of this article…. and hey, maybe someone will google wave it, lol

ironisent d'autres lecteurs, tandis que se profile déjà une guerre de joutes entre Google et Apple fanboys.

Ce qui est sûr, c'est qu'un vent de superlativité souffle sur la créativité lexicale donnée à voir dans le discours de Mario Queiroz, VP of Product Management de Google (auteur affiché du billet cité plus haut et paru sur l'Official Google Blog)

The Nexus One belongs in the emerging class of devices which we call "superphones."

Un peu too much pour un terminal mobile dont on murmure qu'il serait dépourvu de fonctionnalités multitouch et de copié/collé? Peut-être. Mais la question n'est à n'en pas douter plus celle-là. Oublions l'arbre et intéressons-nous à la forêt : qu'importe le qu'en-dira-t-on sur les différents dispositifs brandés Google, il faut surtout souligner l'arrivée du géant de la recherche là où il n'était pas forcément attendu. Un pied dans le plat de la téléphonie mobile et des terminaux web, soit. Ce pas est petit est ce n'est que le premier.

Un pronostic? Le prochain pied sera dans le plat des opérateurs traditionnels qui n'ont ni la technologie, ni les investissements pour coloniser des espaces encore vierges de réseaux téléphoniques.

vendredi 27 novembre 2009

Le cas "Michelle Obama" : qualité des algorithmes vs. qualité éthique, le nouvel enjeu des moteurs de recherche

Et si la qualité technique des algorithmes ne suffisait plus à assurer la qualité éthique des résultats?

C'est une question-ricochet à l'information relayée hier par ActuAbondance, dans un article explicitement intitulé Google Images renvoie des photos racistes sur Michelle Obama. Point d'utilité à trop discourir sur la nature de ces contenus, voyez plutôt :

michelle-obama-1.jpg

Quand bien même à l'heure actuelle le caractère politiquement correct des résultats de recherche d'image sur la first lady est rétabli, ActuAbondance rapporte clairement la position de Google sur la question :

Google, tout en s'excusant auprès de la femme de chef de l'état, a expliqué qu'il ne supprimerait pas cette image et qu'il ne modifierait pas son algorithme en conséquence car ce dernier ne fait que refléter le contenu du Web.

Je ne peux m'empêcher de trouver là un écho au précédent billet posté ici, qui traitait du dépôt de brevet par Yahoo! d'un algorithme de recherche incluant une intervention humaine, et ce dans le but d'améliorer la qualité des résultats de recherche.

Alors qu'une réflexion profonde sur l'éthique du Net fait couler les chaînes de caractères un peu partout sur le Web, du fait de son impact sur la circulation et la qualité de l'information, le positionnement de Yahoo! - donc les conséquences sur les algorithmes de recherche implémentés dans Bing, le moteur de Microsoft - prend une toute autre envergure.

Le tollé venu des internautes US annonce clairement la couleur : outre les performances de rapidité ou encore de facilité de navigation, l'un des prochains enjeux sera pour eux d'avoir une véritable qualité éthique des résultats de recherche. Parce que la qualité du contenu diffusé fait aussi la qualité du support... l'on attend d'un moteur presque autant que d'un journal. Et les feuilles de chou ne seront probablement pas plébiscitées.

mercredi 11 novembre 2009

Siri : le 'Perfect Search Engine' de Marissa?

On avait consacré un billet à l'assistant virtuel Siri, qui a un peu fait parler de lui en mai dernier. Sans plus de bruit que cela, faut-il préciser : Siri avait trouvé un Web un peu sourd à ses potentialités.

Sorti par la porte, il revient par l'une des plus belles fenêtres, sous la forme allégorique d'une définition du Perfect Search Engine by Marissa Mayer herself!

A la question :

What is the perfect search engine? If you had a magic wand and could create it, what would it look like? What would it do?

la blonde Vice President of Search Product and User Experience de Google, dont on suppute deci-delà qu'elle pourrait aller voir ailleurs si le Perfect Search Engine y est, a répondu :

It would be a machine that could answer that question, really. It would be one that could understand speech, questions, phrases, what entities you’re talking about, concepts. It would be able to search all of the world’s information, (find) different ideas and concepts, and bring them back to you in a presentation that was really informative and coherent.

Fort bien, c'est précisément l'objectif de Siri, bien accueilli par la Technology Review du MIT en mars/avril. Cet assistant virtuel, fait de la reconnaissance vocale, implémente sans doute nombre ontologies, mais exploite surtout fort bien les algorithmes d'apprentissage, qui lui confèrent souplesse et autonomie.

Petit Siri ne devrait pas tarder à devenir très grand, comme je le laissais entendre dans le billet de mai qui lui était consacré. Une User Experience à faire, Marissa?

dimanche 4 octobre 2009

"Google's not a content company" : E. Schmidt sur le web, la presse et le journalisme

Une petite pensée aux connaissances web-journalistiques, qui ne doivent pas manquer de prêter l'oreille aux mots de Schmidt...

Danny Sullivan, chez SearchEngineLand, propose une série d'articles suite à son interview d'Eric Schmidt, CEO de Google depuis 2001, au sujet de la stratégie du leader de la recherche en ligne par rapport aux producteurs et éditeurs de contenus.

Le contexte ambiant, qui combine mutations de la presse off et online, apparition de web services dédiés - Fast Flip chez Google, la bonne initiative du Newspaper Consortium chez Yahoo! - , et plus généralement la mise à disposition des ressources culturelles bibliographiques et journalistiques notamment, oriente l'échange des deux protagonistes autour de la question de la fonction de Google dans l'univers Web - puisqu'il n'est plus besoin de disserter sur sa position de leader incontesté, pour l'instant.

Schmidt affirme :

We need these content partners to survive. We need their content. We are not in the content business. So, you could decide that we’re just evil businessmen trying to give money to the newspapers through the Fast Flip revenue shari..., or you could decide that we’re altruistic and trying to save an important Fourth Estate of American political discourse. Whichever one leads to the same outcome. I hope you believe the second. But even if you believe the first, it’s still good business. We need their content.

Google a besoin de contenu, il innove donc en élaborant de nouveaux outils de gestion et de production de contenus à destination du plus grand nombre. Du contenu qu'il peut se réapproprier aussitôt : je pense en particulier à la prochaine indexation de vos Google Docs, qui mérite un peu d'attention tout de même. On n'aura donc pas d'information produite par Google en dehors de la communication traditionnelle autour de ses technologies.

Pour aller plus loin, lisez les positions de Schmidt :

samedi 12 septembre 2009

Emulations et Google-killing (by M & Q)

  • Solutions grand public : pourquoi confondre "search" et "computational" engines?

Courant mai, la sortie de Wolfram Alpha avait fait son bruit, de bonne qualité m'est avis, comme on le disait ici. Wolfram incarnait alors l'archétype de l'outil de niche, l'outil "geek-profiled", pas forcément compatible avec la recherche grand public telle qu'on la connaît depuis une bonne décennie. Et à raison, parce que Wolfram n'a pas vocation à indexer l'Internet, mais à fournir des calculs complexes sur une pléiade de domaines de connaissances calculables.

ZDNet.fr publiait, début juin, un intéressant comparatif sur les performances de Bing vs. Google, lequel mettait en exergue avantages et faiblesses de chacun des protagonistes. On retiendra, entre autres, que Google a toujours de l'avance sur la pertinence des réponses, même si Bing apporte quelques fonctionnalités intéressantes (display de la recherche d'images, par exemple). J'ajouterais que la gestion de l'appariement est assez raffinée chez Google, ceci contribuant sans doute à expliquer cela.

Un peu plus tardivement dans le mois, TechCrunch US titrait :

When It Comes To Search Trends, Google Is Lagging Behind Bing

On pouvait lire, un peu plus loin dans l'article :

On Google, you can create charts showing the popularity of keywords using Google Trends. On Bing, this feature is called xRank. For all but the most popular terms, Google Trends shows a lag of about three days, whereas xRank shows data that is up to date as of today.

Et Eric Shonfeld de souligner que This may not be a major feature, but it shows a weakness in Google’s armor : cela auguré par le co-auteur de TechCrunch-Us, ça valait le coup d'être quoté!

Toutes choses égales par ailleurs, Bing est plutôt bien accueilli, malgré des habitudes de recherche généralistes fortement liées à Google : Bing gagnait 8% de VU sur le mois de juin 2009, et Google le reconnaissait fin juillet comme l'alternative à la Google-search.

Septembre. Pour la rentrée, Cuil - dont on a parlé ici il y a plus d'un an maintenant et qui s'est modestement rebaptisé "the world's biggest search engine" - a étendu son indexation aux contenus d'actualité, comme l'annonçait ActuAbondance il y a quelques jours de cela. Yuba, - qui vole pour le moment en dessous des radars du web et dont on ne reparlera pas dans ce billet - refait parler de lui, avec une année de plus également. Ils avaient participé au concours TheSearchRace l'an dernier - remporté par iSeek pour la petite histoire -, et soufflent donc leur première bougie en 2009.

  • Mais qu'en dit Alexa?

Un petit tour sur Alexa devrait permettre de se donner un point de vue sur l'évolution de ces différents acteurs de la recherche en ligne. Voyons donc...

alexa-big_three-google_yahoo_bing_wolfram.PNG

A première vue, rien de trop nouveau sous le soleil : Google est toujours la référence, suivi de relativement près par Yahoo!. Quant à Bing, il a trouvé une place et s'y tient malgré tout.

alexa-wolfram_cuil.PNG

Cuil, stable sur les 6 derniers mois tout du moins, n'a pas pâti de l'arrivée de Wolfram Alpha. A noter tout de même que sur le mois d'août, leurs mouvements respectifs en termes de pagerank sont assez synchrones, ce qui conforte l'idée de non concurrence entre ces nouveaux moteurs.

Décidément, comme on avait commencé à le dire ici, Wolfram Alpha ne devrait pas être inclus dans le paradigme des "search engines", puisqu'il n'en est pas un : son positionnement est explicable par son statut de "computational engine". L'ami Q a d'ailleurs une bonne métaphore sur la question :

Wolfram Alpha est à Google et consorts ce qu'une équipe de rugby est à une équipe de football : des gens qui ne jouent pas du tout le même jeu et n'ont rien à faire sur le même terrain.

A noter qu'environ un an après l'acquisition de Powerset par Microsoft, la firme de Steve Ballmer initie un rapprochement entre Bing et Wolfram Alpha. Bing entrerait donc dans l'innovation par la porte du "natural language + computational search inside". Et Q de rajouter :

Mais qu'est-ce qu'une équipe de foot va bien pouvoir faire avec des rugbymen? L'avenir nous le dira, mais on peut d'ores et déjà prévoir des confrontations musclées...

Le point de vue de Q d'après les statistiques Alexa :

parts_google-yahoo-bing.PNG

La diversification des activités de Google et Yahoo! fait que ces statistiques ne peuvent être prises pour argent comptant. En effet, sur la totalité des visiteurs de Yahoo! et Google, une partie non négligeable ne visite pas le moteur de recherche en propre, mais bien le webmail. Or, les statistiques de Bing ne reflètent qu'une pure utilisation de recherche, la fréquentation du webmail de Microsoft -mail.live.com- étant bien séparée de la fréquentation de Bing -bing.com-.

On aurait donc Google qui sur 35% d'internautes en attire 65% (21,78% une fois les comptes effectués) sur la recherche, là où Yahoo, sur ses 26% du total des internautes, n'en voit qu'un petit 10,5% visiter son moteur de recherche (soit 2,72%). Et Bing devancerait donc Yahoo en affichant 3,3% des internautes, tous en recherche.

Si les stats d'Alexa sont un tant soit peu fiables, et si mon raisonnement n'est pas faussé par le jéroboam de palinka qu'on vient de descendre, Bing pourrait être déjà le numéro 2 de la recherche en ligne.


  • Et après...

... une tendance qui devrait s'intensifier. Le récent rapprochement de Yahoo! et Microsoft - fruit d'une négociation longue et riche en rebondissements - a suscité des interrogations chez certains, des réactions sur les perspectives de développement de cette union chez d'autres. L'avis de Fanck Watson chez SearcEnhineWatch.com :

What impact will it really have? OK, Microsoft's market share will be the combined number of the two companies. Add this to the slight rise Bing has received through the new branding and advertising, and Microsoft may be able to start grabbing a little more of the market from Google.

La très sérieuse étude comScore de juillet dernier, fait le tour de la question :

The analysis reveals that while the two companies’ combined search share still lags Google by a wide margin, their combined search audience offers opportunity to become more competitive in the search marketplace.

Si Bing et Yahoo! parviennent à mieux fidéliser leur audience - point fort à la faveur de Google -, ce dernier pourrait céder une plus grosse part de cake à la concurrence.

Merci à Q pour ses croustillants et pertinents insights sur la question!

jeudi 4 juin 2009

Wolfram a buzzé, Google Labs sort Squared des tiroirs

Image_2.png Un précédent billet donnait quelques éléments en faveur d'une opposition mal posée : Google vs. Worlfram Alpha.
L'idée était de mettre en avant que, non seulement Wolfram Alpha n'avait pas vocation à concurrencer Google, mais que Google commençait à s'inspirer des modèles de restitution des résultats de recherche de son faux outsider. En tous cas, pour ceux qui n'en étaient pas convaincus, on a la preuve tangible que l'information structurée est bien l'avenir des moteurs de recherche grand public.

On pouvait lire début mail sur TechCrunch un excellent billet sur le sujet, dans une perspective comparative à la défaveur de Wolfram Alpha. L'autre membre de la comparaison? Google Squared, très attendu, dont ActuAbondance et TechChunch-fr parlent aujourd'hui.

Nous y voilà : Google s'est bien inspiré de Wolfram Alpha, si la chronologie que donne à voir le web sur ce point peut être estimée fiable. La différence? Wolphram Alpha compute sur quelques dizaines de teraoctets. Avec Squared, Google est en train d'opérer sur le web entier pour que l'utilisateur le perçoive comme mieux rangé, facilitant son accès à l'information "pertinente". Oui, des guillemets. TechChrunch l'avait vu venir de loin, c'est déjà en train de se passer, mais comme la pilule est bien emballée, l'utilisateur l'avalera sans peine :

Turning the Web into a giant database will crush any attempt to segregate the “best” information into a separate database so that it can be processed and searched more deeply.

Une bonne raison pour les internautes de considérer avec précaution la pertinence de la référence nommée Google.

A l'heure où Pasquier prend soin de vous éviter un geste en plus en vous vendant des pains au lait prédécoupés, Google n'est-il pas en train de nous vendre de la pertinence prédécoupée, rongeant un peu plus notre envie de questionner la pertinence du résultat?

jeudi 2 octobre 2008

Google "In Quotes" : déguiser l'analyse d'impact presse en résonance textuelle?

ActuAbondance en parle cette semaine et propose une première petite étude de cas sur les résultats du nouveau service Google : "In Quotes".
Sur le principe, entendons-nous bien, l'idée de pouvoir mettre en regard les citations de deux personnalités publiques sur un sujet identique ne manque certes pas d'intérêt. Par chez nous les TAListes, cette mise en regard est indexée par l'intitulé "résonance textuelle". Je vous recommande d'ailleurs la lecture d'un article d'André Salem, référence en la matière, intitulé ''Introduction à la résonance textuelle'' (JADT'04).
resonanceTextuelleSalemJADT04.jpg
Ce schéma vise à illustrer un phénomène simple : comparer les discours en fonction des occurrences que l'ont peut y identifier, afin de les étudier en contexte, en résonance, justement.

Observons maintenant une page de résultats In Quotes :
InQuotesExample.jpg

L'identification automatique des citations est un problème non trivial en TAL. Peut-on se limiter au segments de texte encadrés par des guillemets? Non, et Google Labs a évité cet écueil en effectuant (je suppute) la reconnaissance automatique des citations en mettant à profit des tournures fréquentes du discours rapporté, du type "Mr. X said".

In Quotes semble bien fonctionner en procédant par reconnaissance de mots-clés, associés de façon univoque à une thématique. Il suffirait donc de trouver une occurrence d'"Iraq" pour que le texte la contenant soit classé dans la thématique "Iraq". Il n'est bien entendu pas question de prendre en compte les paraphrases des noms propres, pourtant largement utilisées dans le discours journalistique, comme par exemple "Baghdad" (le nom de la capitale du pays en question est souvent utilisée pour renvoyer au pays lui-même), pour ne prendre que cet exemple.

Autre remarque sur l'alignement d'In Quotes : il n'y en a pas, tout du moins les extraits de texte restitués et mis en parallèle ne présentent pas d'alignement par date, par source, par période (la semaine, le mois, par exemple). C'est dommage : il eût été fort commode pour l'utilisateur de pouvoir se faire une idée de la recrudescence de ces "thèmes" (fussent-ils réduits à de simples mots-clés) au cours du temps, en fonction du nombre d'articles et de la personnalité publique à l'origine des citations relayées dans la presse. Le seul point de comparaison est finalement un mot-clé qui apparaît dans les "quotes", ce que ne manque pas de relever TechCrunch : the site doesn’t seem to be utilizing any algorithms to determine how each keyword is used.

Bref, pourquoi proposer un service aussi pauvre, qui ne répond pas à l'attente de pré-analyse de l'information que peut concevoir l'utilisateur?

jeudi 4 septembre 2008

askBoss : le Powerset-like pour images

Quelques feuillets de ce petit carnet Web on été consacrés, çà et , à Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation en langage naturel.

a natural language image search powered by Yahoo Boss and Google App Engine

askBoss, justement, reprend et applique ce mode de consultation des données aux contenus images. Le moteur indexe les noms d'images. A priori, il indexe les chaînes de caractères exactes (au moins un des mots complets saisis dans la boîte de dialogue) et partielles (une des séries de lettres présentes dans au moins un des mots complets saisis dans la boîte de dialogue).
Comparez les résultats de Where am I? (indexation sur la suite am) et Who is Aphex Twin? (indexation sur les mots exacts aphex et twin).

askBoss.jpg

En passant, j'ai beaucoup rit en cherchant Who is Tim Berner's Lee? : des images en ribambelle, mais pas une de l'intéressé avant la deuxième page de résultats. L'aura passe sans doute mieux avec des photos de ses fameux cakes et des illustrations à l'effigie du WorldWideWeb.