MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 11 novembre 2010

Refine, la brique Google dans la mare de la gestion des grands ensembles de données

Google annonçait hier la sortie de Google Refine, 'a power tool for data wranglers'. Panorama des réactions dans les webtech rédactions.

Dans la sphère web FR, c'est Zorgloob qui a la primeur de l'info et présente les grandes lignes de l'outil dans un post frais de quelques heures. Dans la sphère web US, qui a reçu la news avec quelques heures d'avance, les retombées sont un peu plus nombreuses. Voyons voir...

Data is the new oil, data is the new soil

quelques mots d'un récent talk du data journalist David McCandless, rapportés par Chinmoy Kanjilal pour TechieBuzz.com, sur lesquels il s'appuie pour on ne peut mieux résumer l'objectif du dernier Google move :

Data is raw and unusable without proper management and handling. Google has stepped into this business with its service Google Refine 2.0.

Un business bien juteux et qui augure un changement de paradigme décisif dans les industries de l'information, comme le disait Martin Hayward dans une tribune pour Researchers en mars dernier, et dont je vous parlais dans un précédent billet :

we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

A noter que le post de Klint Finley pour ReadWriteWeb présente rapidement l'outil et insiste surtout sur son caractère opensource. Pour mémoire, un petit rappel historique sur la (re)naissance de Google Refine, que j'emprunte au dernier post de Jolie O'Dell pour Mashable sur le sujet :

Google Refine is a project born of Freebase Gridworks, a data-cleaning tool Google acquired when it bought Metaweb over the summer. Google has since renamed Gridworks and relaunched it as Refine.

Google Refine builds on its Gridworks roots by helping its users correct inconsistencies, changing data formats, extending data sets with data from web sources and other databases and much more.

ajoute-t-elle pour rappeler les principaux avantages de l'outil. Avantages que Chinmoy Kanjilal met en perspective :

Google Refine 2.0 will serve an excellent back-end for data visualization services. It has been well received by the Chicago Tribune and open-government data communities. Along with Google Squared, Refine 2.0 can create a powerful research tool.

C'est bien vrai : en tirant profit de cette nouvelle brique basée sur la faceted search, qui gère les regular expressions et la structuration à la volée de données extraites de pages web et incluant un Twitter Tracker en gestation, entre autres possibilités, Google frappe fort sur le text-mining grand public. Une belle opportunité pour évangéliser les analystes et chargés d'étude et les exhorter à rénover leurs traditions méthodologiques !

Text-mining only ? Of course not ! On trouve aussi des features pour le Screencast Transcript pour la prise en charge des Textual transcripts for the speech over the screencasts. Moutain View est déjà dans le multimodal search !

Ah ! J'oubliais ! Des vidéos de démo de l'outil sont disponibles ici, ici et :)

mardi 2 novembre 2010

Blekko : aimables échos ?

Début novembre, après avoir frissonné d'Halloween, une partie de la sphère web FR et US s'émeut à la sortie de Blekko. Passons sur le principe du slashtag c'est vrai qu'on manquait d'un useless buzzword de plus qui est, m'est avis, la partie la moins intéressante de l'outil.

Blekko HomepageBlekko, c'est le fruit d'un projet débuté en 2007 et porté par une levée de fonds de 24 millions de dollars US. Si on le présente le pauvre comme un n-ième outsider dans la "who's the next G-killer race", il est fort probable que les termes de la question ne soient pas optimalement posés par le marronnier des tech journals online, comme ç'avait déjà été le cas pour Wolfram Alpha. Passons, c'est un point de détail dans la tendance à laquelle on assiste.

Bon, premier modulo : la sphère web FR ne s'émule pas vraiment sur le sujet. La news est diffusée dans les rubriques Tech ici et là, mais les internautes ne sont pas impliqués au point de laisser un avis, tout du moins sur LeMonde.fr, France24.com et ActuAbondance.com.

Bon, second modulo : comparer n'importe quel search engine à Google c'est facile pour la rhétorique, mais c'est un point de détail qui suscite des réactions pas toujours aimables chez les webbeurs qui se creusent sur la question :

Why have slashtags when you can perform such an advanced search on Google? There are startups that want to become big companies, and there are startups that want to be bought out by the likes of Google. Blekko is squarely in the latter: they want to excite a certain user base to create smart lists, and then sell their lists and users to Google.

ou encore :

Remember: Google News uses its own factors for rankings, while Bing appears to use sophisticated criteria for its cool recipes results. Users need to remember that Blekko slashtags like "news" and "techblogs" won't necessarily return the kind of recent, relevant results you'd expect when you search them. Instead, it returns the highest ranking results from a certain bucket of sites.

peut-on par exemple lire sur le site de Ryan Beale , là où les commentaires ont une tonalité représentative de l'accueil fait à Blekko, malgré l'avis plutôt positif de l'auteur. Un autre internaute, commentant la news de BusinessInsider sur le sujet, ajoute très justement :

The problem with "transparency" in a search engine is that it invites manipulation.

Un rapport avec la tendance dont je parle plus haut ? Précisément, je vous disais qu'il y avait une scission dans les stratégies d'accès pertinent à l'information :

Le recours à l'humain pour garantir la qualité des informations, les structurer, les enrichir et ainsi en faire des connaissances : voilà le sillon dans lequel s'inscrit Blekko, comme Yahoo! l'a fait en 2005, comme Google l'a mis en place un temps pour optimiser les performances de Google Translate, comme l'industrie de la veille web et des études web quali est en train d'en prendre conscience. Mais si, mais si, tout arrive !

samedi 30 octobre 2010

Caution : NLP age incoming

Les faits

Conversation about content is king, nous disait en avril la dernière étude Pew Internet.

Premier constat : cela change la donne des stratégies pour sortir vainqueur de la guerre de l'attention et impacter sa cible ; autrement dit :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

L'autre volet de la question est mis en avant par Martin Hayward dans une tribune pour Researchers du mois de mars dernier :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably

constate-t-il, avant de conclure :

we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

L'analyse des contenus en ligne : vers une rénovation des expertises

Quel impact pour les acteurs du marché de la veille et des études quanti/quali online ? En premier lieu, la nécessité de rénover profondément l'expertise de leurs équipes : la qualité d'analyse dépend de la qualité du veilleur. Un veilleur mal formé ou n'ayant pas les compétences adéquates pour l'analyse qualitative des données web représente une perte de valeur ajoutée.

D'un autre côté, les solutions d'analyse "clé en main" que certains éditeurs proposent aux agences de veille et d'étude - pour l'analyse des parcours d'information, des opinions, etc... - ne feront illusion qu'un temps : une analyse qualitative tire toujours sa valeur ajoutée de l'analyste, in fine.

Mais si ! Et ce n'est même pas moi qui le dit, c'est l'amie Christelle Ayache, Spécialiste TAL chez CapDigital, qui argumente en ma faveur dans un article de Cyrille Chausson pour LeMagIT, tout frais du 29 octobre :

La validation humaine sera toujours nécessaire. C’est même ce qu’on doit aujourd’hui faire comprendre au grand public.

A la bonne heure ! L'expertise humaine au coeur de la recherche pertinente, propos d'un précédent billet, prend une nouvelle dimension : celle d'une invitation à la pluridisciplinarité méthodologique et technique chez les acteurs du secteur. Qui se fera certainement par l'intégration dans les équipes de profils initiés aux outils et méthodes du NLP. Non ! pas le Neuro Linguistic Programming, le Natural Language Processing ! Oui, l'autre nom du TAL en anglais :)

dimanche 19 septembre 2010

R.I.P Cuil

Search engine qui avait retenu l'attention dès sa sortie en 2008, parce qu'il mettait en avant ses fonctionnalités de content search, Cuil.com nous a quittés aujourd'hui.

Avec une communication complètement hyperbolique sur l'étendue de son index - dont la rumeur disait qu'il outrepassait celui du moteur de Mountain View -, ce bien joli projet avait d'emblée été présenté comme un Google killer de plus et ainsi fait parler de lui en 2nd quarter 2008. Fondé par des anciens Googlers, il avait aussi participé à la SearchRace relayée par AltSearchEngine.

En septembre dernier, un petit comparatif maison entre quelques moteurs de recherche laissait déjà voir un webservice en perte de vitesse par rapport à Wolfram, sorti en mai 2009. Les utilisateurs n'ont pas accroché, manifestement. Et pourtant, l'appareil de communication était là : même le Technology Blog du Guardian en avait parlé, un pourtant bien joli médium mainstream pour attirer le webber lambda.

On lui reprochait tantôt des faiblesses sur le plan ingénierie - résistance à la montée en charge pas toujours optimale -, tantôt sur la pertinence - sans doute la qualité du moteur de classification automatique n'était-elle pas au rendez-vous.

En ce moment, nombre de Twitterrers lui font leurs condoléances.

samedi 3 avril 2010

Quelles perspectives pour les systèmes de Q/A ?

Les systèmes de Questions/Answers - Q/A pour les intimes - ne sont pas nés de la dernière pluie, et arrosent le grand public depuis plusieurs décennies déjà. Véritables moteurs de recherche évolués, ce sont des solutions clairement adaptées aux problématiques de Data Journalism et sans doute à certaines attentes des utilisateurs de Search Engines grand public. Tentative de panorama.

Les mythes véhiculés par les médias audiovisuels prenant comme sujet la machine détentrice de connaissance absolue ne se comptent plus : le paradigme s'étend de 3PO dans Star Wars à Ziggy dans Code Quantum. Une bonne part de ces mythes sont matérialisés par les systèmes de Q/A - ou Q/R pour "Questions/Réponses" en français dans le texte. N'étant pas spécialiste de mythocritique, je vous propose quelques pistes pour vous faire une idée de ce qu'est un système de Q/A.

Q/A, c'est quoi ? Très simplement, un système de Q/A est un moteur de recherche, en ce qu'on adresse une question (une requête) au système et qu'on en attend un ou plusieurs résultats pertinents quant à une requête donnée. Comme un moteur de recherche, un système de Q/A fait appel à des fonctionnalités de recherche documentaire - pour fouiller un ensemble de documents - et inclut des calculs de pertinence - pour retourner à l'utilisateur des documents susceptibles de contenir la/les réponse(s) adéquate(s).

Pourquoi donc parler de "moteur de recherche évolué" ? Parce qu'à la différence d'un moteur de recherche traditionnel, un système de Q/A intègre des modules de traitement linguistique un peu plus complexes : d'une part, il doit traiter des questions, et non des séries de mots-clés; d'autre part, il doit retourner soit une réponse (ou une série de réponses) pertinente, soit un passage textuel (ou une série de passages) comportant la réponse à la question. Par exemple, imaginons le scénario suivant, dans le cadre d'un système de Q/A basé sur Wikipédia en français :
Question :

Quand Jacques Chirac est-il né ?

Réponse (basée sur la page Wikipédia en français dédiée à Jacques Chirac) :

Jacques Chirac est né le 29 novembre 1932

On imagine bien la complexité des traitements impliqués, étant donnée la variété des formulations possibles pour une même question, la sélection de sources documentaires fiables, sans même parler de points plus spécifiques (traitement des Entités Nommées, typage des questions,...), sans même se placer dans un contexte multilingue. Bref, la conception de tels système est bien loin d'être une mince affaire!

Et aujourd'hui, quels exemples concrets ? Reprenons un peu l'actualité de quelques acquisitions, par exemple, des firmes de Redmond et de Mountain View :

Qu'en dire ? Au moins que les systèmes de Q/A intégralement automatiques ne sont pas viables dans un contexte de "real life", et ne sont qu'encore partiellement efficaces sur des bases documentaires fermées et thématiquement homogènes (i.e. des ensembles de documents liés au même domaine, par exemple le domaine médical). Les algorithmes implémentés pour cibler des besoins grand public sont donc plutôt conçus pour router les questions vers des humains qui ont le plus de probabilités de pouvoir répondre correctement.

Les intiatives à la Orange ou certaines tentatives de Google (non, je ne bondirai pas une énième fois sur l'emploi plus ou moins impropre de la lexie "sémantique"), illustrent parfaitement l'avenir des systèmes de Q/A : restituer de l'information encyclopédique. Dommage, moi aussi j'aurais aimé continuer à nourrir le fantasme d'avoir un jour un 3PO ou un Ziggy ;)

dimanche 21 février 2010

Goggles : un oeil neuf sur la Traduction Automatique

Goggles, le bien nommé, c'est le type d'application qui représente le mieux ce que Google peut avoir d'idées innovantes pour mettre au point un applicatif qui change (positivement) l'expérience utilisateur sur les terminaux mobiles. M'est avis, bien entendu.

L'Official Google Translate Blog dévoilait, le 17 février dernier, le prototype de Goggles. Le principe ? (1) On prend une portion de texte en photo (2) l'application transmet la photo à un module d'OCR (3) le résultat de l'OCRisation est transmise à un module de traduction automatique (TA), (4) qui renvoie le texte traduit à l'utilisateur final. Une façon judicieuse de mettre au point un procédé en phase avec les besoins utilisateur, en s'appuyant sur des technologies robustes telles que l'OCR. L'application s'appuie, bien entendu, sur Google Translate pour la TA. Le prototype présenté est fonctionnel de l'Allemand vers l'Anglais.

Loin de centrer le propos sur la TA - l'Allemand et l'Anglais, couple de langues entre lesquelles les proximités linguistiques sont fortes, me semble un choix logique pour valider un processus expérimental -, c'est plutôt le caractère innovant, au sens d'innovation dans l'expérience utilisateur, de Goggles qui retient l'attention.

Un procédé efficace, qui concrétise un peu plus l'ouverture au grand public des technologies de TAL : à quand la suite ? En attendant, vous pouvez voir la présentation du prototype de Goggles par Hartmut Neven, Google Scientist , pour concrétiser votre idée sur tout ça :


La démo de Goggles, par Hartmut Neven, Google Scientist

mercredi 6 janvier 2010

Bribes de l'audit d'image de l'Islam online

Moteurs de recherche et religions : des rapports pleins de suggestions?

Matt McGee a mis le doigt sur un bien curieux "bug" de l'incontournable du jour : Google. Curieuse nouvelle circulant ce matin dans le fil RSS de SearchEngineLand, en écho à l'un des derniers billets parus sur TheNextWeb, intitulé Google Blocking Negative Search Recommendations On Islam – Why?

La situation se résume en une phrase :

As The Next Web has reported, typing Islam is into Google shows no terms from Google Suggest.

J'emprunte l'image qui fait preuve :

islam.png

Bien entendu, me prend l'irrésistible envie de faire un comparatif, histoire de voir ce que raconte Google.fr avec une requête analogue : islam est. Surprise! Sur Google France, les résultats de recherche suggérés ont comme des petits relans de débat sur les minarets, ne trouvez-vous pas?

IslamEstUneSecte_GoogleSuggestedResults.png

Bien entendu, avec les requêtes christianisme est, "judaïsme est", catholicisme est ou encore protestantisme est, notre cher et tendre moteur ne nous suggère... rien. A noter tout de même que le bouddhisme semble être source de nombreux questionnements :

BouddhismeEst_google.png

En bref, une bien pernicieuse image de l'Islam sur le Web. Ou plutôt des internautes qui y contribuent. Culturellement dommageable? Indubitablement.

samedi 19 décembre 2009

Avec Guru et Browser Size, Google fait un pas de plus dans l'analyse de nos (inter)actions

Parmi les derniers produits mis en place sur l'étagère Google Labs, ActuAbondance annonçait cette semaine l'apparition de Guru et de Brower Size.

Le principe de Guru rappelle tout de même à notre bon souvenir le pitch du service ChaCha, dont j'avais parlé en octobre 2008 : l'échange entre deux humains pour collaborer à une interaction de type "Requête/Réponse".

Chacha_1.png

On comprend mieux pourquoi en allant lire quelques-uns des ''Fast Facts'' de ChaCha, par exemple :

ChaCha is one of the largest and fastest growing text-based services. ChaCha recently passed Google and is the #1 SMS search service according to Nielsen Mobile.

ChaCha is the fastest growing Top 100 website according to Quantcast and has over 10 Million monthly U.S. unique visitors.

Beau bout de chemin parcouru, pour un service qui concurrait, il y a maintenant plus d'un an, à TheSearchRace by AltSearchEngines - événement dont vous trouverez un excellent wrap-up ici. Pas si surprenant, donc, que ce type de service suscite l'intéret d'un Google qui se met à la téléphonie. Pourquoi pas une évolution vers un service de Questions/Réponses avec de l'expert humain dedans, et qui de sucroît tire parti des nouveaux usages des terminaux de téléphonie mobile?

Quant à Browser Size, comme le disent nos amis d'ActuAbondance :

Le système est simple : vous tapez l'URL d'une page et vous voyez immédiatement, en transparence, les zones les plus vues sur la page par vos visiteurs. Intéressant...

browsersize4.png

                                 Source : Google

Intéressant ? Certainement. Dans un contexte d'exposition web, pour évaluer la qualité ergonomique de la conception d'un site, au moins. Pour du ciblage comportemental, au plus. Google légitime donc quasiment son intérêt pour l'analyse des petits internautes devant leur ordinateur comportements dans le cadre des interactions homme-machine - dont le premier contact est visuel lorsqu'on navigue en ligne - en ouvrant un webservice dédié.

En somme...

Laisser des experts humains gérer la demande de connaissances spécifiques, sans doute en profiter pour appuyer son arrivée sur le secteur de la téléphonie avec Guru +
ouvrir au public des services liés à des technologies qui ne représentent plus un avantage concurrentiel avec Browzer Size =

                     la prochaine bonne équation de Google

vendredi 4 décembre 2009

OpenCalais : une API pragmatique

Semantic Web or Wolrd Wise Web?

OpenCalais.jpg Le projet OpenCalais a soufflé sa première bougie.

Et son arrivée sur le marché des technologies sémantiques est bien reçu par les confréries professionnelles du Web 2.0, en particulier celles gravitant autour de ReadWriteWeb, qui sortait justement cette semaine son top des produits du Web Sémantique (RDF, Linked Data, tout ça tout ça). En témoigne ce message de remerciements adressé à la rédaction de ReadWriteWeb, spotté sur Twitter le 3 décembre 2009 à 18:48 (comme un certain chocolat, signe? Qui sait... bref, je n'ai que trop attendu pour parler de ce Calais ouvert : presque 8 mois, tout de même).

Many thanks to @RWW for including us in their Top 10 Semantic Web Products of 2009 http://bit.ly/5vWo8R

En février 2008, alors que le projet OpenCalais commençait à faire parler de lui, chez Mondeca par exemple, Jean-Marie Le Ray faisait un très bon wrap-up introductif sur les circonstances de la naissance de cet acteur majeur de la donnée avec de la métadonnée augmentée dedans.

Comme le souligne indirectement Nicolas Cynober, qui, je n'en doute point, ne circonscrit pas le traitement automatique des langues naturelles à la simple extraction d'entités nommées, OpenCalais exploite fort bien l'extraction d'information non structurée et sa structuration sur le modèle des Linked Data. Tout cela à grand renfort d'ontologies de relations entre entités, dont il est appréciable que ces ressources, initialement dédiées à l'anglais, aient été étendues au français et à l'espagnol.

Mais, comme la vérité, le sens est ailleurs. Les technologies dites "sémantiques" ne devraient pas donner l'impression - dans la tradition des croyances de l'IA - que le sens est dans un outil de computation. Quand bien même il sait désambiguïser les occurrences d'entités nommées, et quelles que soient sa robustesse, la qualité de ses algorithmes ou encore l'étendue de ses ressources linguistiques.

OpenCalais constitue cependant un véritable progrès : il s'agit là d'un beau projet d'ingénierie, auquel la robustesse technique ne manque pas. En bref, un judicieux outil.

vendredi 27 novembre 2009

Le cas "Michelle Obama" : qualité des algorithmes vs. qualité éthique, le nouvel enjeu des moteurs de recherche

Et si la qualité technique des algorithmes ne suffisait plus à assurer la qualité éthique des résultats?

C'est une question-ricochet à l'information relayée hier par ActuAbondance, dans un article explicitement intitulé Google Images renvoie des photos racistes sur Michelle Obama. Point d'utilité à trop discourir sur la nature de ces contenus, voyez plutôt :

michelle-obama-1.jpg

Quand bien même à l'heure actuelle le caractère politiquement correct des résultats de recherche d'image sur la first lady est rétabli, ActuAbondance rapporte clairement la position de Google sur la question :

Google, tout en s'excusant auprès de la femme de chef de l'état, a expliqué qu'il ne supprimerait pas cette image et qu'il ne modifierait pas son algorithme en conséquence car ce dernier ne fait que refléter le contenu du Web.

Je ne peux m'empêcher de trouver là un écho au précédent billet posté ici, qui traitait du dépôt de brevet par Yahoo! d'un algorithme de recherche incluant une intervention humaine, et ce dans le but d'améliorer la qualité des résultats de recherche.

Alors qu'une réflexion profonde sur l'éthique du Net fait couler les chaînes de caractères un peu partout sur le Web, du fait de son impact sur la circulation et la qualité de l'information, le positionnement de Yahoo! - donc les conséquences sur les algorithmes de recherche implémentés dans Bing, le moteur de Microsoft - prend une toute autre envergure.

Le tollé venu des internautes US annonce clairement la couleur : outre les performances de rapidité ou encore de facilité de navigation, l'un des prochains enjeux sera pour eux d'avoir une véritable qualité éthique des résultats de recherche. Parce que la qualité du contenu diffusé fait aussi la qualité du support... l'on attend d'un moteur presque autant que d'un journal. Et les feuilles de chou ne seront probablement pas plébiscitées.

- page 1 de 3