MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

dimanche 21 février 2010

Goggles : un oeil neuf sur la Traduction Automatique

Goggles, le bien nommé, c'est le type d'application qui représente le mieux ce que Google peut avoir d'idées innovantes pour mettre au point un applicatif qui change (positivement) l'expérience utilisateur sur les terminaux mobiles. M'est avis, bien entendu.

L'Official Google Translate Blog dévoilait, le 17 février dernier, le prototype de Goggles. Le principe ? (1) On prend une portion de texte en photo (2) l'application transmet la photo à un module d'OCR (3) le résultat de l'OCRisation est transmise à un module de traduction automatique (TA), (4) qui renvoie le texte traduit à l'utilisateur final. Une façon judicieuse de mettre au point un procédé en phase avec les besoins utilisateur, en s'appuyant sur des technologies robustes telles que l'OCR. L'application s'appuie, bien entendu, sur Google Translate pour la TA. Le prototype présenté est fonctionnel de l'Allemand vers l'Anglais.

Loin de centrer le propos sur la TA - l'Allemand et l'Anglais, couple de langues entre lesquelles les proximités linguistiques sont fortes, me semble un choix logique pour valider un processus expérimental -, c'est plutôt le caractère innovant, au sens d'innovation dans l'expérience utilisateur, de Goggles qui retient l'attention.

Un procédé efficace, qui concrétise un peu plus l'ouverture au grand public des technologies de TAL : à quand la suite ? En attendant, vous pouvez voir la présentation du prototype de Goggles par Hartmut Neven, Google Scientist , pour concrétiser votre idée sur tout ça :


La démo de Goggles, par Hartmut Neven, Google Scientist

mercredi 6 janvier 2010

Bribes de l'audit d'image de l'Islam online

Moteurs de recherche et religions : des rapports pleins de suggestions?

Matt McGee a mis le doigt sur un bien curieux "bug" de l'incontournable du jour : Google. Curieuse nouvelle circulant ce matin dans le fil RSS de SearchEngineLand, en écho à l'un des derniers billets parus sur TheNextWeb, intitulé Google Blocking Negative Search Recommendations On Islam – Why?

La situation se résume en une phrase :

As The Next Web has reported, typing Islam is into Google shows no terms from Google Suggest.

J'emprunte l'image qui fait preuve :

islam.png

Bien entendu, me prend l'irrésistible envie de faire un comparatif, histoire de voir ce que raconte Google.fr avec une requête analogue : islam est. Surprise! Sur Google France, les résultats de recherche suggérés ont comme des petits relans de débat sur les minarets, ne trouvez-vous pas?

IslamEstUneSecte_GoogleSuggestedResults.png

Bien entendu, avec les requêtes christianisme est, "judaïsme est", catholicisme est ou encore protestantisme est, notre cher et tendre moteur ne nous suggère... rien. A noter tout de même que le bouddhisme semble être source de nombreux questionnements :

BouddhismeEst_google.png

En bref, une bien pernicieuse image de l'Islam sur le Web. Ou plutôt des internautes qui y contribuent. Culturellement dommageable? Indubitablement.

samedi 19 décembre 2009

Avec Guru et Browser Size, Google fait un pas de plus dans l'analyse de nos (inter)actions

Parmi les derniers produits mis en place sur l'étagère Google Labs, ActuAbondance annonçait cette semaine l'apparition de Guru et de Brower Size.

Le principe de Guru rappelle tout de même à notre bon souvenir le pitch du service ChaCha, dont j'avais parlé en octobre 2008 : l'échange entre deux humains pour collaborer à une interaction de type "Requête/Réponse".

Chacha_1.png

On comprend mieux pourquoi en allant lire quelques-uns des ''Fast Facts'' de ChaCha, par exemple :

ChaCha is one of the largest and fastest growing text-based services. ChaCha recently passed Google and is the #1 SMS search service according to Nielsen Mobile.

ChaCha is the fastest growing Top 100 website according to Quantcast and has over 10 Million monthly U.S. unique visitors.

Beau bout de chemin parcouru, pour un service qui concurrait, il y a maintenant plus d'un an, à TheSearchRace by AltSearchEngines - événement dont vous trouverez un excellent wrap-up ici. Pas si surprenant, donc, que ce type de service suscite l'intéret d'un Google qui se met à la téléphonie. Pourquoi pas une évolution vers un service de Questions/Réponses avec de l'expert humain dedans, et qui de sucroît tire parti des nouveaux usages des terminaux de téléphonie mobile?

Quant à Browser Size, comme le disent nos amis d'ActuAbondance :

Le système est simple : vous tapez l'URL d'une page et vous voyez immédiatement, en transparence, les zones les plus vues sur la page par vos visiteurs. Intéressant...

browsersize4.png

                                 Source : Google

Intéressant ? Certainement. Dans un contexte d'exposition web, pour évaluer la qualité ergonomique de la conception d'un site, au moins. Pour du ciblage comportemental, au plus. Google légitime donc quasiment son intérêt pour l'analyse des petits internautes devant leur ordinateur comportements dans le cadre des interactions homme-machine - dont le premier contact est visuel lorsqu'on navigue en ligne - en ouvrant un webservice dédié.

En somme...

Laisser des experts humains gérer la demande de connaissances spécifiques, sans doute en profiter pour appuyer son arrivée sur le secteur de la téléphonie avec Guru +
ouvrir au public des services liés à des technologies qui ne représentent plus un avantage concurrentiel avec Browzer Size =

                     la prochaine bonne équation de Google

vendredi 4 décembre 2009

OpenCalais : une API pragmatique

Semantic Web or Wolrd Wise Web?

OpenCalais.jpg Le projet OpenCalais a soufflé sa première bougie.

Et son arrivée sur le marché des technologies sémantiques est bien reçu par les confréries professionnelles du Web 2.0, en particulier celles gravitant autour de ReadWriteWeb, qui sortait justement cette semaine son top des produits du Web Sémantique (RDF, Linked Data, tout ça tout ça). En témoigne ce message de remerciements adressé à la rédaction de ReadWriteWeb, spotté sur Twitter le 3 décembre 2009 à 18:48 (comme un certain chocolat, signe? Qui sait... bref, je n'ai que trop attendu pour parler de ce Calais ouvert : presque 8 mois, tout de même).

Many thanks to @RWW for including us in their Top 10 Semantic Web Products of 2009 http://bit.ly/5vWo8R

En février 2008, alors que le projet OpenCalais commençait à faire parler de lui, chez Mondeca par exemple, Jean-Marie Le Ray faisait un très bon wrap-up introductif sur les circonstances de la naissance de cet acteur majeur de la donnée avec de la métadonnée augmentée dedans.

Comme le souligne indirectement Nicolas Cynober, qui, je n'en doute point, ne circonscrit pas le traitement automatique des langues naturelles à la simple extraction d'entités nommées, OpenCalais exploite fort bien l'extraction d'information non structurée et sa structuration sur le modèle des Linked Data. Tout cela à grand renfort d'ontologies de relations entre entités, dont il est appréciable que ces ressources, initialement dédiées à l'anglais, aient été étendues au français et à l'espagnol.

Mais, comme la vérité, le sens est ailleurs. Les technologies dites "sémantiques" ne devraient pas donner l'impression - dans la tradition des croyances de l'IA - que le sens est dans un outil de computation. Quand bien même il sait désambiguïser les occurrences d'entités nommées, et quelles que soient sa robustesse, la qualité de ses algorithmes ou encore l'étendue de ses ressources linguistiques.

OpenCalais constitue cependant un véritable progrès : il s'agit là d'un beau projet d'ingénierie, auquel la robustesse technique ne manque pas. En bref, un judicieux outil.

vendredi 27 novembre 2009

Le cas "Michelle Obama" : qualité des algorithmes vs. qualité éthique, le nouvel enjeu des moteurs de recherche

Et si la qualité technique des algorithmes ne suffisait plus à assurer la qualité éthique des résultats?

C'est une question-ricochet à l'information relayée hier par ActuAbondance, dans un article explicitement intitulé Google Images renvoie des photos racistes sur Michelle Obama. Point d'utilité à trop discourir sur la nature de ces contenus, voyez plutôt :

michelle-obama-1.jpg

Quand bien même à l'heure actuelle le caractère politiquement correct des résultats de recherche d'image sur la first lady est rétabli, ActuAbondance rapporte clairement la position de Google sur la question :

Google, tout en s'excusant auprès de la femme de chef de l'état, a expliqué qu'il ne supprimerait pas cette image et qu'il ne modifierait pas son algorithme en conséquence car ce dernier ne fait que refléter le contenu du Web.

Je ne peux m'empêcher de trouver là un écho au précédent billet posté ici, qui traitait du dépôt de brevet par Yahoo! d'un algorithme de recherche incluant une intervention humaine, et ce dans le but d'améliorer la qualité des résultats de recherche.

Alors qu'une réflexion profonde sur l'éthique du Net fait couler les chaînes de caractères un peu partout sur le Web, du fait de son impact sur la circulation et la qualité de l'information, le positionnement de Yahoo! - donc les conséquences sur les algorithmes de recherche implémentés dans Bing, le moteur de Microsoft - prend une toute autre envergure.

Le tollé venu des internautes US annonce clairement la couleur : outre les performances de rapidité ou encore de facilité de navigation, l'un des prochains enjeux sera pour eux d'avoir une véritable qualité éthique des résultats de recherche. Parce que la qualité du contenu diffusé fait aussi la qualité du support... l'on attend d'un moteur presque autant que d'un journal. Et les feuilles de chou ne seront probablement pas plébiscitées.

lundi 23 novembre 2009

L'expert dans le système, le retour

Yahoo! a décidé d'humaniser ses résultats de recherche.

Il y a près d'un mois maintenant, Neteco.com revenait sur l'achèvement d'une course au brevet qui s'est presque éternisée - sept années tout de même - et qui, abrégée, aurait sans doute pas mal redessiné le rapport de force actuel dans le sillon des moteurs de recherche généralistes.

S'il avait été obtenu en 2002 ce brevet aurait permis à Yahoo! de protéger la technologie de son répertoire de sites Internet.

précise d'ailleurs la rédaction de Neteco.com. Mais après tout, qu'a-t-il de si spécial, ce brevet? Humaniser? Non, rien à voir avec le fait de rendre plus humain le moteur de recherche, de policer un affichage frustre pour la restitution des résultats, ni de le civiliser pour lui faire perdre son caractère primitif. Quoique...

Ce petit abus de langage - imprécision, quand tu nous tiens - se comprend mieux avec un dessin. En l'occurrence, dire que Yahoo! humanise ses résultats de recherche signifie tout simplement qu'il y a de l'intervention humaine dedans.

YahooBrevet (Cette figure est reprise de l'article cité ci-dessus chez Neteco.com, dont la provenance originale n'est d'ailleurs pas mentionnée.)

Le brevet en question repose en effet sur un procédé impliquant la présence d'humains pour raffiner les résultats d'algorithmes de recherche. Et Yahoo! de préciser :

« le classement par les intervenants humains permet d'obtenir des résultats plus affinés que par des processus automatiques »

Nous y voilà. Sans insister sur les potentiels bénéfices en termes de qualité qu'en pourrait retirer Microsoft pour son moteur Bing, je veux simplement souligner une tendance convergente entre des acteurs différents qui traitent des facettes variées mais fort semblables de notre manne contemporaine : l'information.

Et mettre le tout en perspective avec les bâts qui blessent de plus en plus sur le segment des social media monitoring technologies, qu'Asi Sharabi passait d'ailleurs au crible en août dernier sur le très bon No Man's Blog. Pour coller à la culture verbatim et vous laisser lire son excellent billet par vous-mêmes, je n'en citerai que cinq mots qui dressent le portrait d'une situation avec laquelle la linguiste que je suis ne peut qu'être d'accord : The technology is fairly stupid. Bien entendu, si on s'en tient à cela, rien ne sert d'écrire. Quelle tendance convergente voit-on émerger alors avec d'autres acteurs du traitement et de l'analyse d'information? La réhabilitation de l'utilisateur expert, pardi!

Dans le petit monde des études médias et de l'analyse d'opinion online, c'est pourtant encore peu habituel, les utilisateurs experts. Connaître le fonctionnement d'un moteur de recherche ou comprendre qu'analyser finement l'information demande une compétence avancée en solutions d'analyse linguistique? La belle affaire! Dans l'encore plus petit monde des éditeurs de logiciels TAL, on transite globalement vers les solutions d'aide aux linguistes. On en trouve même des échos dans le microcosme des spécialistes de l'analyse textuelle, sous la forme d'une linguistique des textes instrumentée.

La qualité d'analyse est à l'information ce que le savoir-faire helvète est à la haute horlogerie. C'est assez naturellement que ces différents acteurs de l'analyse d'information convergeront peu ou prou vers une réflexion méthodologique sur ce qu'il conviendrait plutôt d'appeler l'analyse linguistique assistée par ordinateur (ALAO). Et certains y travaillent d'ailleurs déjà ;)

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

lundi 2 mars 2009

Truevert : les bons augures de la communauté 3.0

The Truevert system, powered by OrcaTec's discovery toolkit, is narrowly defined around green, but it's definitely an eye-opening, fresh approach to an elusive problem.

dixit Fritz Nelson (InformationWeek), dans un billet très complet du mois de janvier, pour accueillir la sortie de Truevert, quelques mois auparavant (6 octobre 2008).

Un moteur qui a manifestement retenu son attention et qu'il a bien documenté, avec des vidéos édifiantes à l'appui (notamment l'interview de Herbet L. Roitblat, chercheur chez OrcaTec, qui en explique la technologie, visibles ici également). We take the meaning of the patterns of word usage, explique Roitblat. Au lieu de se fonder sur une catégorisation (jamais) exhaustive, Truevert opère sur les relations statistiques qui émergent entre les mots d'un document, procédant par apprentissage non supervisé.

Paul Miller postait sur ZDNet le jour de la sortie de Truevert, expliquant : Some of the search results are impressively on-target, but there’s still work to do…. Effectivement, l'apprentissage non supervisé n'est pas sans générer de bruit dans les résultats de recherche. Il semble cependant que les sets d'entraînement des algorithmes soient bien optimisés, pour une version bêta, rappelons-le.

L'une des fonctionnalités appréciables à la consultation des résultats est l'accès à la liste des termes pertinents, sur lesquels s'est appuyé le moteur : il suffit de cliquer sur l'icône d'information à côté du lien du résultat pour l'obtenir. Au moins, ce moteur est honnête!

truvert-interestingterms-icon.jpg

truevert-iterestingterms.jpg

Effectivement, il y a un peu de bruit là-dedans (charset utf parameter était l'intrus le plus évident à trouver pour une recherche sur paper). Mais cela ne fait pas faiblir les bons échos sur Truevert...

Fritz Nelson note :

The approach can be applied to any vertical using the same approach. You could even apply it to enterprise content management, given that most corporations have their own jargon -- you just train the engine on the documents that you index.

Jaymi Heimbuch (Treehugger.com) met en avant un aspect particulièrement intéressant sur la place d'un tel moteur sémantique dans le contexte du content mining :

the new web 3.0 features are likely to greatly impact online commerce and advertising

Ce constat fait écho à celui de Fritz Nelson : You also can imagine that if you can get more precise in your search results, a decent amount of ad revenue, in the form of better matching, might result.

Moins de coût pour la mise en service - le développement de ressources exogènes, en particulier thésaurus, lexiques et ontologies, ne sont pertinents que dans des cas précis et peu nombreux - et un impact majeur sur le commerce en ligne et la monétisation des applications web. De bons augures, disais-je...

Le mot de la fin : Charles Knight (altsearchengines.com) a testé pour nous le module Firefox de Truevert. Verdict :

Tried to stump Truevert with the question, "How deep is the ocean?" It returned the answer, " Mostly the ocean is about 4000 metres deep, but is deeper in places. ..." Well done!

dimanche 1 mars 2009

Truevert, un moteur sémantique "ontology-free"

truevert.jpgDéjà, l'équipe de développement a bien senti la tendance "éco(lo)", et revendique sa verditude comme ma lessive revendique son action pour l'environnement.

Outre l'emballage, Truevert, c'est avant tout un parti-pris surprenant pour un moteur sémantique de nos jours :

We have a semantic web of concepts when we link together all of the words and categories into an ontology and a set of rules for dealing with the elements of this ontology. ... This is the approach taken by the semantic web and by many of the systems that claim to do semantic search. ... The meaning as categorization view implies that there is a fixed set of categories that a word could refer to.

Et tout est là ...

It is capable of serving many needs, but it is not sufficient for semantic search.

Développé par une équipe de californiens, OrcaTec LLC, qui travaillent notamment sur le clustering, l'identification automatique des langues, la gestion de mails et l'identification thématique automatique, et bien sûr sur la recherche sémantique, Truevert est le fruit d'expertises plurielles, de la gestion de l'information aux statistiques, entre autres compétences liées à la recherche appliquée. Ils revendiquent un ancrage universitaire et industriel fort.

Mais revenons-en à l'outil.

Les résultats qu'il retourne sont donc le produit d'un approche émergentiste, où les algorithmes statistiques utilisés opèrent essentiellement sur la cooccurrence des chaînes de caractères. Truevert ne fait appel à aucune ressource exogène au moteur, et c'est là que résident toute sa puissance et son intérêt :

Truevert does not depend on any artificial taxonomy, ontology, thesaurus, dictionary, or require document authors to categorize their content (as in the so-called semantic web).

Parce qu'il y a d'autres façons d'aborder la recherche sémantique : abandonner les formalisations ontologiques du sens pour favoriser le "tout statistique"... ou le retour de l'apprentissage non supervisé.

mardi 3 février 2009

SEAmail : l'e-mail à la sauce 3.0

Ne plus perdre de temps à chercher dans vos bases de contacts... Faire du mailing massif aussi facilement qu'une recherche sur Google... vous en avez rêvé? Lisez donc!

InternetACTU en parlait la semaine dernière, faisant écho à un papier de la fameuse Technology Review : les chercheurs de Stanford planchent sur un système d'envoi de mails dores et déjà annoncée comme une application révolutionnaire du web sémantique.

En effet, le Semantic E-mail Adressing (SEAmail, un document explicatif ici) permettrait de ne plus recourir aux adresses mails d'individus spécifiques lors de l'envoi de courrier électroniques.

Comment? Une première explication :

  • l'idée est de se fonder sur une description logique des propriétés générales communes à plusieurs individus
  • cela permet donc de constituer des ensembles de types d'individus

A l'heure actuelle, le mail, c'est plutôt :

Today, we use mailing lists to email predefined groups of people ... you must be able to ardress your email to static mailing lists that are the best fit to your requierements, and you must know of their existence.

Il s'agit en fait d'un système capable d'analyser l'information structurée contenue dans les mails (expéditeur, récipiendaire, objet, corps du texte) et de l'exprimer de façon formelle, par exemple avec un formalisme de type RDF (Resource Description Framework, standard du W3C pour homogénéiser la description des métadonnées associées aux documents indexés sur le Web). Ce type de formalisme, particulièrement efficace pour l'indexation, permet d'optimiser la création de mailing lists à partir de requêtes soumises à une base de données, en exploitant très finement l'information structurée qu'elle contient.

Mais pas seulement...

Les descripteurs, c'est-à-dire les propriétés de description logiques inférées par le système sur la masse d'information traitée, permettent d'accéder à un niveau de généralisation qui ne clôture plus l'utilisateur dans un référentialisme foisonnant. Autrement dit, l'intégration d'un tel système dans un serveur de mails est le moyen de passer du "envoyer l'invitation à tous mes contacts du groupe X" à "envoyer l'invitation à tous les contacts indexés qui ont simultanément la propriété A, B et C".

En contexte d'entreprise, cela pourrait donner "envoyer l'information à tous les consultants juniors de moins de 25 ans". C'est justement l'un des leviers communicationnels autour de la solution SEAmail : un gain de temps des administrateurs du serveur jusqu'aux utilisateurs finaux.

Voilà ce que ça pourrait donner, visuellement parlant :


SEAmail.jpg

Bref, un grand pas vers le mailing intuitif!

Pour aller plus loin : quelques infos sur le standard RDF

- page 1 de 3