MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

vendredi 27 novembre 2009

Le cas "Michelle Obama" : qualité des algorithmes vs. qualité éthique, le nouvel enjeu des moteurs de recherche

Et si la qualité technique des algorithmes ne suffisait plus à assurer la qualité éthique des résultats?

C'est une question-ricochet à l'information relayée hier par ActuAbondance, dans un article explicitement intitulé Google Images renvoie des photos racistes sur Michelle Obama. Point d'utilité à trop discourir sur la nature de ces contenus, voyez plutôt :

michelle-obama-1.jpg

Quand bien même à l'heure actuelle le caractère politiquement correct des résultats de recherche d'image sur la first lady est rétabli, ActuAbondance rapporte clairement la position de Google sur la question :

Google, tout en s'excusant auprès de la femme de chef de l'état, a expliqué qu'il ne supprimerait pas cette image et qu'il ne modifierait pas son algorithme en conséquence car ce dernier ne fait que refléter le contenu du Web.

Je ne peux m'empêcher de trouver là un écho au précédent billet posté ici, qui traitait du dépôt de brevet par Yahoo! d'un algorithme de recherche incluant une intervention humaine, et ce dans le but d'améliorer la qualité des résultats de recherche.

Alors qu'une réflexion profonde sur l'éthique du Net fait couler les chaînes de caractères un peu partout sur le Web, du fait de son impact sur la circulation et la qualité de l'information, le positionnement de Yahoo! - donc les conséquences sur les algorithmes de recherche implémentés dans Bing, le moteur de Microsoft - prend une toute autre envergure.

Le tollé venu des internautes US annonce clairement la couleur : outre les performances de rapidité ou encore de facilité de navigation, l'un des prochains enjeux sera pour eux d'avoir une véritable qualité éthique des résultats de recherche. Parce que la qualité du contenu diffusé fait aussi la qualité du support... l'on attend d'un moteur presque autant que d'un journal. Et les feuilles de chou ne seront probablement pas plébiscitées.

lundi 23 novembre 2009

L'expert dans le système, le retour

Yahoo! a décidé d'humaniser ses résultats de recherche.

Il y a près d'un mois maintenant, Neteco.com revenait sur l'achèvement d'une course au brevet qui s'est presque éternisée - sept années tout de même - et qui, abrégée, aurait sans doute pas mal redessiné le rapport de force actuel dans le sillon des moteurs de recherche généralistes.

S'il avait été obtenu en 2002 ce brevet aurait permis à Yahoo! de protéger la technologie de son répertoire de sites Internet.

précise d'ailleurs la rédaction de Neteco.com. Mais après tout, qu'a-t-il de si spécial, ce brevet? Humaniser? Non, rien à voir avec le fait de rendre plus humain le moteur de recherche, de policer un affichage frustre pour la restitution des résultats, ni de le civiliser pour lui faire perdre son caractère primitif. Quoique...

Ce petit abus de langage - imprécision, quand tu nous tiens - se comprend mieux avec un dessin. En l'occurrence, dire que Yahoo! humanise ses résultats de recherche signifie tout simplement qu'il y a de l'intervention humaine dedans.

YahooBrevet (Cette figure est reprise de l'article cité ci-dessus chez Neteco.com, dont la provenance originale n'est d'ailleurs pas mentionnée.)

Le brevet en question repose en effet sur un procédé impliquant la présence d'humains pour raffiner les résultats d'algorithmes de recherche. Et Yahoo! de préciser :

« le classement par les intervenants humains permet d'obtenir des résultats plus affinés que par des processus automatiques »

Nous y voilà. Sans insister sur les potentiels bénéfices en termes de qualité qu'en pourrait retirer Microsoft pour son moteur Bing, je veux simplement souligner une tendance convergente entre des acteurs différents qui traitent des facettes variées mais fort semblables de notre manne contemporaine : l'information.

Et mettre le tout en perspective avec les bâts qui blessent de plus en plus sur le segment des social media monitoring technologies, qu'Asi Sharabi passait d'ailleurs au crible en août dernier sur le très bon No Man's Blog. Pour coller à la culture verbatim et vous laisser lire son excellent billet par vous-mêmes, je n'en citerai que cinq mots qui dressent le portrait d'une situation avec laquelle la linguiste que je suis ne peut qu'être d'accord : The technology is fairly stupid. Bien entendu, si on s'en tient à cela, rien ne sert d'écrire. Quelle tendance convergente voit-on émerger alors avec d'autres acteurs du traitement et de l'analyse d'information? La réhabilitation de l'utilisateur expert, pardi!

Dans le petit monde des études médias et de l'analyse d'opinion online, c'est pourtant encore peu habituel, les utilisateurs experts. Connaître le fonctionnement d'un moteur de recherche ou comprendre qu'analyser finement l'information demande une compétence avancée en solutions d'analyse linguistique? La belle affaire! Dans l'encore plus petit monde des éditeurs de logiciels TAL, on transite globalement vers les solutions d'aide aux linguistes. On en trouve même des échos dans le microcosme des spécialistes de l'analyse textuelle, sous la forme d'une linguistique des textes instrumentée.

La qualité d'analyse est à l'information ce que le savoir-faire helvète est à la haute horlogerie. C'est assez naturellement que ces différents acteurs de l'analyse d'information convergeront peu ou prou vers une réflexion méthodologique sur ce qu'il conviendrait plutôt d'appeler l'analyse linguistique assistée par ordinateur (ALAO). Et certains y travaillent d'ailleurs déjà ;)

jeudi 4 septembre 2008

askBoss : le Powerset-like pour images

Quelques feuillets de ce petit carnet Web on été consacrés, çà et , à Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation en langage naturel.

a natural language image search powered by Yahoo Boss and Google App Engine

askBoss, justement, reprend et applique ce mode de consultation des données aux contenus images. Le moteur indexe les noms d'images. A priori, il indexe les chaînes de caractères exactes (au moins un des mots complets saisis dans la boîte de dialogue) et partielles (une des séries de lettres présentes dans au moins un des mots complets saisis dans la boîte de dialogue).
Comparez les résultats de Where am I? (indexation sur la suite am) et Who is Aphex Twin? (indexation sur les mots exacts aphex et twin).

askBoss.jpg

En passant, j'ai beaucoup rit en cherchant Who is Tim Berner's Lee? : des images en ribambelle, mais pas une de l'intéressé avant la deuxième page de résultats. L'aura passe sans doute mieux avec des photos de ses fameux cakes et des illustrations à l'effigie du WorldWideWeb.