MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

lundi 23 novembre 2009

L'expert dans le système, le retour

Yahoo! a décidé d'humaniser ses résultats de recherche.

Il y a près d'un mois maintenant, Neteco.com revenait sur l'achèvement d'une course au brevet qui s'est presque éternisée - sept années tout de même - et qui, abrégée, aurait sans doute pas mal redessiné le rapport de force actuel dans le sillon des moteurs de recherche généralistes.

S'il avait été obtenu en 2002 ce brevet aurait permis à Yahoo! de protéger la technologie de son répertoire de sites Internet.

précise d'ailleurs la rédaction de Neteco.com. Mais après tout, qu'a-t-il de si spécial, ce brevet? Humaniser? Non, rien à voir avec le fait de rendre plus humain le moteur de recherche, de policer un affichage frustre pour la restitution des résultats, ni de le civiliser pour lui faire perdre son caractère primitif. Quoique...

Ce petit abus de langage - imprécision, quand tu nous tiens - se comprend mieux avec un dessin. En l'occurrence, dire que Yahoo! humanise ses résultats de recherche signifie tout simplement qu'il y a de l'intervention humaine dedans.

YahooBrevet (Cette figure est reprise de l'article cité ci-dessus chez Neteco.com, dont la provenance originale n'est d'ailleurs pas mentionnée.)

Le brevet en question repose en effet sur un procédé impliquant la présence d'humains pour raffiner les résultats d'algorithmes de recherche. Et Yahoo! de préciser :

« le classement par les intervenants humains permet d'obtenir des résultats plus affinés que par des processus automatiques »

Nous y voilà. Sans insister sur les potentiels bénéfices en termes de qualité qu'en pourrait retirer Microsoft pour son moteur Bing, je veux simplement souligner une tendance convergente entre des acteurs différents qui traitent des facettes variées mais fort semblables de notre manne contemporaine : l'information.

Et mettre le tout en perspective avec les bâts qui blessent de plus en plus sur le segment des social media monitoring technologies, qu'Asi Sharabi passait d'ailleurs au crible en août dernier sur le très bon No Man's Blog. Pour coller à la culture verbatim et vous laisser lire son excellent billet par vous-mêmes, je n'en citerai que cinq mots qui dressent le portrait d'une situation avec laquelle la linguiste que je suis ne peut qu'être d'accord : The technology is fairly stupid. Bien entendu, si on s'en tient à cela, rien ne sert d'écrire. Quelle tendance convergente voit-on émerger alors avec d'autres acteurs du traitement et de l'analyse d'information? La réhabilitation de l'utilisateur expert, pardi!

Dans le petit monde des études médias et de l'analyse d'opinion online, c'est pourtant encore peu habituel, les utilisateurs experts. Connaître le fonctionnement d'un moteur de recherche ou comprendre qu'analyser finement l'information demande une compétence avancée en solutions d'analyse linguistique? La belle affaire! Dans l'encore plus petit monde des éditeurs de logiciels TAL, on transite globalement vers les solutions d'aide aux linguistes. On en trouve même des échos dans le microcosme des spécialistes de l'analyse textuelle, sous la forme d'une linguistique des textes instrumentée.

La qualité d'analyse est à l'information ce que le savoir-faire helvète est à la haute horlogerie. C'est assez naturellement que ces différents acteurs de l'analyse d'information convergeront peu ou prou vers une réflexion méthodologique sur ce qu'il conviendrait plutôt d'appeler l'analyse linguistique assistée par ordinateur (ALAO). Et certains y travaillent d'ailleurs déjà ;)

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

lundi 2 mars 2009

Truevert : les bons augures de la communauté 3.0

The Truevert system, powered by OrcaTec's discovery toolkit, is narrowly defined around green, but it's definitely an eye-opening, fresh approach to an elusive problem.

dixit Fritz Nelson (InformationWeek), dans un billet très complet du mois de janvier, pour accueillir la sortie de Truevert, quelques mois auparavant (6 octobre 2008).

Un moteur qui a manifestement retenu son attention et qu'il a bien documenté, avec des vidéos édifiantes à l'appui (notamment l'interview de Herbet L. Roitblat, chercheur chez OrcaTec, qui en explique la technologie, visibles ici également). We take the meaning of the patterns of word usage, explique Roitblat. Au lieu de se fonder sur une catégorisation (jamais) exhaustive, Truevert opère sur les relations statistiques qui émergent entre les mots d'un document, procédant par apprentissage non supervisé.

Paul Miller postait sur ZDNet le jour de la sortie de Truevert, expliquant : Some of the search results are impressively on-target, but there’s still work to do…. Effectivement, l'apprentissage non supervisé n'est pas sans générer de bruit dans les résultats de recherche. Il semble cependant que les sets d'entraînement des algorithmes soient bien optimisés, pour une version bêta, rappelons-le.

L'une des fonctionnalités appréciables à la consultation des résultats est l'accès à la liste des termes pertinents, sur lesquels s'est appuyé le moteur : il suffit de cliquer sur l'icône d'information à côté du lien du résultat pour l'obtenir. Au moins, ce moteur est honnête!

truvert-interestingterms-icon.jpg

truevert-iterestingterms.jpg

Effectivement, il y a un peu de bruit là-dedans (charset utf parameter était l'intrus le plus évident à trouver pour une recherche sur paper). Mais cela ne fait pas faiblir les bons échos sur Truevert...

Fritz Nelson note :

The approach can be applied to any vertical using the same approach. You could even apply it to enterprise content management, given that most corporations have their own jargon -- you just train the engine on the documents that you index.

Jaymi Heimbuch (Treehugger.com) met en avant un aspect particulièrement intéressant sur la place d'un tel moteur sémantique dans le contexte du content mining :

the new web 3.0 features are likely to greatly impact online commerce and advertising

Ce constat fait écho à celui de Fritz Nelson : You also can imagine that if you can get more precise in your search results, a decent amount of ad revenue, in the form of better matching, might result.

Moins de coût pour la mise en service - le développement de ressources exogènes, en particulier thésaurus, lexiques et ontologies, ne sont pertinents que dans des cas précis et peu nombreux - et un impact majeur sur le commerce en ligne et la monétisation des applications web. De bons augures, disais-je...

Le mot de la fin : Charles Knight (altsearchengines.com) a testé pour nous le module Firefox de Truevert. Verdict :

Tried to stump Truevert with the question, "How deep is the ocean?" It returned the answer, " Mostly the ocean is about 4000 metres deep, but is deeper in places. ..." Well done!

dimanche 1 mars 2009

Truevert, un moteur sémantique "ontology-free"

truevert.jpgDéjà, l'équipe de développement a bien senti la tendance "éco(lo)", et revendique sa verditude comme ma lessive revendique son action pour l'environnement.

Outre l'emballage, Truevert, c'est avant tout un parti-pris surprenant pour un moteur sémantique de nos jours :

We have a semantic web of concepts when we link together all of the words and categories into an ontology and a set of rules for dealing with the elements of this ontology. ... This is the approach taken by the semantic web and by many of the systems that claim to do semantic search. ... The meaning as categorization view implies that there is a fixed set of categories that a word could refer to.

Et tout est là ...

It is capable of serving many needs, but it is not sufficient for semantic search.

Développé par une équipe de californiens, OrcaTec LLC, qui travaillent notamment sur le clustering, l'identification automatique des langues, la gestion de mails et l'identification thématique automatique, et bien sûr sur la recherche sémantique, Truevert est le fruit d'expertises plurielles, de la gestion de l'information aux statistiques, entre autres compétences liées à la recherche appliquée. Ils revendiquent un ancrage universitaire et industriel fort.

Mais revenons-en à l'outil.

Les résultats qu'il retourne sont donc le produit d'un approche émergentiste, où les algorithmes statistiques utilisés opèrent essentiellement sur la cooccurrence des chaînes de caractères. Truevert ne fait appel à aucune ressource exogène au moteur, et c'est là que résident toute sa puissance et son intérêt :

Truevert does not depend on any artificial taxonomy, ontology, thesaurus, dictionary, or require document authors to categorize their content (as in the so-called semantic web).

Parce qu'il y a d'autres façons d'aborder la recherche sémantique : abandonner les formalisations ontologiques du sens pour favoriser le "tout statistique"... ou le retour de l'apprentissage non supervisé.

mardi 3 février 2009

SEAmail : l'e-mail à la sauce 3.0

Ne plus perdre de temps à chercher dans vos bases de contacts... Faire du mailing massif aussi facilement qu'une recherche sur Google... vous en avez rêvé? Lisez donc!

InternetACTU en parlait la semaine dernière, faisant écho à un papier de la fameuse Technology Review : les chercheurs de Stanford planchent sur un système d'envoi de mails dores et déjà annoncée comme une application révolutionnaire du web sémantique.

En effet, le Semantic E-mail Adressing (SEAmail, un document explicatif ici) permettrait de ne plus recourir aux adresses mails d'individus spécifiques lors de l'envoi de courrier électroniques.

Comment? Une première explication :

  • l'idée est de se fonder sur une description logique des propriétés générales communes à plusieurs individus
  • cela permet donc de constituer des ensembles de types d'individus

A l'heure actuelle, le mail, c'est plutôt :

Today, we use mailing lists to email predefined groups of people ... you must be able to ardress your email to static mailing lists that are the best fit to your requierements, and you must know of their existence.

Il s'agit en fait d'un système capable d'analyser l'information structurée contenue dans les mails (expéditeur, récipiendaire, objet, corps du texte) et de l'exprimer de façon formelle, par exemple avec un formalisme de type RDF (Resource Description Framework, standard du W3C pour homogénéiser la description des métadonnées associées aux documents indexés sur le Web). Ce type de formalisme, particulièrement efficace pour l'indexation, permet d'optimiser la création de mailing lists à partir de requêtes soumises à une base de données, en exploitant très finement l'information structurée qu'elle contient.

Mais pas seulement...

Les descripteurs, c'est-à-dire les propriétés de description logiques inférées par le système sur la masse d'information traitée, permettent d'accéder à un niveau de généralisation qui ne clôture plus l'utilisateur dans un référentialisme foisonnant. Autrement dit, l'intégration d'un tel système dans un serveur de mails est le moyen de passer du "envoyer l'invitation à tous mes contacts du groupe X" à "envoyer l'invitation à tous les contacts indexés qui ont simultanément la propriété A, B et C".

En contexte d'entreprise, cela pourrait donner "envoyer l'information à tous les consultants juniors de moins de 25 ans". C'est justement l'un des leviers communicationnels autour de la solution SEAmail : un gain de temps des administrateurs du serveur jusqu'aux utilisateurs finaux.

Voilà ce que ça pourrait donner, visuellement parlant :


SEAmail.jpg

Bref, un grand pas vers le mailing intuitif!

Pour aller plus loin : quelques infos sur le standard RDF

vendredi 10 octobre 2008

La coloration thématique des contenus textuels : une réelle innovation?

"Enfin un outil qui permet une couche d'analyse par dessus les statistiques sur les liens entre les blogs", me suis-je exclamée en lisant la présentation, comme toujours, très brillante, de Marshall Kirkpatrick (ReadWriteWeb), de l'outil Memeorandum.

En lisant ce très bon papier, je me suis souvenue avoir vu des développements analogues. Eh oui, en France, on fait beaucoup moins de bruit autour des innovations concoctées par nos chercheurs CNRS... C'est bien dommage, car en 2001, Pierre Beust, chercheur à l'Université de Caen, s'intéressait déjà au développement de technologies pour ce type d'applications. Je ne peux donc que recommander la lecture de son article de l'époque, Acquisition de classes sémantiques par coloriage thématique des textes électroniques. Je me permets d'en reproduire ici l'abstract :

Cet article présente une application appelée ThemeEditor dont le but est de permettre une acquisition supervisée de classes sémantiques. Cette acquisition est réalisée dans le cours d’une tâche interactive d’analyse interprétative de textes électroniques. Le logiciel d’étude proposé met en oeuvre un principe de coloriage thématique dans un texte et plus généralement dans un corpus de textes électroniques. Il s’agit de mettre en évidence, en fonction des classes sémantiques acquises ou en cours d’acquisition, la répartition des thèmes et leurs différentes formes d’enchaînements.

Ou comment ce qui nous paraît innovant aujourd'hui ne date certainement pas d'hier... Ou comment garder à l'esprit que, quand bien même l'innovation paraît surtout venir des US, elle est pourtant endormie quelque par dans un labo hexagonal...

dimanche 5 octobre 2008

Les bons augures de David Provost...

laissent à penser que l'arrivée sur le marché des technologies de TAL (Traitement Automatique des Langues) annonce celle de réponses plurielles à des besoins industriels importants. On the cusp, belle forme parabolique. Fort bien.

Semantic science is being productized, differentiated, invested in by mainstream players and increasingly sought after in the business world

Je tique sur ce semantic science qui sent très fort la présentation commerciale, mais ce qui est dit ensuite n'est pas faux; c'est même très vrai : la demande existe, la technologie peut envisager de quitter les laboratoires pour arriver en contexte industriel, les formations universitaires doivent donc être reconnues à leur juste valeur.
Au-delà de la très aguicheuse quatrième section intitulée Who should read this report, qui fera en 38 pages un état de l'art profitable aussi bien aux business managers and strategists qu'aux software engineers, je laisse Marshall Kirkpatrick plier l'affaire de son excellente formule :

In fact, while Provost has glowingly positive things to about all the companies he surveyed, the absence of engagement with any of their shortcomings makes the report read more like marketing material than any objective take on what's supposed to be world-changing technology.

En effet, le champ couvert par les exemples relève surtout de la gestion d'information et d'outils permettant l'association de métadonnées aux documents, le tout dans un packaging qui tient plutôt de l'outil de travail collaboratif que d'un outil sémantique. A cet égard, la présentation d'Anzo, un module Excel développé par l'Université de Cambridge, apporte de l'eau à notre moulin.

Ce rapport me semble illustrer l'un des écueils liés à l'émergence de cette industrie : le flou autour d'un ensemble de technologies expérimentales à fort potentiel lucratif, avec des cahiers des charges encore mal définis, où les sites des entreprises citées exhibent plutôt de beaux schémas qui bougent et un panneau de success stories, que leurs papiers de recherche...

jeudi 18 septembre 2008

REI, veille stratégique : l'expertise linguistique et l'amélioration des systèmes

Les plateformes de gestion de l'information sont volontiers brandées "sémantique" par leurs éditeurs : voilà le constat de la tendance actuelle. On comprend bien le malheur du benêt linguiste, qui ne saisira pas qu'on lui fourre du dédoublonnage d'URLs dans le paradigme sémantique, lorsqu'il se retrouve face à un chef de produit tout heureux de sa belle interface glossy.

Cependant, le caractère concurrentiel du marché de la veille (un tour sur le site de l'i-expo2008 confortera cette idée) laisse bon espoir de voir émerger le besoin d'une réelle qualité dans l'analyse des contenus.

A cet égard, CELI-France développe une des technologies les plus pointues pour la gestion de l'information objective et subjective sur des données du Web. Son choix? Présenter l'expertise linguistique comme LA valeur ajoutée de son système.
Dans un très bon papier, ''Classification d'opinions par méthodes symbolique, statistique et hybride'', qui leur a valu le victoire au Workshop DEFT'07 (DEfi Fouille de Textes), l'équipe CELI-France donne la faveur aux résultats des méthodes hybrides. Les méthodes hybrides? Nous y reviendrons plus longuement dans un prochain billet, mais il s'agit d'améliorer les résultats des algorithmes d'apprentissage automatique (type Support Vector Machines ou Naive Bayes algorithm) avec le produit d'une modélisation linguistique des données (sous forme de grammaires symboliques).

la démarche hybride ... est importante non seulement pour des raisons scientifiques de performance (le meilleur résultat entre les technologies que nous avons adoptées) mais, aussi et surtout pour des raisons de développement et acceptation par le marché

Il ne sera plus longtemps possible pour l'éditeur de compter sur le flou ambiant des cahiers des charges autour de ces outils, le client est déjà sur le point de faire le deuil de son inculture. Oui, il pourra questionner sur la pertinence de la méthode de génération de votre nuage de mots, lui dont l'oeil humide offrait hier encore une vitreuse surface de réflexion à ces jolies chaînes de caractères colorées.

jeudi 4 septembre 2008

askBoss : le Powerset-like pour images

Quelques feuillets de ce petit carnet Web on été consacrés, çà et , à Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation en langage naturel.

a natural language image search powered by Yahoo Boss and Google App Engine

askBoss, justement, reprend et applique ce mode de consultation des données aux contenus images. Le moteur indexe les noms d'images. A priori, il indexe les chaînes de caractères exactes (au moins un des mots complets saisis dans la boîte de dialogue) et partielles (une des séries de lettres présentes dans au moins un des mots complets saisis dans la boîte de dialogue).
Comparez les résultats de Where am I? (indexation sur la suite am) et Who is Aphex Twin? (indexation sur les mots exacts aphex et twin).

askBoss.jpg

En passant, j'ai beaucoup rit en cherchant Who is Tim Berner's Lee? : des images en ribambelle, mais pas une de l'intéressé avant la deuxième page de résultats. L'aura passe sans doute mieux avec des photos de ses fameux cakes et des illustrations à l'effigie du WorldWideWeb.

lundi 18 août 2008

Loi de Zipf, Twitter et la monétisation

Un très complet article de BusinessWeek, paru ce matin, a pour incipit quelque chose qui tient presque de la sentence : Don't be surprised to see advertising on Twitter soon. It's about the only way the service can generate revenue. But will it be enough?

Question rhétorique, formulée pour qu'on ait envie d'y répondre Damn! I'm sure it won't be enough!

Fort bien. Ce qu'il y a de très intéressant, c'est une analogie à l'application de la loi de Zipf. Par chez nous les TAListes, la loi de Zipf est utilisée en tant que méthode empirique pour l'observation de la fréquence des mots dans un texte. Elle peut être envisagée comme un indice de l'informativité de la fréquence des formes (chaînes de caractères) dans un texte (cf. la Théorie de l'Information, Shannon).

Bon, donc, loi de Zipf et tweets, ou comment une loi de distribution statistique, qui pourrait permettre de concevoir un indice de significativité de vos contacts, permet en tous cas d'en prédire la limite quantitative. En effet,

Zipf's Law suggests that each subsequent thing in any series (such as your Twitter contacts) has predictable diminishing value. (Though Twitter) consists of small pools of people with gaps and limits on how they interact. This is important to marketers and investors, because it puts big brakes on how internal communications could propagate inside any social media network.

Nous y voilà! Les limites empiriques d'un réseau dont l'expansion est potentiellement infinie, qui nécessite donc des alternatives de monétisation autres que la vente d'espaces publicitaires ou qu'inciter les utilisateurs à payer. L'une des solutions soulevées par Ben Kunz, auteur de l'article en question : Twitter could extract money from user data.

Il est fort probable que l'on en vienne à ce type de solution, où, faisant fi de la protection des données personnelles, on applique des technologies de traitement automatique des opinions, par exemple, pour améliorer l'identification des cibles marketing. Nombre de travaux dans le champ de l'opinion mining ont précisément cet objectif.

A voir aussi : un billet de Palpitt fournit quelques observations sur les limites cognitives de l'expansion des réseaux sociaux.

- page 2 de 3 -