MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

lundi 2 mars 2009

Truevert : les bons augures de la communauté 3.0

The Truevert system, powered by OrcaTec's discovery toolkit, is narrowly defined around green, but it's definitely an eye-opening, fresh approach to an elusive problem.

dixit Fritz Nelson (InformationWeek), dans un billet très complet du mois de janvier, pour accueillir la sortie de Truevert, quelques mois auparavant (6 octobre 2008).

Un moteur qui a manifestement retenu son attention et qu'il a bien documenté, avec des vidéos édifiantes à l'appui (notamment l'interview de Herbet L. Roitblat, chercheur chez OrcaTec, qui en explique la technologie, visibles ici également). We take the meaning of the patterns of word usage, explique Roitblat. Au lieu de se fonder sur une catégorisation (jamais) exhaustive, Truevert opère sur les relations statistiques qui émergent entre les mots d'un document, procédant par apprentissage non supervisé.

Paul Miller postait sur ZDNet le jour de la sortie de Truevert, expliquant : Some of the search results are impressively on-target, but there’s still work to do…. Effectivement, l'apprentissage non supervisé n'est pas sans générer de bruit dans les résultats de recherche. Il semble cependant que les sets d'entraînement des algorithmes soient bien optimisés, pour une version bêta, rappelons-le.

L'une des fonctionnalités appréciables à la consultation des résultats est l'accès à la liste des termes pertinents, sur lesquels s'est appuyé le moteur : il suffit de cliquer sur l'icône d'information à côté du lien du résultat pour l'obtenir. Au moins, ce moteur est honnête!

truvert-interestingterms-icon.jpg

truevert-iterestingterms.jpg

Effectivement, il y a un peu de bruit là-dedans (charset utf parameter était l'intrus le plus évident à trouver pour une recherche sur paper). Mais cela ne fait pas faiblir les bons échos sur Truevert...

Fritz Nelson note :

The approach can be applied to any vertical using the same approach. You could even apply it to enterprise content management, given that most corporations have their own jargon -- you just train the engine on the documents that you index.

Jaymi Heimbuch (Treehugger.com) met en avant un aspect particulièrement intéressant sur la place d'un tel moteur sémantique dans le contexte du content mining :

the new web 3.0 features are likely to greatly impact online commerce and advertising

Ce constat fait écho à celui de Fritz Nelson : You also can imagine that if you can get more precise in your search results, a decent amount of ad revenue, in the form of better matching, might result.

Moins de coût pour la mise en service - le développement de ressources exogènes, en particulier thésaurus, lexiques et ontologies, ne sont pertinents que dans des cas précis et peu nombreux - et un impact majeur sur le commerce en ligne et la monétisation des applications web. De bons augures, disais-je...

Le mot de la fin : Charles Knight (altsearchengines.com) a testé pour nous le module Firefox de Truevert. Verdict :

Tried to stump Truevert with the question, "How deep is the ocean?" It returned the answer, " Mostly the ocean is about 4000 metres deep, but is deeper in places. ..." Well done!

dimanche 1 mars 2009

Truevert, un moteur sémantique "ontology-free"

truevert.jpgDéjà, l'équipe de développement a bien senti la tendance "éco(lo)", et revendique sa verditude comme ma lessive revendique son action pour l'environnement.

Outre l'emballage, Truevert, c'est avant tout un parti-pris surprenant pour un moteur sémantique de nos jours :

We have a semantic web of concepts when we link together all of the words and categories into an ontology and a set of rules for dealing with the elements of this ontology. ... This is the approach taken by the semantic web and by many of the systems that claim to do semantic search. ... The meaning as categorization view implies that there is a fixed set of categories that a word could refer to.

Et tout est là ...

It is capable of serving many needs, but it is not sufficient for semantic search.

Développé par une équipe de californiens, OrcaTec LLC, qui travaillent notamment sur le clustering, l'identification automatique des langues, la gestion de mails et l'identification thématique automatique, et bien sûr sur la recherche sémantique, Truevert est le fruit d'expertises plurielles, de la gestion de l'information aux statistiques, entre autres compétences liées à la recherche appliquée. Ils revendiquent un ancrage universitaire et industriel fort.

Mais revenons-en à l'outil.

Les résultats qu'il retourne sont donc le produit d'un approche émergentiste, où les algorithmes statistiques utilisés opèrent essentiellement sur la cooccurrence des chaînes de caractères. Truevert ne fait appel à aucune ressource exogène au moteur, et c'est là que résident toute sa puissance et son intérêt :

Truevert does not depend on any artificial taxonomy, ontology, thesaurus, dictionary, or require document authors to categorize their content (as in the so-called semantic web).

Parce qu'il y a d'autres façons d'aborder la recherche sémantique : abandonner les formalisations ontologiques du sens pour favoriser le "tout statistique"... ou le retour de l'apprentissage non supervisé.