The Truevert system, powered by OrcaTec's discovery toolkit, is narrowly defined around green, but it's definitely an eye-opening, fresh approach to an elusive problem.

dixit Fritz Nelson (InformationWeek), dans un billet très complet du mois de janvier, pour accueillir la sortie de Truevert, quelques mois auparavant (6 octobre 2008).

Un moteur qui a manifestement retenu son attention et qu'il a bien documenté, avec des vidéos édifiantes à l'appui (notamment l'interview de Herbet L. Roitblat, chercheur chez OrcaTec, qui en explique la technologie, visibles ici également). We take the meaning of the patterns of word usage, explique Roitblat. Au lieu de se fonder sur une catégorisation (jamais) exhaustive, Truevert opère sur les relations statistiques qui émergent entre les mots d'un document, procédant par apprentissage non supervisé.

Paul Miller postait sur ZDNet le jour de la sortie de Truevert, expliquant : Some of the search results are impressively on-target, but there’s still work to do…. Effectivement, l'apprentissage non supervisé n'est pas sans générer de bruit dans les résultats de recherche. Il semble cependant que les sets d'entraînement des algorithmes soient bien optimisés, pour une version bêta, rappelons-le.

L'une des fonctionnalités appréciables à la consultation des résultats est l'accès à la liste des termes pertinents, sur lesquels s'est appuyé le moteur : il suffit de cliquer sur l'icône d'information à côté du lien du résultat pour l'obtenir. Au moins, ce moteur est honnête!

truvert-interestingterms-icon.jpg

truevert-iterestingterms.jpg

Effectivement, il y a un peu de bruit là-dedans (charset utf parameter était l'intrus le plus évident à trouver pour une recherche sur paper). Mais cela ne fait pas faiblir les bons échos sur Truevert...

Fritz Nelson note :

The approach can be applied to any vertical using the same approach. You could even apply it to enterprise content management, given that most corporations have their own jargon -- you just train the engine on the documents that you index.

Jaymi Heimbuch (Treehugger.com) met en avant un aspect particulièrement intéressant sur la place d'un tel moteur sémantique dans le contexte du content mining :

the new web 3.0 features are likely to greatly impact online commerce and advertising

Ce constat fait écho à celui de Fritz Nelson : You also can imagine that if you can get more precise in your search results, a decent amount of ad revenue, in the form of better matching, might result.

Moins de coût pour la mise en service - le développement de ressources exogènes, en particulier thésaurus, lexiques et ontologies, ne sont pertinents que dans des cas précis et peu nombreux - et un impact majeur sur le commerce en ligne et la monétisation des applications web. De bons augures, disais-je...

Le mot de la fin : Charles Knight (altsearchengines.com) a testé pour nous le module Firefox de Truevert. Verdict :

Tried to stump Truevert with the question, "How deep is the ocean?" It returned the answer, " Mostly the ocean is about 4000 metres deep, but is deeper in places. ..." Well done!