MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 27 mai 2010

Des nouvelles de Wolfram

''Wolfram, notre ami le moteur computationnel dont on a déjà eu l'occasion de parler sur ce petit carnet web - ici, ici et notamment - a refait pulser certaines régions du web en premier Quarter 2010. Par quoi cette émulation fut-elle générée ? Par un prix, pardi !''

Incipit. Wolfram participe au South by Southwest (SXSW, Inc.), un événement culturel global (cinéma, musique, technologies digitales) actif depuis 1987, au Texas (USA). Sélectionnée pour figurer parmi les finalistes le 12 février, c'est l'annonce des lauréats des SXSW web awards 2010 le 14 mars qui coiffe la famille d'outils Wolfram de succès.

La brève AFP qui en découle est relayée par Le Figaro le 15 mars 2010. Un billet de Motrech sur le prix SXSW remporté par Wolfram Alpha, en parle également dès le 18 mars.

Ce retour sur le devant de la scène est fort bénéfique à Wolfram, qui fait l'objet d'une excellente présentation, parue le 26 mai, dans la Tribune de Genève :

une pléiade de sites Web, parmi lesquels un compendium de connaissances mathématiques (Wolfram Math World, mathworld.wolfram.com), un répertoire de visualisations interactives (Demonstrations Project, demonstrations.wolfram.com) et le moteur «computationnel» Wolfram Alpha (lire ci-dessus). Plus léger et amusant, Wolfram Tones (tones.wolfram.com) permet de composer sa propre musique à partir de modèles sonores et de formules mathématiques. Bluffant!

Ce qui est sûr, c'est que le moteur a bénéficié d'une nette amélioration des résultats : la base de données computables s'est considérablement étendue.

Seule petite ombre : Wolfram a d'emblée pâti de verrous en Traitement Automatique des Langues, ce que nous expliquait Tom Krazit de chez CNET News en août 2009, dans un billet republié sur la version US de ZDNet où il rapportait les propos de Stephen Wolfram :

linguistic problems are to blame for half of the occasions when Wolfram Alpha does not return a result. That percentage is changing as Wolfram refines the science behind Wolfram Alpha, but it will take some time.

Voyons-voir, avec un petit test simple. La base en Traitement Automatique des Langues, c'est avant tout de travailler avec des unités textuelles "propres", i.e. bien isolées et pour lesquelles on a observé une grande quantité de phénomènes d'occurrence afin d'identifier des problèmes d'ambiguïté, de silence et de bruit potentiels.

Voyons donc :

Etape 1 : WolframAlpha_test_1.png

Constat 1 > Le moteur ne sait pas comment interpréter.

Etape 2 : WolframAlpha_test_2.png

Constat 2 > Le moteur interprète et retourne une réponse. Il m'explique ce qu'est un astérisque.

Etape 3 : WolframAlpha_test_3.png

Constat 3 > Le moteur interprète et retourne une réponse. Il m'explique à nouveau ce qu'est un astérisque.

Qu'en dire ? Le blanc (espace entre deux caractères alphanumériques) n'est pas un critère distinctif pour le moteur, il retourne donc la même réponse pour la séquence "a*" et "a *". On suppute dans l'oreillette que la segmentation du texte saisi par l'utilisateur ne fait probablement pas trop cas de ce qui se trouve à gauche ou à droite pour y isoler des unités.

Oui, je l'avoue, si la réponse du Test 3 me paraît pertinente et riche en informations sur le caractère qu'est l'astérisque, j'espérais secrètement que Wolfram mette en rapport la recherche du Test 2 avec l'écriture conventionnelle de l'étoile de Kleene, souvent notée V*. En regexp, c'est proche (recherche d'un caractère alphabétique en casse majeure ou mineure suivi d'une astérisque).

Par contre, regardez : Wolfram_whatisalinguist.png

Et oui, Wolfram est un moteur bien cultivé :) Les ressources encyclopédiques du système sont en constante expansion, et même si des remarques plus consistantes sont possibles - sur la segmentation par exemple - je pense que ces points sont en cours de résolution et que Wolfram Alpha est véritablement à la hauteur des retours positifs suite au SXSW.

A voir pour en savoir plus sur l'ensemble des initiatives Wolfram :

  • http://www.wolfram.com/solutions/france/
  • http://blog.wolframalpha.com/
  • http://www.wolframalpha.com/
  • http://www.wolfram.com/

samedi 3 avril 2010

Quelles perspectives pour les systèmes de Q/A ?

Les systèmes de Questions/Answers - Q/A pour les intimes - ne sont pas nés de la dernière pluie, et arrosent le grand public depuis plusieurs décennies déjà. Véritables moteurs de recherche évolués, ce sont des solutions clairement adaptées aux problématiques de Data Journalism et sans doute à certaines attentes des utilisateurs de Search Engines grand public. Tentative de panorama.

Les mythes véhiculés par les médias audiovisuels prenant comme sujet la machine détentrice de connaissance absolue ne se comptent plus : le paradigme s'étend de 3PO dans Star Wars à Ziggy dans Code Quantum. Une bonne part de ces mythes sont matérialisés par les systèmes de Q/A - ou Q/R pour "Questions/Réponses" en français dans le texte. N'étant pas spécialiste de mythocritique, je vous propose quelques pistes pour vous faire une idée de ce qu'est un système de Q/A.

Q/A, c'est quoi ? Très simplement, un système de Q/A est un moteur de recherche, en ce qu'on adresse une question (une requête) au système et qu'on en attend un ou plusieurs résultats pertinents quant à une requête donnée. Comme un moteur de recherche, un système de Q/A fait appel à des fonctionnalités de recherche documentaire - pour fouiller un ensemble de documents - et inclut des calculs de pertinence - pour retourner à l'utilisateur des documents susceptibles de contenir la/les réponse(s) adéquate(s).

Pourquoi donc parler de "moteur de recherche évolué" ? Parce qu'à la différence d'un moteur de recherche traditionnel, un système de Q/A intègre des modules de traitement linguistique un peu plus complexes : d'une part, il doit traiter des questions, et non des séries de mots-clés; d'autre part, il doit retourner soit une réponse (ou une série de réponses) pertinente, soit un passage textuel (ou une série de passages) comportant la réponse à la question. Par exemple, imaginons le scénario suivant, dans le cadre d'un système de Q/A basé sur Wikipédia en français :
Question :

Quand Jacques Chirac est-il né ?

Réponse (basée sur la page Wikipédia en français dédiée à Jacques Chirac) :

Jacques Chirac est né le 29 novembre 1932

On imagine bien la complexité des traitements impliqués, étant donnée la variété des formulations possibles pour une même question, la sélection de sources documentaires fiables, sans même parler de points plus spécifiques (traitement des Entités Nommées, typage des questions,...), sans même se placer dans un contexte multilingue. Bref, la conception de tels système est bien loin d'être une mince affaire!

Et aujourd'hui, quels exemples concrets ? Reprenons un peu l'actualité de quelques acquisitions, par exemple, des firmes de Redmond et de Mountain View :

Qu'en dire ? Au moins que les systèmes de Q/A intégralement automatiques ne sont pas viables dans un contexte de "real life", et ne sont qu'encore partiellement efficaces sur des bases documentaires fermées et thématiquement homogènes (i.e. des ensembles de documents liés au même domaine, par exemple le domaine médical). Les algorithmes implémentés pour cibler des besoins grand public sont donc plutôt conçus pour router les questions vers des humains qui ont le plus de probabilités de pouvoir répondre correctement.

Les intiatives à la Orange ou certaines tentatives de Google (non, je ne bondirai pas une énième fois sur l'emploi plus ou moins impropre de la lexie "sémantique"), illustrent parfaitement l'avenir des systèmes de Q/A : restituer de l'information encyclopédique. Dommage, moi aussi j'aurais aimé continuer à nourrir le fantasme d'avoir un jour un 3PO ou un Ziggy ;)

dimanche 21 février 2010

Goggles : un oeil neuf sur la Traduction Automatique

Goggles, le bien nommé, c'est le type d'application qui représente le mieux ce que Google peut avoir d'idées innovantes pour mettre au point un applicatif qui change (positivement) l'expérience utilisateur sur les terminaux mobiles. M'est avis, bien entendu.

L'Official Google Translate Blog dévoilait, le 17 février dernier, le prototype de Goggles. Le principe ? (1) On prend une portion de texte en photo (2) l'application transmet la photo à un module d'OCR (3) le résultat de l'OCRisation est transmise à un module de traduction automatique (TA), (4) qui renvoie le texte traduit à l'utilisateur final. Une façon judicieuse de mettre au point un procédé en phase avec les besoins utilisateur, en s'appuyant sur des technologies robustes telles que l'OCR. L'application s'appuie, bien entendu, sur Google Translate pour la TA. Le prototype présenté est fonctionnel de l'Allemand vers l'Anglais.

Loin de centrer le propos sur la TA - l'Allemand et l'Anglais, couple de langues entre lesquelles les proximités linguistiques sont fortes, me semble un choix logique pour valider un processus expérimental -, c'est plutôt le caractère innovant, au sens d'innovation dans l'expérience utilisateur, de Goggles qui retient l'attention.

Un procédé efficace, qui concrétise un peu plus l'ouverture au grand public des technologies de TAL : à quand la suite ? En attendant, vous pouvez voir la présentation du prototype de Goggles par Hartmut Neven, Google Scientist , pour concrétiser votre idée sur tout ça :


La démo de Goggles, par Hartmut Neven, Google Scientist

vendredi 18 septembre 2009

Le TAL français relancé par le volet numérique : petit panorama

NKM a fait un certain bruit médiatique avec les mesures relatives au volet numérique du plan de relance, plutôt focalisé autour du Serious Gaming que des Projets Web Innovants. Je m'intéresse ici surtout à ces derniers, qui ont généré une petite émulation dans la bulle TAL française.

Le mois de septembre a marqué un tournant pour quelques dizaines d'entreprises et laboratoires universitaires qui s'étaient, en juin dernier, lancés dans une haletante ruée vers les Projets Web Innovants. Comme promis, près de trois mois plus tard, le Ministère de l'Economie, de l'Industrie et de l'Emploi annonce la liste des projets financés.

Concernant les laboratoires plutôt connus pour leur spécialité TAL (et pas uniquement en ingénierie documentaire ou en IHM), on remarque le LIP6, le LINA et différents pôles de l'INRIA (Nancy et Sophia-Antipolis notamment), qui partagent la scène avec des écoles, en particulier Sciences-Po Médialab, et Télécom ParisTech.

Côté entreprises, on note surtout :

  • la belle performance de Syllabs, jeune entreprise qui fleurit à sa troisième année, avec Feed-ID, un projet plutôt orienté référencement que pur TAL, pour une agrégation de compétences qui semble prometteuse, compte tenu des briques technologiques développées par cette société et qui sont pour partie destinées à l'aide aux linguistes; un point intéressant à retenir lorsque l'on sait les proximités des solutions de TAL avec les nouvelles industries de la veille web et du monitoring d'information;
  • l'air du temps que respire Lingway, avec un projet de représentation cartographique et d'analyse sémantique - qui n'est pas sans rappeler d'autres projets dans la même veine, en particulier le projet Doxa, débuté l'an dernier;
  • le très intéressant projet GlipFix, dédié à la co-création de contenus informationnels de qualité, porté par FaberNovel, qui s'est pour l'occasion notamment associé à Exalead - fleuron du moteur de recherche made in France, par ailleurs très bien implanté sur le segment des solutions entreprise;
  • on reste dans le thème de l'édition collaborative, avec le projet Topos, autour duquel on retrouve PERTIMM, entreprise également située sur le segment du traitement de l'information.

Sans savoir s'ils ont tous répondu à cet appel d'offres, j'aurais aimé avoir une trace de Temis, SineQua ou Synapse Développement - pour ne citer qu'eux. Tout cela augure cependant un bel avenir à ces - presque incontournables - noms du TAL hexagonal, et instaure un terrain favorable au développement de cette industrie en France.

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

lundi 1 juin 2009

"The 100 most mentioned brands on Twitter" : de l'erreur de méthode à la désinformation

Début mai, Revolutionmagazine publiait un billet avec un titre plein de promesses, une porte ouverte (gratuite) à une étude de visibilité des marques sur Twitter : LE classement des 100 marques les plus citées.

Par l'odeur alléchée, je m'y rends, à l'affût de quelque découverte : une nouvelle application, une bonne idée, un biais méthodologique particulier... Le chapeau du billet annonce tout de même :

Revolution teamed up with i-level's social media agency Jam to reveal the 100 most mentioned brands on Twitter and how they are aiming to capitalise on the buzz

Le tableau à cinq colonnes, précisant la marque, son rang, le nombre de mentions de la marque, le compte Twitter et le nombre de followers, est un panorama un peu léger, mais passons. Pour entrée en matière, ça fait l'affaire.

LE problème? La matière justement... Aucune information sur la méthode employée, pas de contextualisation des résultats, un tableau, simplement un tableau. Indiqué par une astérisque, le seul commentaire du tableau précise :

*Figures are correct according to Jam's research which took place over three days in April 2009

Quels jours? Quels plages horaires? Un petit lien vers la 'Jam social media agency'? On n'en saura pas plus. Et pour le how they are aiming to capitalize on the buzz, on repassera.

L'idée d'observer la visibilité et l'implication des marques sur Twitter est bonne, incontournable même pour un état du 2.0. Mais les résultats de telles observations ne valent que par le contexte qui les entoure, surtout quand on parle de l'analyse d'un stream continu d'information. C'est ce point qu'il faut mettre en avant pour les lecteurs de l'étude : c'est un instantané du web qui doit être interprété avec précaution.

Des outils et une méthode de travail adaptée auraient rendu cet essai plus concluant et plus riche d'enseignements pour la métacommunauté des analystes web. Quid d'une application de TAL avec quelques bases élémentaires de statistique textuelle dedans, des ressources pour traiter plus finement les contenus? Pourquoi pas un petit graphique de l'évolution du nombre de citations par jour dans les tweets, mieux, en fonction d'une typologie des tweets?

Avec une méthodologie inexistante (un décompte manuel sur trois jours sans contexutaliser les résultats), il serait sans doute bon d'être un peu plus précautionneux lorsqu'on joue avec les effets d'annonce.

Parce qu'une information mal traitée est un premier pas vers la désinformation.

dimanche 4 janvier 2009

FeedVis by Jason Priem : la contradiction du contexte et de la lemmatisation

OF en parle : FeedVis, une application qui permet de faire du tri dans la nuée de flux que peut être amené à ingurgiter le veilleur web. Son auteur, Jason Priem, donne quelques infos et propose sa nouvelle release en téléchargement ici.
OF met bien en exergue le problème de la gestion de l'encodage (UTF8, tu connais?), avec cette instructive image que je me permets de reporter ici :

Feedvis.jpg

Associer une timeline à la génération du nuage de tags construit à partir de vos flux RSS? Proposer quelques résultats de calculs statistiques élémentaires sur la fréquence des occurrences de formes? Revendiquer une couche de lemmatisation avant l'application de ces calculs statistiques? "Sounds nice!", direz-vous, mais en fait, rien de neuf sous le soleil de 2009.

Je salue l'initiative de développer ce genre d'applications web, mais linguistiquement parlant, je tique surtout sur la lemmatisation. Jason Priem nous explique :

Conversations change, and I wanted to see that. I wanted more context

Reprenons :

  • le lemme est la forme non fléchie, par exemple d'un verbe (lemme = aller, forme fléchie = va) ou d'un substantif (lemme = mot, forme fléchie = mots);
  • la lemmatisation consiste donc à rapporter un ensemble de formes fléchies à une forme non fléchie, dite lemmatisée (stratégies, stratégique, stratégiquement rapportées à stratégie, par exemple);
  • en TAL, la lemmatisation est un procédé souvent utilisé car il permet d'obtenir de "meilleures" statistiques sur les fréquences d'occurrences de formes dans un texte; l'idée est la suivante : au lieu d'avoir des statistiques pour stratégies, stratégique et stratégiquement isolément, on regroupe les résultats de ces différentes formes fléchies en les couplant à celles du lemme stratégie;
  • meilleures statistiques? Selon moi, il n'est pas utile d'appliquer une couche de lemmatisation lorsque, comme Jason Priem, l'on prétend vouloir "more context". Pourquoi? Simplement parce que la lemmatisation est une réduction de la variation lexicale présente dans les textes et évacue véritablement le contexte.
  • le contexte (si l'on chipotait, l'on parlerait plutôt de cotexte, d'ailleurs, mais passons) est justement accessible par la diversité des formes présentes dans le texte : les fréquences d'occurrence de pieds ou de pied sont liées au contexte (c'est-à-dire à des emplois différents dans le discours : le pied de la montagne et les pieds de mon ami, par exemple)

En somme :

  1. la lemmatisation maquille le changement dans les conversations
  2. la justification de son emploi est très discutable, d'un point de vue linguistique en tous cas : le contexte, c'est la variation des formes; pourquoi alors les réduire à un artefact, le lemme?

samedi 3 janvier 2009

Petites notions de statistique textuelle

Occurrence? Forme? Fréquence absolue ou relative? Kézako? Petit mémo pour ceux qui travaillent sur les textes...

  • les occurrences correspondent aux unités dans lesquelles la chaîne graphique - la chaîne de caractères qui compose le texte - est découpée;
  • les formes sont des types d'occurrences, c'est-à-dire qu'elles correspondent à des segments ayant la même chaîne graphique (exemple : dans le début de ce billet, on peut compter 3 occurrences de la forme les);
  • la chaîne graphique est découpée par des séparateurs - ou segmenteurs - : les types, donc les formes, ont un nombre d'occurrence dans le texte, comme on vient de le voir;
  • la segmentation permet d'isoler dans le texte des unités de décompte, donc des segments de texte à partir desquels sont effectuées des opérations statistiques.

Lorsque l'on travaille sur les textes, c'est généralement dans la perspective de les contraster, de les comparer les uns aux autres. Introduisons ici l'acception de la notion de corpus la plus intuitive : un corpus est un ensemble de textes.
Afin de pouvoir analyser un corpus, il convient d'introduire la notion de partition : l'ensemble de textes, découpé en unités minimales ou occurrences, doit subir un second découpage en parties; définir différentes partitions du corpus permet de les comparer entre elles.

TLE.jpg

Comment corréler les formes, leurs occurrences et la partition du corpus? Au moyen d'un TLE (Tableau Lexical Entier). Un TLE est une matrice creuse, qui permet de comparer les parties en fonction du nombre des occurrences de formes. Le découpage en parties dépend des hypothèses d'analyse émises dans le cadre de l'étude d'un corpus, à la différence de la segmentation en occurrences, qui dépend, quant à elle, des séparateurs des unités minimales du texte considérées (les suites de caractères séparées par des blancs, les segments de texte entre virgules, par exemple).
Le nombre de formes dans une partie est une sous-fréquence de la fréquence d'occurrences totale dans le corpus. Cela nous permet d'aborder la distinction entre les notions de fréquence absolue et fréquence relative :

  • la fréquence absolue correspond au nombre d'occurrences réellement observé pour une forme donnée. Ce nombre n'est pas rapporté à une autre grandeur; la fréquence absolue ne permet pas de comparaison : on ne peut se fier à cette seule mesure pour interpréter la significativité des formes dans le corpus.
  • la fréquence relative, quant à elle, rend comparables les fréquences absolues, en prenant en compte la longueur des parties. Cette dernière doit être considérée, car le calcul de la fréquence relative d'une forme dans le corpus relève alors d'un décompte des occurrences dans des ensembles de longueur différente. On dira donc que la fréquence relative est la fréquence absolue de la forme, rapportée à la longueur de la partie.

Hope it helps!

vendredi 10 octobre 2008

La coloration thématique des contenus textuels : une réelle innovation?

"Enfin un outil qui permet une couche d'analyse par dessus les statistiques sur les liens entre les blogs", me suis-je exclamée en lisant la présentation, comme toujours, très brillante, de Marshall Kirkpatrick (ReadWriteWeb), de l'outil Memeorandum.

En lisant ce très bon papier, je me suis souvenue avoir vu des développements analogues. Eh oui, en France, on fait beaucoup moins de bruit autour des innovations concoctées par nos chercheurs CNRS... C'est bien dommage, car en 2001, Pierre Beust, chercheur à l'Université de Caen, s'intéressait déjà au développement de technologies pour ce type d'applications. Je ne peux donc que recommander la lecture de son article de l'époque, Acquisition de classes sémantiques par coloriage thématique des textes électroniques. Je me permets d'en reproduire ici l'abstract :

Cet article présente une application appelée ThemeEditor dont le but est de permettre une acquisition supervisée de classes sémantiques. Cette acquisition est réalisée dans le cours d’une tâche interactive d’analyse interprétative de textes électroniques. Le logiciel d’étude proposé met en oeuvre un principe de coloriage thématique dans un texte et plus généralement dans un corpus de textes électroniques. Il s’agit de mettre en évidence, en fonction des classes sémantiques acquises ou en cours d’acquisition, la répartition des thèmes et leurs différentes formes d’enchaînements.

Ou comment ce qui nous paraît innovant aujourd'hui ne date certainement pas d'hier... Ou comment garder à l'esprit que, quand bien même l'innovation paraît surtout venir des US, elle est pourtant endormie quelque par dans un labo hexagonal...

dimanche 5 octobre 2008

Les bons augures de David Provost...

laissent à penser que l'arrivée sur le marché des technologies de TAL (Traitement Automatique des Langues) annonce celle de réponses plurielles à des besoins industriels importants. On the cusp, belle forme parabolique. Fort bien.

Semantic science is being productized, differentiated, invested in by mainstream players and increasingly sought after in the business world

Je tique sur ce semantic science qui sent très fort la présentation commerciale, mais ce qui est dit ensuite n'est pas faux; c'est même très vrai : la demande existe, la technologie peut envisager de quitter les laboratoires pour arriver en contexte industriel, les formations universitaires doivent donc être reconnues à leur juste valeur.
Au-delà de la très aguicheuse quatrième section intitulée Who should read this report, qui fera en 38 pages un état de l'art profitable aussi bien aux business managers and strategists qu'aux software engineers, je laisse Marshall Kirkpatrick plier l'affaire de son excellente formule :

In fact, while Provost has glowingly positive things to about all the companies he surveyed, the absence of engagement with any of their shortcomings makes the report read more like marketing material than any objective take on what's supposed to be world-changing technology.

En effet, le champ couvert par les exemples relève surtout de la gestion d'information et d'outils permettant l'association de métadonnées aux documents, le tout dans un packaging qui tient plutôt de l'outil de travail collaboratif que d'un outil sémantique. A cet égard, la présentation d'Anzo, un module Excel développé par l'Université de Cambridge, apporte de l'eau à notre moulin.

Ce rapport me semble illustrer l'un des écueils liés à l'émergence de cette industrie : le flou autour d'un ensemble de technologies expérimentales à fort potentiel lucratif, avec des cahiers des charges encore mal définis, où les sites des entreprises citées exhibent plutôt de beaux schémas qui bougent et un panneau de success stories, que leurs papiers de recherche...

- page 1 de 2