MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - natural language processing

Fil des billets - Fil des commentaires

vendredi 5 février 2010

Siri arrive sur l'iPhone!

Alors, ça, c'est fait... Un très joli coup by SRI International, dont on regrette qu'il ne retentisse pas en Europe!

Siri, qui petit à petit fait son nid, je vous le disais, depuis le printemps dernier, arrive maintenant sur l'iTunes Store d'Apple : depuis hier, l'application Siri pour iPhone est disponible! mais seulement aux USA... dommage

http://blog.louisgray.com/2010/02/siri-brings-artificial-intelligence-to.html?utm_source=feedburner&utm_medium=twitter&utm_campaign=Feed%3A+LouisgraycomLive+(louisgray.com)&utm_content=Twitter

Les premières réactions postées à son sujet sur son étagère du Store ont plutôt une tonalité positive, voire même extatique :

A great app. Siri was able to figure out nearly everything I asked! A must have

I had read about the Siri service but was stunned with both the accuracy and efficacy of early use of this application. It seems to do what I want all apps to do, which is "just work." Not a big learning curve, except to figure out how many things Siri can do. Wonderful!

J'avais déjà abordé sur ce blog la bonne facture des bases de connaissances, l'appareillage ontologique et l'efficience des algorithmes d'apprentissage implémentés dans Siri. Ces qualités n'avaient d'ailleurs pas échappé à Marissa Mayer, VP Search Products & User Experience de Google, qui les rassemblait dans sa définition du "perfect search engine".

On reporte quelques bugs, mais ça ne l'empêchera sans doute pas de remporter un vif succès! A quand le portage sur les autres smartphones?

A voir pour tout savoir : Jetez-vous avec délectation sur cet excellent post de Louis Gray, qui vous dit tout (premiers tests, informations sur le moteur de reconnaissance vocale développé par Nuance et autres joyeuseries) sur cette belle appli!

lundi 23 novembre 2009

L'expert dans le système, le retour

Yahoo! a décidé d'humaniser ses résultats de recherche.

Il y a près d'un mois maintenant, Neteco.com revenait sur l'achèvement d'une course au brevet qui s'est presque éternisée - sept années tout de même - et qui, abrégée, aurait sans doute pas mal redessiné le rapport de force actuel dans le sillon des moteurs de recherche généralistes.

S'il avait été obtenu en 2002 ce brevet aurait permis à Yahoo! de protéger la technologie de son répertoire de sites Internet.

précise d'ailleurs la rédaction de Neteco.com. Mais après tout, qu'a-t-il de si spécial, ce brevet? Humaniser? Non, rien à voir avec le fait de rendre plus humain le moteur de recherche, de policer un affichage frustre pour la restitution des résultats, ni de le civiliser pour lui faire perdre son caractère primitif. Quoique...

Ce petit abus de langage - imprécision, quand tu nous tiens - se comprend mieux avec un dessin. En l'occurrence, dire que Yahoo! humanise ses résultats de recherche signifie tout simplement qu'il y a de l'intervention humaine dedans.

YahooBrevet (Cette figure est reprise de l'article cité ci-dessus chez Neteco.com, dont la provenance originale n'est d'ailleurs pas mentionnée.)

Le brevet en question repose en effet sur un procédé impliquant la présence d'humains pour raffiner les résultats d'algorithmes de recherche. Et Yahoo! de préciser :

« le classement par les intervenants humains permet d'obtenir des résultats plus affinés que par des processus automatiques »

Nous y voilà. Sans insister sur les potentiels bénéfices en termes de qualité qu'en pourrait retirer Microsoft pour son moteur Bing, je veux simplement souligner une tendance convergente entre des acteurs différents qui traitent des facettes variées mais fort semblables de notre manne contemporaine : l'information.

Et mettre le tout en perspective avec les bâts qui blessent de plus en plus sur le segment des social media monitoring technologies, qu'Asi Sharabi passait d'ailleurs au crible en août dernier sur le très bon No Man's Blog. Pour coller à la culture verbatim et vous laisser lire son excellent billet par vous-mêmes, je n'en citerai que cinq mots qui dressent le portrait d'une situation avec laquelle la linguiste que je suis ne peut qu'être d'accord : The technology is fairly stupid. Bien entendu, si on s'en tient à cela, rien ne sert d'écrire. Quelle tendance convergente voit-on émerger alors avec d'autres acteurs du traitement et de l'analyse d'information? La réhabilitation de l'utilisateur expert, pardi!

Dans le petit monde des études médias et de l'analyse d'opinion online, c'est pourtant encore peu habituel, les utilisateurs experts. Connaître le fonctionnement d'un moteur de recherche ou comprendre qu'analyser finement l'information demande une compétence avancée en solutions d'analyse linguistique? La belle affaire! Dans l'encore plus petit monde des éditeurs de logiciels TAL, on transite globalement vers les solutions d'aide aux linguistes. On en trouve même des échos dans le microcosme des spécialistes de l'analyse textuelle, sous la forme d'une linguistique des textes instrumentée.

La qualité d'analyse est à l'information ce que le savoir-faire helvète est à la haute horlogerie. C'est assez naturellement que ces différents acteurs de l'analyse d'information convergeront peu ou prou vers une réflexion méthodologique sur ce qu'il conviendrait plutôt d'appeler l'analyse linguistique assistée par ordinateur (ALAO). Et certains y travaillent d'ailleurs déjà ;)

jeudi 10 septembre 2009

Opinion Mining and Sentiment Analysis, Pang and Lee (2008)

Pang_Lee2008.jpg Une instructive lecture sur la dernière somme de référence en date sur l'opinion mining et la sentiment analysis. J'avais eu à en faire une note, que j'ai ressortie de mes cartons : cela mérite d'être partagé! On comprendra sans doute mieux en quoi (j'y reviendrai sans doute ultérieurement) la problématique de la modélisation linguistique est cruciale et constitue l'une des clés de l'évolution des systèmes d'opinion mining et de sentiment analysis. Ma petite note de lecture, donc...

Synopsis
Cet ouvrage consiste en une étude fondée sur plus de trois cent travaux de recherche, donnant un aperçu des évolutions dans le domaine de la fouille de données orientée opinion (opinion mining) et de l’analyse des sentiments (sentiment analysis). Il présente les techniques et approches développées et fournit un panorama de l’effort de recherche ainsi que des ressources existantes.

  • Historique, types d’applications et enjeux

L’émergence du World Wide Web et l’utilisation, aujourd’hui répandue, des applications issues des Technologies de l’Information et de la Communication (TIC), ont suscité l’apparition de nouveaux modes de communication, ce faisant, contribué à instaurer de nouveaux espaces de propagation de l’information. Pouvoir accéder, et partant, élaborer une métrique pour évaluer « ce qui est dit », « comment on le dit » et « sur qui/quoi on le dit », est alors devenu un objet de recherche, ainsi qu’un enjeu stratégique pour les entreprises et les institutions.

Si des chercheurs se sont penchés sur le sujet avant l’an 2000, c’est véritablement à partir de 2001 que le nombre de travaux s’accroît. La jeunesse de ce domaine suscite des instabilités terminologiques importantes. En effet, l’effort de recherche s’est essentiellement orienté sur des problématiques applicatives, laissant les aspects épistémologiques de côté. Les travaux traitant de questions purement linguistiques sont par ailleurs peu nombreux.

Quatre grands types d’applications sont mis en exergue par les auteurs : (i) les applications liées aux sites d’avis de consommateurs, par exemple sur les films ou les jeux vidéos ; (ii) l’intégration de modules spécifiques dans des systèmes de e-commerce, de GRC (Gestion de la Relation Clientèle) ou encore de Questions/Réponses ; (iii) les applications de veille stratégique et de veille institutionnelle ; (iv) enfin, l’analyse de discours politiques.

Bien qu’elles découlent de la fouille de données et de l’analyse de textes, les technologies d’opinion mining et de sentiment analysis posent des problèmes spécifiques, qui les distinguent et les rendent plus complexes, à plusieurs égards, que les premières.

  • Problématiques de classification et d’extraction de l’information

La classification documentaire et l’extraction d’information sont les principaux domaines sur lesquels s’est concentré l’effort de recherche : les auteurs y consacrent d’ailleurs une analyse détaillée. Cet effort, lié à la mise au point d’algorithmes, donne lieu à la discussion de nouveaux concepts et méthodes, comme en témoigne l’élaboration de modèles de langage dédiés.

Des problématiques variées sont exposées. L’intégration des traits linguistiques – en particulier les propriétés syntaxiques et le traitement de la négation – et statistiques – l’impact de la présence et de la fréquence des occurrences de formes dans les textes – dans le processus d’analyse, constituent un enjeu important pour l’amélioration des systèmes.

L’adaptation au domaine de ces derniers, tout comme l’impact de l’utilisation de données manuellement annotées, est aussi largement traité. De ce point de vue, c’est avant tout le problème de la réutilisabilité des ressources qui est considéré. Par ailleurs, les technologies de classification et d’extraction sont abordées selon les approches d’apprentissage supervisé et non supervisé.

Améliorer la prise en compte du contexte dans l’analyse, en particulier par l’intégration de la structure discursive, impacte autant la classification que l’extraction. Cependant, l’identification des attributs d’un produit ou d’une opinion dans l’avis des consommateurs, comme celle des foyers de l’expression de l’opinion – la question des opinion holders –, sont plus spécifiquement liées à des problématiques d’extraction.

  • Problématiques de résumé automatique de l’information

Deux paradigmes de résumé automatique, qui prennent soit pour objet un seul texte, soit un ensemble de textes, sont successivement abordés par les auteurs. En effet, les améliorations de l’un impactent celles de l’autre. Les problématiques sont communes, même s’il faut distinguer entre les techniques de résumé fondées sur l’identification automatique de thématiques de celles qui ne le sont pas.

Corrélativement, certains systèmes peuvent intégrer une dimension temporelle pour la représentation graphique de l’information. Observer l’évolution de l’opinion en fonction du temps s’avère utile lors de l’étude de thématiques ou d’avis de consommateurs sur une marque, un produit ou un service. L’analyse du discours politique est également enrichie par des considérations diachroniques.

Les données utilisées provenant le plus souvent de sites d’avis de consommateurs, les applications de résumé automatique peuvent aussi tirer parti de la réputation des utilisateurs, par le biais de scores qui leur sont associés par la communauté, qui évalue ainsi leur crédibilité et donc, indirectement, leur pouvoir d’influence, de recommandation.

  • Domaines d’applications variés, problématiques élargies

Les travaux confirmant les corrélations entre les ventes de produits et la tendance positive ou négative des avis de consommateurs se sont multipliés. Le principe de la recommandation d’achat « de bouche à oreille », que les avis publiés en ligne permettent de suivre et d’analyser, donc la question de l’influence des leaders d’opinion sur les consommateurs, a un impact économique important.

De manière générale, les applications de fouille de données visant à étudier les préférences des individus, posent parfois un problème de confidentialité, en particulier lorsqu’il s’agit de données récoltées à partir de sources non accessibles publiquement.

Un autre aspect mentionné par les auteurs concerne la manipulation de l’information. En effet, la participation des acteurs économiques, voire institutionnels, aux conversations en ligne, peut avoir pour objectif d’introduire un biais dans la diffusion de l’information. Certaines études ont en effet révélé que ces acteurs sont attentifs à la façon dont tirer profit de cette diffusion.

  • Ressources publiquement accessibles

Cette section traite en premier lieu des banques de données textuelles, annotées ou non, dont la plupart ont été élaborées à partir de 2005. D’autre part, 2006 marque l’entrée de tâches d’opinion mining ou de sentiment analysis dans les campagnes d’évaluation TREC et NTCIR. Plusieurs ressources lexicales, par exemple des dictionnaires annotés ou des lexiques d’adjectifs, sont également pris en compte.

Il faut souligner que les ressources mentionnées sont en anglais. Loin d’être un biais initié par les auteurs, la bibliographie met en exergue le fait que peu de chercheurs européens se sont penchés sur le problème jusqu’à présent. En conséquence, les tutoriaux, banques bibliographiques et autres listes de diffusion – en particulier la liste SentimentAI – sont mises en ligne par quelques universitaires nord-américains.

Cet ouvrage est, à l’heure actuelle, l’un des premiers à donner accès à une telle compilation de travaux, problématiques et ressources, dans le domaine de l’opinion mining et de la sentiment analysis.

Référence complète : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

jeudi 28 mai 2009

AV, Siri! Ou l'intelligence pour iPhone et Smartphones

Image_1.pngSiri, l'AV (assistant virtuel) qui va révolutionner l'expérience utilisateur sur l'iPhone et autres Smartphones. Quelques explications...

Siri n'a pas l'objectif de révolutionner la recherche en ligne sur terminal mobile, mais de proposer des solutions pour faciliter la vie : ce n'est pas là d'un énième Google Killer, mais un assistant virtuel dont l'arrivée marque un tournant technologique majeur dans notre interaction quotidienne avec nos goodies high-tech!

Mais avant tout, qu'est-ce qu'un assistant virtuel ?

  • aider l'utilisateur à accéder à une information ou à exécuter une tâche;
  • comprendre l'intention de l'utilisateur en fonction du contexte;
  • travailler pour l'utilisateur, i.e. être autonome dans l'exécution des tâches intermédiaires pour apporter une réponse finale à l'utilisateur.

Le shift? On passe de l'adaptation d'outils - ce qu'on fait constamment en configurant les interfaces qu'on utilise au quotidien - à l'interaction avec une application intelligente. (A voir : la Technology Review du MIT en parlait dans son édition de mars/avril)

On annonce des performances exceptionnelles en reconnaissance vocale - ce que Google offre déjà avec Android - mais sur le principe, Siri fait mieux : c'est un agent conversationnel nouvelle génération, en plus d'être un outil qui n'impose pas à l'utilisateur de se servir des touches pour exécuter des actions. Tout peut se faire à la voix. L'intégration de fonctionnalités de synthèse vocales sont à l'étude, ce qui garantirait une accessibilité optimale aux utilisateurs atteints de cécité, par exemple.

Siri mettrai à profit les technologies d'autocomplétion et de navigation contextuelle. Son avantage saillant ? L'opérationnalisation, i.e. découper votre besoin en tâches et sous-tâches à exécuter pour retourner une réponse pertinente, en fonction des données contextuelles qu'il connaît sur son utilisateur. Une belle performance d'utilisation des algorithmes d'apprentissage automatique!

Les ressources actuelles pour la géolocalisation, la reconnaissance et l'extraction d'entités nommées (noms de personnes et dates, par exemple) et les technologies fondées sur les ontologies du langage (ne poussons pas le rêve trop loin, c'est un assistant, pas un humain en boîte) seraient particulièrement bien exploitées. En bref, une grille de lecture du monde étendue qui vous facilite la vie!

Siri, une startup qui aura bien exploité sa levée de fonds de 8,5 millions de dollars en 2008!

Pour aller plus loin : à lire chez nos amis de TechCrunch et de Twine

lundi 4 mai 2009

SEM'09// Les présentations sont en ligne!

Comme prévu, les présentations faites au Search Engine Meeting sont en ligne ici. Merci à toute l'équipe d'Infonortics!

Bonne lecture!

dimanche 26 avril 2009

The Search Engine Meeting : ne cherchez plus, ça se passe ici...

Tout commence en 1987, quand Monsieur Harry Collier a fondé Infonortics...

Harry Collier, diplômé de Oxford en Histoire Moderne, a beaucoup travaillé dans le domaine de l'édition scientifique, entre autres. Cela explique sans nul doute pourquoi Infonortics Ltd., structure spécialisée dans l'organisation de conférences, séminaires, publications et mise en oeuvre de projets liés à l'information électronique, est l'une des références dans le domaine.

Les conférences organisées par Monsieur Collier - le Search Engine Meeting et l'ICIC -, sont reconnues par les professionnels et les chercheurs d'un large panel de secteurs liés à l'information électronique, pour leur sérieux. En effet, Monsieur Collier s'est toujours refusé à faire de ces événements des "foire-à-tout" : l'objectif des meetings qu'il organise est de générer un véritable échange, et non pas de donner un lieu supplémentaire à la superficialité de l'avant-vente de solutions logicielles.

Monsieur Everett Brenner, l'autre père du Search Engine Meeting, a activement contribué au développement de cette conférence. Je vous invite à en apprendre davantage sur cet éminent personnage, qui a pressenti "the Information Age" il y a près d'un demi-siècle. Visionnaire.

Monsieur Stephen E. Arnold - dont je parle plus longuement dans un billet suivant - a publié une fort instructive interview de Monsieur Collier sur son blog, arnoldit. Extraits.

The conference, more than a decade into in-depth explorations of search and content processing, is one of the most substantive search and content processing programs. The speakers have come from a range of information retrieval disciplines. The conference organizing committee has attracted speakers from the commercial and research sectors. Sales pitches and recycled product reviews are discouraged.

Conferences about search, search engine optimization, and Intranet search have proliferated in the last decade. Some of these shows focus on the “soft” topics in search and wrap the talks with golf outings and buzzwords.

The Infonortics search conference has remained sharply focused and content centric.

Voilà pour la mise en bouche. Monsieur Collier donne explicite davantage l'esprit de cet évènement.

we wanted serious talks on serious search domain challenges (...) we have tried to avoid areas such as SEO and product puffs and to keep to the path of meaty, research talks for either search engine developers, or those in an enterprise environment charged with implementing search technology. The meetings tread a line between academic research meetings (lots of equations) and popular search engine optimization meetings (lots of commercial exhibits).

Search — and the problems of search — remains central, but we are also interested in areas such as data or text mining (extracting sense from masses of data) as well as visualization and analysis (making search results understandable and useful). We feel the center of attention is moving away from “can I retrieve all the data?” to that of “how can I find help in making sense out of all the data I am retrieving?”

It’s a meeting without too much razzmatazz; we only have a small, informal exhibition, no real sponsorship, and we try to downplay the commercialized side of the search world.

Because of Infonortics international background, we have a pretty high international attendance compared with most meetings in the United States: many Europeans, Koreans and Asians. I’ve already used the word “serious”, but this is how I would characterize our typical attendee.

A l'heure où nombreux sont ceux qui croient qu'il faut "buzzer pour exister", la sérieuse longévité du Search Engine Meeting rime aussi avec "discrétion". Parce que dans une "foire-à-tout", il y a trop de bruit pour réfléchir.

Le Search Engine Meeting, édition 2009, commence aujourd'hui à 13h30, au Fairmont Copley Plaza, Boston (MA).

vendredi 10 avril 2009

Xerox, Powerset et le mot de Marissa Mayer sur l'avenir des technologies linguistiques

Dans un article de février 2007, le New York Times aborde les liens entre Xerox et les équipes de Powerset.

C'est fort instructif sur l'historique de Powerset et sur le positionnement sans doute prometteur du PARC, une filiale de Xerox Corporation créée en 2002.

Il faut remarquer qu'il y a deux ans, l'implémentation de technologies linguistiques dans les moteurs de recherche laissait sceptique, comme le souligne l'article :

Researchers have predicted breakthrough applications for natural languages for years, but the technology has proved usable in only limited contexts, turning many experts into skeptics about its potential, at least in the short term.

Marissa Mayer, Vice-présidente de la section "Produits de recherche et services aux utilisateurs" chez Google, faisait alors une très juste remarque sur les développements des technologies linguistiques :

In a November interview, Marissa Mayer, Google’s vice president for search and user experience, said: “Natural language is really hard. I don’t think it will happen in the next five years.”

Si le pronostic est juste, encore trois petites années... Le temps de la maturité!

lundi 23 mars 2009

L'âge des widgets utiles : quelles applications après le e-commerce?

LaTransparenceDesPrix

Voyons voir... un comparateur de prix déguisé en widget? Un widget avec du comparateur de prix dedans? La seconde formulation correspondrait mieux à l'idée du "widget utile".

"Widget utile"? Oui, car si par définition, l'une des réalités recouvertes par le terme "widget" est forcément utile (un élément de l'interface d'une application, par exemple un bouton), les instances de widgets les plus répandues sur le web sont des widgets interactifs, qui permettent d'obtenir de l'information, oui, (météo, dictionnaire, post-it...), mais de l' information qui n'est pas corrélée à l'activité immédiate de l'internaute.

Et pourtant, il est certain qu'une grande part des internautes bénéficierait d'outils dont la fin n'est pas leur téléchargement et l'abonnement gratuit à un webservice quelconque. Surtout que, rappelons-le, l'internaute lambda peut aussi être un chargé de veille, un analyste d'opinion online, un linguiste dont le terrain d'analyse est sur le web, ou appartenir à n'importe quelle autre profession qui a de près ou de loin à voir avec l'infini vivier d'information non structurée à sémantiser qu'est le web.

De LaTransparenceDesPrix, le widget avec du comparateur de prix dedans, il est dit :

Dès qu’il « reconnaît » un produit, il affiche automatiquement les offres des concurrents.

Un peu plus loin, on peut lire :

En vous suivant sur les sites marchands que vous visitez, le widget “ La Transparence des Prix” joue le rôle d’un véritable compagnon d’aide à l’achat.

Nous y voilà : un compagnon d'aide à ... à la recherche d'information, à l'analyse thématique automatique, à l'extraction d'entités nommées... et caetera, et caetera (bref, avec du TAL dedans, pourquoi pas!)

Un véritable arsenal de widgets pour partir à l'attaque du touffu web, autant d'applications dont on pourrait s'équiper en fonction du besoin du moment, au gré des analyses à réaliser et des contenus observés.

LaTransparenceDesPrix, une application e-commerce dont le principe pourrait bien être appliqué à la veille d'information en tous genres? Le portage me semble prometteur : c'est aujourd'hui un créneau vide, sur lequel personne, à ma connaissance, n'est encore venu s'insérer. Gageons que l'idée fera son chemin et que d'ici un an ou deux, les premiers essais seront sortis des tubes!

A noter : ITR-News en parlait la semaine dernière.

A noter(2) : le mode "widget" n'est pas exclusif, mais les interfaces, d'une part, et les pratiques des internautes, d'autre part, rendraient ces outils plus accessibles, pour des raisons d'ergonomie et de simplicité d'utilisation. On retrouve un peu cette idée de "modularité ++" dans les widgets de Plasma, la partie visuelle de l'environnement de bureau KDE.

A noter(3) : une excellente ressource pour ceux qui veulent en savoir plus sur les petits envahisseurs que sont les widgets, par Guillaume Thavaud (cellule de veille (veille@brioude-internet.fr) de la société Brioude-Internet Référencement) sur abondance.com.

mardi 21 octobre 2008

Twitrratr : how to make a fuzz over nothing

Today, twitrratr, another utterance of the so-called "semantic-apps" flooding the web those days, made quite a buzz.

I just cannot resist but to report here the presentation provided on the "about" page of twitrratr :

" We wanted to keep things as simple as possible. We built a list of positive keywords and a list of negative keywords. We search Twitter for a keyword and the results we get back are crossreferenced against our adjective lists, then displayed accordingly. There are obvious issues with this, so if you have any ideas on how we could do this better let us know."

As it is not necessary to demonstrate the weakness of this twitter-based application, which conclusion you can just come to by yourself while trying it, I would like to give here a very basic linguistic point of view, in order to avoid pointless amazement.

We are going to make a little simple exercise, with words taken from the "positive" list and the "negative" list twitrratr uses to process its automatic classification of tweets. Let's just keep in mind that the "neutral" category is the rubbish one, where the tweets with no positive or negative clusters are classified.

1) semantic ambiguity, even in a 140 characters message

Let's begin with two clusters taken from the "negative list" : "completely wrong" and "nothing is".

What if you were to say (a) "Obama wasn't completely wrong" and (b) "I guess nothing is better than that"? The context effect of the negation in (a) reverses the semantic orientation of the cluster. In (b), the comparative adjective "better (than)" also does so. Hence, those simple cases show the importance of the context in which negative clusters appears.

It also works for positive clusters, such as (c) "awesome" or (d) "thank you" : "Let's try this awesome shit" or "I thank you for letting me down". (c) is a case of ironic utterance; up to now, the automatic identification of irony is an unsolved problem, even for the best searchers in natural language processing. (d) shows an example of the sarcastic opinion expressed by the speaker; sarcasm is as tough to process automatically as irony, because these turns of phrases need context to be interpreted properly.

One could think that short text messages tend to be easier to process, but determining the semantic orientation of sentences is a difficult task to accomplish without taking into account the grammatical relations between the words.

2) why natural language processing should be of prior interest for twitrratr developpers

The best technologies developped for the automatic processing of subjective content, such as those developed by CELI, can analyse the positive or negative orientation of sentences. But this achievement requires several levels of linguistic analysis : the grammatical level, that is to say the relations between words in a sentence, is not easy to represent. Why? Because this is natural language, which characteristic are ambiguity and semantic variation depending on the context (textual context, social context, cultural context) in which words occur.

That's why twitrratr developers need a linguist to avoid most of the mistakes in automatic classification of tweets, such as the following, found using the query "cartier" (classified in the positive tweets because of the positive cluster "hilarious"):

twittrratr.jpg

After reading this tweet, do you consider it as a positive one?

dimanche 5 octobre 2008

Les bons augures de David Provost...

laissent à penser que l'arrivée sur le marché des technologies de TAL (Traitement Automatique des Langues) annonce celle de réponses plurielles à des besoins industriels importants. On the cusp, belle forme parabolique. Fort bien.

Semantic science is being productized, differentiated, invested in by mainstream players and increasingly sought after in the business world

Je tique sur ce semantic science qui sent très fort la présentation commerciale, mais ce qui est dit ensuite n'est pas faux; c'est même très vrai : la demande existe, la technologie peut envisager de quitter les laboratoires pour arriver en contexte industriel, les formations universitaires doivent donc être reconnues à leur juste valeur.
Au-delà de la très aguicheuse quatrième section intitulée Who should read this report, qui fera en 38 pages un état de l'art profitable aussi bien aux business managers and strategists qu'aux software engineers, je laisse Marshall Kirkpatrick plier l'affaire de son excellente formule :

In fact, while Provost has glowingly positive things to about all the companies he surveyed, the absence of engagement with any of their shortcomings makes the report read more like marketing material than any objective take on what's supposed to be world-changing technology.

En effet, le champ couvert par les exemples relève surtout de la gestion d'information et d'outils permettant l'association de métadonnées aux documents, le tout dans un packaging qui tient plutôt de l'outil de travail collaboratif que d'un outil sémantique. A cet égard, la présentation d'Anzo, un module Excel développé par l'Université de Cambridge, apporte de l'eau à notre moulin.

Ce rapport me semble illustrer l'un des écueils liés à l'émergence de cette industrie : le flou autour d'un ensemble de technologies expérimentales à fort potentiel lucratif, avec des cahiers des charges encore mal définis, où les sites des entreprises citées exhibent plutôt de beaux schémas qui bougent et un panneau de success stories, que leurs papiers de recherche...