MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

mardi 15 février 2011

Reprises, interactions textuelles, échanges asynchrones

Tels sont les trois mots-clés qui résument la présentation d'une de mes recherches en cours. L'objectif ? Décrire et modéliser les phénomènes linguistiques liés à la cohérence conversationnelle dans les échanges asynchrones sur Internet.

J'ai eu la chance d'assister à une journée d'étude un peu particulière : celle l'avènement officiel de la Fédération CLESTHIA.

Ce fut extrêmement intéressant de voir une autre facette de "la recherche en marche", celle qui sort de son laboratoire pour nouer des relations d'émulation et d'échange entre chercheurs de domaines connexes. Nous nous sommes donc retrouvés, traductologues, spécialistes de l'analyse des discours - politique, littéraire, de presse-, linguistes fins connaisseurs du français parlé, avec quelques TAListes au milieu. Tous dans l'optique d'échanger sur une thématique fort intéressante, qui est celle du "discours rapporté", du "discours autre", chaque présentation étant l'occasion de mieux comprendre l'appréhension de notre objet d'étude par les autres.

Une grande chance que la mienne, donc, de pouvoir aller présenter mes petits travaux devant une telle audience ! Eh oui, ça stresse toujours quand on revient de l'entreprise (et des présentations clients), d'aller parler d'un problème de linguistique "hard-core" devant des dizaines de linguistes chevronnés... Une grande chance également que ce travail ait été bien reçu : je vous le fais donc partager :)

Brève intro : je travaille en ce moment sur les forums (interactions textuelles, échanges asynchrones), dans une perspective Opinion Mining (dont l'e-réputation est un ersatz, si l'on reprend l'acception qu'ont de ce terme nos amis philosophes).

Bonne consultation et n'hésitez pas à me contacter si cela vous intéresse :)

mardi 18 janvier 2011

Glozz, l'outil pour gloser en liberté

L'art de la glose, c'est d'abord l'art des annotations, et c'est un peu le moyen des herméneutiques quotidiennes déployées par les <insert-random-word>-analystes qui développent des études et autres rapports d'analyse. Ou des linguistes qui travaillent sur corpus. De tous ceux-là, donc, Glozz devrait susciter l'intérêt.

Glozz est une plateforme dédiée à l'annotation et à l'exploration de corpus textuels, librement téléchargeable. Cet outil est développé par des chercheurs français en TAL (Traitement Automatique des Langues), dans le cadre du projet ANR ANNODIS par le GREYC, en collaboration avec l'ERSS et l'IRIT.

Je vous propose de découvrir une première facette de cet outil, celle de l'annotation de corpus. On garde tout de même en mémoire l'énorme intérêt de GlozzQL, langage de requêtes qui permet d'interroger les annotations réalisées, aspect que je mets de côté pour le moment. Je mets également de côté toutes les considérations liées à la méthodologie de mise en place d'une campagne d'annotation (adaptation de modèle, définition de la grille, rôdage, ...). L'objectif est vraiment de partager ma première expérience utilisateur de cet outil, et comme pour le moment celle-ci consiste en de l'annotation... :D oui, j'adore ça !

La belle facette de l'annotation de corpus, disait-on... cela commence par une application Java, exit donc les problèmes de plateforme : ça tourne sous Windows, Linux et Mac OS X, no worries. D'un point de vue end user et mise en oeuvre de la campagne d'annotation, quatre points-clés :

  • la prise en main est accessible, mais pas encore user-friendly ; il faut passer par l'invite de commande pour lancer le .jar ;

Lancement de Glozz via le terminal

  • l'interface permet deux points de vue simultanés sur le fil textuel (global et local en même temps) ;

Vues du fil textuel

  • la puissance du système d'annotation - récursivité, quand tu nous tiens - qu'il est possible de mettre en place ;

Récursivité du système d'annotation

  • la synchronisation de plusieurs trames d'annotation projetées sur le cadre du corpus confère un confort et une grande flexibilité du système d'annotation (ex : trame d'annotation modifiable en temps réel)

Chargement en temps réel des modèles d'annotation


ÉTAPES D'UTILISATION

  • convertir son corpus .txt au format requis

Lors du premier import du corpus via l'interface, on crée deux fichiers de sortie :
(i) l'un au format .ac, qui est le cadre des coordonnées du corpus et auquel on associe
(ii) un fichier au format .aa, dans lequel sont stockées les trames d'annotation instanciées par la suite.

Charger et convertir son corpus au format requis

  • importer son corpus "prêt-à-annoter"

Il faut ensuite charger simultanément le cadre et la trame, pour l'instant vides, du corpus.

Charger le corpus avec son cadre (fichiers .ac et .aa)

  • annoter ... mais avec quoi ?

Il faut à présent importer le fichier contenant la grille d'annotation que vous souhaitez projeter sur le corpus ; on passe bien entendu sur l'étape préalable de réflexion qui consiste à définir la grille d'annotation en elle-même. Ce fichier est un "annotation model" et est distingué par l'extension .aam : le modèle d'annotation peut être directement importé depuis l'interface.

Charger le fichier .aam (modèle d'annotation)

A noter :
(i) la flexibilité du système, car on peut modifier et réimporter directement un modèle d'annotation à tout moment ;
(ii) la puissance du système, qui permet de travailler le corpus avec différentes grilles de description très facilement, sans l'altérer. Par "altérer", j'entends que dans la plupart des campagnes d'annotation - tout du moins les quelques-unes auxquelles j'ai eu la chance de participer - les annotations sont intégrées au fil textuel, et non pas associées comme c'est le cas dans Glozz.

  • et maintenant, annotez !

La prise en main est assez simple une fois qu'on a intégré quelques éléments de signalétique propres à l'interface (distinguer les boutons pour instancier une annotation des boutons pour modifier une annotation) ; la navigation simultanée "local + global" du corpus est rend tout simplement la tâche infiniment plus confortable, surtout lorsque vous avez la bonne idée de travailler sur des fils de conversation de plusieurs centaines - et encore, je minimise - de messages :)

Je n'ai pas testé s'il est possible de travailler en mode collaboratif sur un projet d'annotation, mais c'est certainement faisable et confère donc un fort potentiel d'utilisation à cette plateforme. Dans des versions ultérieures, l'applicatif pourrait facilement trouver sa place dans le flux de travail d'analystes en entreprise, ou encore favoriser le développement de projets de recherche sur des corpus collaboratifs.

A noter ! petite astuce si jamais vous avez un corpus un peu volumineux : lancez l'application en lui donnant plus de mémoire :
java -Xmx1024m -jar chemin .jar #pour allouer 1Go
java -Xmx2048m -jar chemin .jar #pour allouer 2Go

mercredi 22 décembre 2010

Modélisation en linguistique et perspectives du TAL

Il n'est pas toujours simple d'expliquer à des linguistes dépourvus d'outils informatiques, tout autant qu'à des ingénieurs dépourvus de culture linguistique, l'importance de la modélisation des phénomènes linguistiques, dont l'implémentation permet la validation expérimentale pour les uns, le gain qualitatif du système d'analyse pour les autres.

Lors d'un séminaire dispensé à Paris X Nanterre, plusieurs étudiants de Master présentaient leurs spécialités à partir de références bibliographiques proposées par l'organisateur. J'avais choisi de travailler des articles de Bernard Victorri, Directeur de Recherche au LaTTiCe, qui sont riches et très bien documentés. L'objectif ? Tenter de fournir une synthèse qui permette :

  • aux linguistes de se faire une idée des applications de TAL et de l'importance de la qualité de la modélisation pour la performance des systèmes ;
  • aux ingénieurs d'avoir un panorama des travaux et des problématiques où l'ingénierie gagne en qualité grâce à l'apport de la linguistique.
Ces slides ont été réalisés il y a deux ans, mais me semblent toujours d'actualité, surtout s'ils sont consommés à titre introductif !
#add-on : apparemment, les embed Slideshare ne sont pas super amis de la plateforme DotClear, l'affichage du Slideshare ci-dessus pouvant pâtir de cette mauvaise entente. Si c'est le cas, je vous invite à consulter les slides ici :)

mardi 2 novembre 2010

Blekko : aimables échos ?

Début novembre, après avoir frissonné d'Halloween, une partie de la sphère web FR et US s'émeut à la sortie de Blekko. Passons sur le principe du slashtag c'est vrai qu'on manquait d'un useless buzzword de plus qui est, m'est avis, la partie la moins intéressante de l'outil.

Blekko HomepageBlekko, c'est le fruit d'un projet débuté en 2007 et porté par une levée de fonds de 24 millions de dollars US. Si on le présente le pauvre comme un n-ième outsider dans la "who's the next G-killer race", il est fort probable que les termes de la question ne soient pas optimalement posés par le marronnier des tech journals online, comme ç'avait déjà été le cas pour Wolfram Alpha. Passons, c'est un point de détail dans la tendance à laquelle on assiste.

Bon, premier modulo : la sphère web FR ne s'émule pas vraiment sur le sujet. La news est diffusée dans les rubriques Tech ici et là, mais les internautes ne sont pas impliqués au point de laisser un avis, tout du moins sur LeMonde.fr, France24.com et ActuAbondance.com.

Bon, second modulo : comparer n'importe quel search engine à Google c'est facile pour la rhétorique, mais c'est un point de détail qui suscite des réactions pas toujours aimables chez les webbeurs qui se creusent sur la question :

Why have slashtags when you can perform such an advanced search on Google? There are startups that want to become big companies, and there are startups that want to be bought out by the likes of Google. Blekko is squarely in the latter: they want to excite a certain user base to create smart lists, and then sell their lists and users to Google.

ou encore :

Remember: Google News uses its own factors for rankings, while Bing appears to use sophisticated criteria for its cool recipes results. Users need to remember that Blekko slashtags like "news" and "techblogs" won't necessarily return the kind of recent, relevant results you'd expect when you search them. Instead, it returns the highest ranking results from a certain bucket of sites.

peut-on par exemple lire sur le site de Ryan Beale , là où les commentaires ont une tonalité représentative de l'accueil fait à Blekko, malgré l'avis plutôt positif de l'auteur. Un autre internaute, commentant la news de BusinessInsider sur le sujet, ajoute très justement :

The problem with "transparency" in a search engine is that it invites manipulation.

Un rapport avec la tendance dont je parle plus haut ? Précisément, je vous disais qu'il y avait une scission dans les stratégies d'accès pertinent à l'information :

Le recours à l'humain pour garantir la qualité des informations, les structurer, les enrichir et ainsi en faire des connaissances : voilà le sillon dans lequel s'inscrit Blekko, comme Yahoo! l'a fait en 2005, comme Google l'a mis en place un temps pour optimiser les performances de Google Translate, comme l'industrie de la veille web et des études web quali est en train d'en prendre conscience. Mais si, mais si, tout arrive !

samedi 30 octobre 2010

Caution : NLP age incoming

Les faits

Conversation about content is king, nous disait en avril la dernière étude Pew Internet.

Premier constat : cela change la donne des stratégies pour sortir vainqueur de la guerre de l'attention et impacter sa cible ; autrement dit :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

L'autre volet de la question est mis en avant par Martin Hayward dans une tribune pour Researchers du mois de mars dernier :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably

constate-t-il, avant de conclure :

we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

L'analyse des contenus en ligne : vers une rénovation des expertises

Quel impact pour les acteurs du marché de la veille et des études quanti/quali online ? En premier lieu, la nécessité de rénover profondément l'expertise de leurs équipes : la qualité d'analyse dépend de la qualité du veilleur. Un veilleur mal formé ou n'ayant pas les compétences adéquates pour l'analyse qualitative des données web représente une perte de valeur ajoutée.

D'un autre côté, les solutions d'analyse "clé en main" que certains éditeurs proposent aux agences de veille et d'étude - pour l'analyse des parcours d'information, des opinions, etc... - ne feront illusion qu'un temps : une analyse qualitative tire toujours sa valeur ajoutée de l'analyste, in fine.

Mais si ! Et ce n'est même pas moi qui le dit, c'est l'amie Christelle Ayache, Spécialiste TAL chez CapDigital, qui argumente en ma faveur dans un article de Cyrille Chausson pour LeMagIT, tout frais du 29 octobre :

La validation humaine sera toujours nécessaire. C’est même ce qu’on doit aujourd’hui faire comprendre au grand public.

A la bonne heure ! L'expertise humaine au coeur de la recherche pertinente, propos d'un précédent billet, prend une nouvelle dimension : celle d'une invitation à la pluridisciplinarité méthodologique et technique chez les acteurs du secteur. Qui se fera certainement par l'intégration dans les équipes de profils initiés aux outils et méthodes du NLP. Non ! pas le Neuro Linguistic Programming, le Natural Language Processing ! Oui, l'autre nom du TAL en anglais :)

jeudi 27 mai 2010

Des nouvelles de Wolfram

Wolfram, notre ami le moteur computationnel dont on a déjà eu l'occasion de parler sur ce petit carnet web - ici, ici et notamment - a refait pulser certaines régions du web en premier Quarter 2010. Par quoi cette émulation fut-elle générée ? Par un prix, pardi !

Incipit. Wolfram participe au South by Southwest (SXSW, Inc.), un événement culturel global (cinéma, musique, technologies digitales) actif depuis 1987, au Texas (USA). Sélectionnée pour figurer parmi les finalistes le 12 février, c'est l'annonce des lauréats des SXSW web awards 2010 le 14 mars qui coiffe la famille d'outils Wolfram de succès.

La brève AFP qui en découle est relayée par Le Figaro le 15 mars 2010. Un billet de Motrech sur le prix SXSW remporté par Wolfram Alpha, en parle également dès le 18 mars.

Ce retour sur le devant de la scène est fort bénéfique à Wolfram, qui fait l'objet d'une excellente présentation, parue le 26 mai, dans la Tribune de Genève :

une pléiade de sites Web, parmi lesquels un compendium de connaissances mathématiques (Wolfram Math World, mathworld.wolfram.com), un répertoire de visualisations interactives (Demonstrations Project, demonstrations.wolfram.com) et le moteur «computationnel» Wolfram Alpha (lire ci-dessus). Plus léger et amusant, Wolfram Tones (tones.wolfram.com) permet de composer sa propre musique à partir de modèles sonores et de formules mathématiques. Bluffant!

Ce qui est sûr, c'est que le moteur a bénéficié d'une nette amélioration des résultats : la base de données computables s'est considérablement étendue.

Seule petite ombre : Wolfram a d'emblée pâti de verrous en Traitement Automatique des Langues, ce que nous expliquait Tom Krazit de chez CNET News en août 2009, dans un billet republié sur la version US de ZDNet où il rapportait les propos de Stephen Wolfram :

linguistic problems are to blame for half of the occasions when Wolfram Alpha does not return a result. That percentage is changing as Wolfram refines the science behind Wolfram Alpha, but it will take some time.

Voyons-voir, avec un petit test simple. La base en Traitement Automatique des Langues, c'est avant tout de travailler avec des unités textuelles "propres", i.e. bien isolées et pour lesquelles on a observé une grande quantité de phénomènes d'occurrence afin d'identifier des problèmes d'ambiguïté, de silence (ce qui est pertinent et que l'on n'arrive pas à capter) et de bruit (ce que l'on capte et qui n'est pas pertinent) potentiels.

Voyons donc :

Etape 1 : WolframAlpha_test_1.png

Constat 1 > Le moteur ne sait pas comment interpréter.

Etape 2 : WolframAlpha_test_2.png

Constat 2 > Le moteur interprète et retourne une réponse. Il m'explique ce qu'est un astérisque.

Etape 3 : WolframAlpha_test_3.png

Constat 3 > Le moteur interprète et retourne une réponse. Il m'explique à nouveau ce qu'est un astérisque.

Qu'en dire ? Le blanc (espace entre deux caractères alphanumériques) n'est pas un critère distinctif pour le moteur, il retourne donc la même réponse pour la séquence "a*" et "a *". On suppute dans l'oreillette que la segmentation du texte saisi par l'utilisateur ne fait probablement pas trop cas de ce qui se trouve à gauche ou à droite pour y isoler des unités.

Oui, je l'avoue, si la réponse du Test 3 me paraît pertinente et riche en informations sur le caractère qu'est l'astérisque, j'espérais secrètement que Wolfram mette en rapport la recherche du Test 2 avec l'écriture conventionnelle de l'étoile de Kleene, souvent notée V*. En regexp, c'est proche (recherche d'un caractère alphabétique en casse majeure ou mineure suivi d'une astérisque).

Par contre, regardez : Wolfram_whatisalinguist.png

Et oui, Wolfram est un moteur bien cultivé :) Les ressources encyclopédiques du système sont en constante expansion, et même si des remarques plus consistantes sont possibles - sur la segmentation par exemple - je pense que ces points sont en cours de résolution et que Wolfram Alpha est véritablement à la hauteur des retours positifs suite au SXSW.

A voir pour en savoir plus sur l'ensemble des initiatives Wolfram :

  • http://www.wolfram.com/solutions/france/
  • http://blog.wolframalpha.com/
  • http://www.wolframalpha.com/
  • http://www.wolfram.com/

samedi 3 avril 2010

Quelles perspectives pour les systèmes de Q/A ?

Les systèmes de Questions/Answers - Q/A pour les intimes - ne sont pas nés de la dernière pluie, et arrosent le grand public depuis plusieurs décennies déjà. Véritables moteurs de recherche évolués, ce sont des solutions clairement adaptées aux problématiques de Data Journalism et sans doute à certaines attentes des utilisateurs de Search Engines grand public. Tentative de panorama.

Les mythes véhiculés par les médias audiovisuels prenant comme sujet la machine détentrice de connaissance absolue ne se comptent plus : le paradigme s'étend de 3PO dans Star Wars à Ziggy dans Code Quantum. Une bonne part de ces mythes sont matérialisés par les systèmes de Q/A - ou Q/R pour "Questions/Réponses" en français dans le texte. N'étant pas spécialiste de mythocritique, je vous propose quelques pistes pour vous faire une idée de ce qu'est un système de Q/A.

Q/A, c'est quoi ? Très simplement, un système de Q/A est un moteur de recherche, en ce qu'on adresse une question (une requête) au système et qu'on en attend un ou plusieurs résultats pertinents quant à une requête donnée. Comme un moteur de recherche, un système de Q/A fait appel à des fonctionnalités de recherche documentaire - pour fouiller un ensemble de documents - et inclut des calculs de pertinence - pour retourner à l'utilisateur des documents susceptibles de contenir la/les réponse(s) adéquate(s).

Pourquoi donc parler de "moteur de recherche évolué" ? Parce qu'à la différence d'un moteur de recherche traditionnel, un système de Q/A intègre des modules de traitement linguistique un peu plus complexes : d'une part, il doit traiter des questions, et non des séries de mots-clés; d'autre part, il doit retourner soit une réponse (ou une série de réponses) pertinente, soit un passage textuel (ou une série de passages) comportant la réponse à la question. Par exemple, imaginons le scénario suivant, dans le cadre d'un système de Q/A basé sur Wikipédia en français :
Question :

Quand Jacques Chirac est-il né ?

Réponse (basée sur la page Wikipédia en français dédiée à Jacques Chirac) :

Jacques Chirac est né le 29 novembre 1932

On imagine bien la complexité des traitements impliqués, étant donnée la variété des formulations possibles pour une même question, la sélection de sources documentaires fiables, sans même parler de points plus spécifiques (traitement des Entités Nommées, typage des questions,...), sans même se placer dans un contexte multilingue. Bref, la conception de tels système est bien loin d'être une mince affaire!

Et aujourd'hui, quels exemples concrets ? Reprenons un peu l'actualité de quelques acquisitions, par exemple, des firmes de Redmond et de Mountain View :

Qu'en dire ? Au moins que les systèmes de Q/A intégralement automatiques ne sont pas viables dans un contexte de "real life", et ne sont qu'encore partiellement efficaces sur des bases documentaires fermées et thématiquement homogènes (i.e. des ensembles de documents liés au même domaine, par exemple le domaine médical). Les algorithmes implémentés pour cibler des besoins grand public sont donc plutôt conçus pour router les questions vers des humains qui ont le plus de probabilités de pouvoir répondre correctement.

Les intiatives à la Orange ou certaines tentatives de Google (non, je ne bondirai pas une énième fois sur l'emploi plus ou moins impropre de la lexie "sémantique"), illustrent parfaitement l'avenir des systèmes de Q/A : restituer de l'information encyclopédique. Dommage, moi aussi j'aurais aimé continuer à nourrir le fantasme d'avoir un jour un 3PO ou un Ziggy ;)

dimanche 21 février 2010

Goggles : un oeil neuf sur la Traduction Automatique

Goggles, le bien nommé, c'est le type d'application qui représente le mieux ce que Google peut avoir d'idées innovantes pour mettre au point un applicatif qui change (positivement) l'expérience utilisateur sur les terminaux mobiles. M'est avis, bien entendu.

L'Official Google Translate Blog dévoilait, le 17 février dernier, le prototype de Goggles. Le principe ? (1) On prend une portion de texte en photo (2) l'application transmet la photo à un module d'OCR (3) le résultat de l'OCRisation est transmise à un module de traduction automatique (TA), (4) qui renvoie le texte traduit à l'utilisateur final. Une façon judicieuse de mettre au point un procédé en phase avec les besoins utilisateur, en s'appuyant sur des technologies robustes telles que l'OCR. L'application s'appuie, bien entendu, sur Google Translate pour la TA. Le prototype présenté est fonctionnel de l'Allemand vers l'Anglais.

Loin de centrer le propos sur la TA - l'Allemand et l'Anglais, couple de langues entre lesquelles les proximités linguistiques sont fortes, me semble un choix logique pour valider un processus expérimental -, c'est plutôt le caractère innovant, au sens d'innovation dans l'expérience utilisateur, de Goggles qui retient l'attention.

Un procédé efficace, qui concrétise un peu plus l'ouverture au grand public des technologies de TAL : à quand la suite ? En attendant, vous pouvez voir la présentation du prototype de Goggles par Hartmut Neven, Google Scientist , pour concrétiser votre idée sur tout ça :


La démo de Goggles, par Hartmut Neven, Google Scientist

vendredi 18 septembre 2009

Le TAL français relancé par le volet numérique : petit panorama

NKM a fait un certain bruit médiatique avec les mesures relatives au volet numérique du plan de relance, plutôt focalisé autour du Serious Gaming que des Projets Web Innovants. Je m'intéresse ici surtout à ces derniers, qui ont généré une petite émulation dans la bulle TAL française.

Le mois de septembre a marqué un tournant pour quelques dizaines d'entreprises et laboratoires universitaires qui s'étaient, en juin dernier, lancés dans une haletante ruée vers les Projets Web Innovants. Comme promis, près de trois mois plus tard, le Ministère de l'Economie, de l'Industrie et de l'Emploi annonce la liste des projets financés.

Concernant les laboratoires plutôt connus pour leur spécialité TAL (et pas uniquement en ingénierie documentaire ou en IHM), on remarque le LIP6, le LINA et différents pôles de l'INRIA (Nancy et Sophia-Antipolis notamment), qui partagent la scène avec des écoles, en particulier Sciences-Po Médialab, et Télécom ParisTech.

Côté entreprises, on note surtout :

  • la belle performance de Syllabs, jeune entreprise qui fleurit à sa troisième année, avec Feed-ID, un projet plutôt orienté référencement que pur TAL, pour une agrégation de compétences qui semble prometteuse, compte tenu des briques technologiques développées par cette société et qui sont pour partie destinées à l'aide aux linguistes; un point intéressant à retenir lorsque l'on sait les proximités des solutions de TAL avec les nouvelles industries de la veille web et du monitoring d'information;
  • l'air du temps que respire Lingway, avec un projet de représentation cartographique et d'analyse sémantique - qui n'est pas sans rappeler d'autres projets dans la même veine, en particulier le projet Doxa, débuté l'an dernier;
  • le très intéressant projet GlipFix, dédié à la co-création de contenus informationnels de qualité, porté par FaberNovel, qui s'est pour l'occasion notamment associé à Exalead - fleuron du moteur de recherche made in France, par ailleurs très bien implanté sur le segment des solutions entreprise;
  • on reste dans le thème de l'édition collaborative, avec le projet Topos, autour duquel on retrouve PERTIMM, entreprise également située sur le segment du traitement de l'information.

Sans savoir s'ils ont tous répondu à cet appel d'offres, j'aurais aimé avoir une trace de Temis, SineQua ou Synapse Développement - pour ne citer qu'eux. Tout cela augure cependant un bel avenir à ces - presque incontournables - noms du TAL hexagonal, et instaure un terrain favorable au développement de cette industrie en France.

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

- page 1 de 3