MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - statistiques textuelles

Fil des billets - Fil des commentaires

dimanche 6 mars 2011

Communications homme-machine [link update]

L'aboutissement d'un travail formalisé dans mon premier papier. Cela date du tout début de mon Master en 2007-2008 : il a été rafraîchi et un peu relu depuis. Le lien a été mis à jour, j'en profite donc pour vous faire (re)découvrir ce travail.

Il s'agit d'une analyse d'un corpus d'interactions mis à disposition par la SNCF (pour la petite histoire, un corpus de 1985 : il a donc le même âge que moi ^^), dans lequel des usagers appellent un standard téléphonique pour demander des informations sur la circulation des trains, prendre une réservation ou confirmer un horaire, par exemple.

Les résultats sont obtenus avec des outils de calcul textométrique (AFC, spécificités, notamment), en utilisant le logiciel de référence Lexico3. J'aborde le tout du point de vue de l'analyse conversationnelle : c'est donc une pure approche interdisciplinaire.

L'objectif ? avoir des pistes pour étudier l'ajustement entre les participants (ou comment l'humain ajuste son discours à la boîte vocale). Et surtout, illustrer mon assertion conclusive :

L'analyse textométrique peut-être utilisée pour effectuer des comparaisons à des niveaux de granularité variables, permettant de ne pas dissocier l'analyse des dimensions locale et globale du corpus.

N'hésitez pas à découvrir la revue Lexicometrica, dans laquelle ce papier a été accepté pour publication :)

lundi 2 mars 2009

Truevert : les bons augures de la communauté 3.0

The Truevert system, powered by OrcaTec's discovery toolkit, is narrowly defined around green, but it's definitely an eye-opening, fresh approach to an elusive problem.

dixit Fritz Nelson (InformationWeek), dans un billet très complet du mois de janvier, pour accueillir la sortie de Truevert, quelques mois auparavant (6 octobre 2008).

Un moteur qui a manifestement retenu son attention et qu'il a bien documenté, avec des vidéos édifiantes à l'appui (notamment l'interview de Herbet L. Roitblat, chercheur chez OrcaTec, qui en explique la technologie, visibles ici également). We take the meaning of the patterns of word usage, explique Roitblat. Au lieu de se fonder sur une catégorisation (jamais) exhaustive, Truevert opère sur les relations statistiques qui émergent entre les mots d'un document, procédant par apprentissage non supervisé.

Paul Miller postait sur ZDNet le jour de la sortie de Truevert, expliquant : Some of the search results are impressively on-target, but there’s still work to do…. Effectivement, l'apprentissage non supervisé n'est pas sans générer de bruit dans les résultats de recherche. Il semble cependant que les sets d'entraînement des algorithmes soient bien optimisés, pour une version bêta, rappelons-le.

L'une des fonctionnalités appréciables à la consultation des résultats est l'accès à la liste des termes pertinents, sur lesquels s'est appuyé le moteur : il suffit de cliquer sur l'icône d'information à côté du lien du résultat pour l'obtenir. Au moins, ce moteur est honnête!

truvert-interestingterms-icon.jpg

truevert-iterestingterms.jpg

Effectivement, il y a un peu de bruit là-dedans (charset utf parameter était l'intrus le plus évident à trouver pour une recherche sur paper). Mais cela ne fait pas faiblir les bons échos sur Truevert...

Fritz Nelson note :

The approach can be applied to any vertical using the same approach. You could even apply it to enterprise content management, given that most corporations have their own jargon -- you just train the engine on the documents that you index.

Jaymi Heimbuch (Treehugger.com) met en avant un aspect particulièrement intéressant sur la place d'un tel moteur sémantique dans le contexte du content mining :

the new web 3.0 features are likely to greatly impact online commerce and advertising

Ce constat fait écho à celui de Fritz Nelson : You also can imagine that if you can get more precise in your search results, a decent amount of ad revenue, in the form of better matching, might result.

Moins de coût pour la mise en service - le développement de ressources exogènes, en particulier thésaurus, lexiques et ontologies, ne sont pertinents que dans des cas précis et peu nombreux - et un impact majeur sur le commerce en ligne et la monétisation des applications web. De bons augures, disais-je...

Le mot de la fin : Charles Knight (altsearchengines.com) a testé pour nous le module Firefox de Truevert. Verdict :

Tried to stump Truevert with the question, "How deep is the ocean?" It returned the answer, " Mostly the ocean is about 4000 metres deep, but is deeper in places. ..." Well done!

dimanche 1 mars 2009

Truevert, un moteur sémantique "ontology-free"

truevert.jpgDéjà, l'équipe de développement a bien senti la tendance "éco(lo)", et revendique sa verditude comme ma lessive revendique son action pour l'environnement.

Outre l'emballage, Truevert, c'est avant tout un parti-pris surprenant pour un moteur sémantique de nos jours :

We have a semantic web of concepts when we link together all of the words and categories into an ontology and a set of rules for dealing with the elements of this ontology. ... This is the approach taken by the semantic web and by many of the systems that claim to do semantic search. ... The meaning as categorization view implies that there is a fixed set of categories that a word could refer to.

Et tout est là ...

It is capable of serving many needs, but it is not sufficient for semantic search.

Développé par une équipe de californiens, OrcaTec LLC, qui travaillent notamment sur le clustering, l'identification automatique des langues, la gestion de mails et l'identification thématique automatique, et bien sûr sur la recherche sémantique, Truevert est le fruit d'expertises plurielles, de la gestion de l'information aux statistiques, entre autres compétences liées à la recherche appliquée. Ils revendiquent un ancrage universitaire et industriel fort.

Mais revenons-en à l'outil.

Les résultats qu'il retourne sont donc le produit d'un approche émergentiste, où les algorithmes statistiques utilisés opèrent essentiellement sur la cooccurrence des chaînes de caractères. Truevert ne fait appel à aucune ressource exogène au moteur, et c'est là que résident toute sa puissance et son intérêt :

Truevert does not depend on any artificial taxonomy, ontology, thesaurus, dictionary, or require document authors to categorize their content (as in the so-called semantic web).

Parce qu'il y a d'autres façons d'aborder la recherche sémantique : abandonner les formalisations ontologiques du sens pour favoriser le "tout statistique"... ou le retour de l'apprentissage non supervisé.

dimanche 4 janvier 2009

FeedVis by Jason Priem : la contradiction du contexte et de la lemmatisation

OF en parle : FeedVis, une application qui permet de faire du tri dans la nuée de flux que peut être amené à ingurgiter le veilleur web. Son auteur, Jason Priem, donne quelques infos et propose sa nouvelle release en téléchargement ici.
OF met bien en exergue le problème de la gestion de l'encodage (UTF8, tu connais?), avec cette instructive image que je me permets de reporter ici :

Feedvis.jpg

Associer une timeline à la génération du nuage de tags construit à partir de vos flux RSS? Proposer quelques résultats de calculs statistiques élémentaires sur la fréquence des occurrences de formes? Revendiquer une couche de lemmatisation avant l'application de ces calculs statistiques? "Sounds nice!", direz-vous, mais en fait, rien de neuf sous le soleil de 2009.

Je salue l'initiative de développer ce genre d'applications web, mais linguistiquement parlant, je tique surtout sur la lemmatisation. Jason Priem nous explique :

Conversations change, and I wanted to see that. I wanted more context

Reprenons :

  • le lemme est la forme non fléchie, par exemple d'un verbe (lemme = aller, forme fléchie = va) ou d'un substantif (lemme = mot, forme fléchie = mots);
  • la lemmatisation consiste donc à rapporter un ensemble de formes fléchies à une forme non fléchie, dite lemmatisée (stratégies, stratégique, stratégiquement rapportées à stratégie, par exemple);
  • en TAL, la lemmatisation est un procédé souvent utilisé car il permet d'obtenir de "meilleures" statistiques sur les fréquences d'occurrences de formes dans un texte; l'idée est la suivante : au lieu d'avoir des statistiques pour stratégies, stratégique et stratégiquement isolément, on regroupe les résultats de ces différentes formes fléchies en les couplant à celles du lemme stratégie;
  • meilleures statistiques? Selon moi, il n'est pas utile d'appliquer une couche de lemmatisation lorsque, comme Jason Priem, l'on prétend vouloir "more context". Pourquoi? Simplement parce que la lemmatisation est une réduction de la variation lexicale présente dans les textes et évacue véritablement le contexte.
  • le contexte (si l'on chipotait, l'on parlerait plutôt de cotexte, d'ailleurs, mais passons) est justement accessible par la diversité des formes présentes dans le texte : les fréquences d'occurrence de pieds ou de pied sont liées au contexte (c'est-à-dire à des emplois différents dans le discours : le pied de la montagne et les pieds de mon ami, par exemple)

En somme :

  1. la lemmatisation maquille le changement dans les conversations
  2. la justification de son emploi est très discutable, d'un point de vue linguistique en tous cas : le contexte, c'est la variation des formes; pourquoi alors les réduire à un artefact, le lemme?

samedi 3 janvier 2009

Petites notions de statistique textuelle

Occurrence? Forme? Fréquence absolue ou relative? Kézako? Petit mémo pour ceux qui travaillent sur les textes...

  • les occurrences correspondent aux unités dans lesquelles la chaîne graphique - la chaîne de caractères qui compose le texte - est découpée;
  • les formes sont des types d'occurrences, c'est-à-dire qu'elles correspondent à des segments ayant la même chaîne graphique (exemple : dans le début de ce billet, on peut compter 3 occurrences de la forme les);
  • la chaîne graphique est découpée par des séparateurs - ou segmenteurs - : les types, donc les formes, ont un nombre d'occurrence dans le texte, comme on vient de le voir;
  • la segmentation permet d'isoler dans le texte des unités de décompte, donc des segments de texte à partir desquels sont effectuées des opérations statistiques.

Lorsque l'on travaille sur les textes, c'est généralement dans la perspective de les contraster, de les comparer les uns aux autres. Introduisons ici l'acception de la notion de corpus la plus intuitive : un corpus est un ensemble de textes.
Afin de pouvoir analyser un corpus, il convient d'introduire la notion de partition : l'ensemble de textes, découpé en unités minimales ou occurrences, doit subir un second découpage en parties; définir différentes partitions du corpus permet de les comparer entre elles.

TLE.jpg

Comment corréler les formes, leurs occurrences et la partition du corpus? Au moyen d'un TLE (Tableau Lexical Entier). Un TLE est une matrice creuse, qui permet de comparer les parties en fonction du nombre des occurrences de formes. Le découpage en parties dépend des hypothèses d'analyse émises dans le cadre de l'étude d'un corpus, à la différence de la segmentation en occurrences, qui dépend, quant à elle, des séparateurs des unités minimales du texte considérées (les suites de caractères séparées par des blancs, les segments de texte entre virgules, par exemple).
Le nombre de formes dans une partie est une sous-fréquence de la fréquence d'occurrences totale dans le corpus. Cela nous permet d'aborder la distinction entre les notions de fréquence absolue et fréquence relative :

  • la fréquence absolue correspond au nombre d'occurrences réellement observé pour une forme donnée. Ce nombre n'est pas rapporté à une autre grandeur; la fréquence absolue ne permet pas de comparaison : on ne peut se fier à cette seule mesure pour interpréter la significativité des formes dans le corpus.
  • la fréquence relative, quant à elle, rend comparables les fréquences absolues, en prenant en compte la longueur des parties. Cette dernière doit être considérée, car le calcul de la fréquence relative d'une forme dans le corpus relève alors d'un décompte des occurrences dans des ensembles de longueur différente. On dira donc que la fréquence relative est la fréquence absolue de la forme, rapportée à la longueur de la partie.

Hope it helps!

jeudi 2 octobre 2008

Google "In Quotes" : déguiser l'analyse d'impact presse en résonance textuelle?

ActuAbondance en parle cette semaine et propose une première petite étude de cas sur les résultats du nouveau service Google : "In Quotes".
Sur le principe, entendons-nous bien, l'idée de pouvoir mettre en regard les citations de deux personnalités publiques sur un sujet identique ne manque certes pas d'intérêt. Par chez nous les TAListes, cette mise en regard est indexée par l'intitulé "résonance textuelle". Je vous recommande d'ailleurs la lecture d'un article d'André Salem, référence en la matière, intitulé ''Introduction à la résonance textuelle'' (JADT'04).
resonanceTextuelleSalemJADT04.jpg
Ce schéma vise à illustrer un phénomène simple : comparer les discours en fonction des occurrences que l'ont peut y identifier, afin de les étudier en contexte, en résonance, justement.

Observons maintenant une page de résultats In Quotes :
InQuotesExample.jpg

L'identification automatique des citations est un problème non trivial en TAL. Peut-on se limiter au segments de texte encadrés par des guillemets? Non, et Google Labs a évité cet écueil en effectuant (je suppute) la reconnaissance automatique des citations en mettant à profit des tournures fréquentes du discours rapporté, du type "Mr. X said".

In Quotes semble bien fonctionner en procédant par reconnaissance de mots-clés, associés de façon univoque à une thématique. Il suffirait donc de trouver une occurrence d'"Iraq" pour que le texte la contenant soit classé dans la thématique "Iraq". Il n'est bien entendu pas question de prendre en compte les paraphrases des noms propres, pourtant largement utilisées dans le discours journalistique, comme par exemple "Baghdad" (le nom de la capitale du pays en question est souvent utilisée pour renvoyer au pays lui-même), pour ne prendre que cet exemple.

Autre remarque sur l'alignement d'In Quotes : il n'y en a pas, tout du moins les extraits de texte restitués et mis en parallèle ne présentent pas d'alignement par date, par source, par période (la semaine, le mois, par exemple). C'est dommage : il eût été fort commode pour l'utilisateur de pouvoir se faire une idée de la recrudescence de ces "thèmes" (fussent-ils réduits à de simples mots-clés) au cours du temps, en fonction du nombre d'articles et de la personnalité publique à l'origine des citations relayées dans la presse. Le seul point de comparaison est finalement un mot-clé qui apparaît dans les "quotes", ce que ne manque pas de relever TechCrunch : the site doesn’t seem to be utilizing any algorithms to determine how each keyword is used.

Bref, pourquoi proposer un service aussi pauvre, qui ne répond pas à l'attente de pré-analyse de l'information que peut concevoir l'utilisateur?