MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - linguistique

Fil des billets - Fil des commentaires

mardi 15 février 2011

Reprises, interactions textuelles, échanges asynchrones

Tels sont les trois mots-clés qui résument la présentation d'une de mes recherches en cours. L'objectif ? Décrire et modéliser les phénomènes linguistiques liés à la cohérence conversationnelle dans les échanges asynchrones sur Internet.

J'ai eu la chance d'assister à une journée d'étude un peu particulière : celle l'avènement officiel de la Fédération CLESTHIA.

Ce fut extrêmement intéressant de voir une autre facette de "la recherche en marche", celle qui sort de son laboratoire pour nouer des relations d'émulation et d'échange entre chercheurs de domaines connexes. Nous nous sommes donc retrouvés, traductologues, spécialistes de l'analyse des discours - politique, littéraire, de presse-, linguistes fins connaisseurs du français parlé, avec quelques TAListes au milieu. Tous dans l'optique d'échanger sur une thématique fort intéressante, qui est celle du "discours rapporté", du "discours autre", chaque présentation étant l'occasion de mieux comprendre l'appréhension de notre objet d'étude par les autres.

Une grande chance que la mienne, donc, de pouvoir aller présenter mes petits travaux devant une telle audience ! Eh oui, ça stresse toujours quand on revient de l'entreprise (et des présentations clients), d'aller parler d'un problème de linguistique "hard-core" devant des dizaines de linguistes chevronnés... Une grande chance également que ce travail ait été bien reçu : je vous le fais donc partager :)

Brève intro : je travaille en ce moment sur les forums (interactions textuelles, échanges asynchrones), dans une perspective Opinion Mining (dont l'e-réputation est un ersatz, si l'on reprend l'acception qu'ont de ce terme nos amis philosophes).

Bonne consultation et n'hésitez pas à me contacter si cela vous intéresse :)

mardi 2 juin 2009

Yochaï Benkler, une vue très "linguistique appliquée" de l'analyse du web

Dans une excellente interview de Yochaï Benkler, InternetActu reprend le propos de l'éminent chercheur : une véritable synthèse multidimensionnelle des pratiques actuelles observables en ligne.

Du contexte socioculturel jusqu'à l'analyse comparative des tendances entre des communautés de bloggers, je souhaite juste mettre l'emphase sur l'un des aspects de son propos :

Les nouvelles méthodes d’observation (comme la visualisation) ne doivent pas nous éviter l’interprétation : au contraire, elles fournissent de nouvelles sources de savoir et exigent de nouvelles formes d’interprétations. On observe les structures, mais pas nécessairement ce qu’en font les gens. Les ordinateurs doivent assister les recherches humaines et pas seulement nous aider à les systématiser.

Il l'explique donc très clairement : décrire une topologie du web n'explique rien en soi sur la nature du buzz. Dire que des gens parlent entre eux n'explique rien sur la structure conversationnelle de leur échange (explication brève, explication longue).

Son analyse sur les positionnements politiques dans la blogosphère américaine l'amènent à un intéressant constat :

les outils que nous utilisons peuvent aussi masquer des pratiques plus que les révéler (...) la prochaine frontière repose sur l’analyse textuelle (...)

intéressant, non ?

L'idée de ces outils d’analyse de contenus est de permettre d’analyser les discours et leurs positionnements, de créer des lignes de temps afin de mieux observer où émergent les concepts et les idées, comment ils se diffusent des médias classiques à la blogosphère (et inversement) et comment petit à petit ils prennent place dans l’agenda public des débats (...)

Une véritable leçon d'introduction à l'analyse textométrique - branche de la linguistique appliquée qui relève du TAL, regroupant analyse linguistique et statistique textuelle -. Et d'aller plus loin :

On ne peut pas s’arrêter à l’analyse visuelle (...) il faut aussi procéder à une analyse humaine et de contenus, afin de comprendre que l’analyse, l’anglage, la façon dont on parle d’un même évènement est différente d’un média à l’autre, d’un blog à l’autre. La comparaison des termes permet de comprendre et expliquer où se situent les différences entre les journaux.

Un bon augure pour la valorisation des linguistes TAL, à qui ces méthodes de travail sont enseignées très tôt dans les formations universitaires en Sciences du Langage, et qui font l'objet de spécialisations dans des parcours comme ceux proposés par l'initiative PluriTAL.

dimanche 3 août 2008

The Appraisal Theory (Martin & White, 2005)

MartinANDWhiteBook.jpg

L’Appraisal Theory s’intéresse à la manière de modéliser le langage évaluatif, en particulier à la relation d’influence induite par les stratégies mises en œuvre par l’auteur d’un texte, qui conditionneraient le lecteur à adopter son opinion. Se réclamant de la linguistique systémique fonctionnelle (Systemic Functional Linguistics, ou SFL), Martin et White entendent situer la notion d’appréciation within a holistic model of language and social context (The Language of evaluation, Introduction, p.7). L’intégration du contexte social dans l’interprétation du donner à voir qu’exhibe l’auteur n’est pas sans rappeler certains critères d’analyse de la sociolinguistique interactionnelle. En particulier, ce que (Gumperz, 1999) caractérise en termes de processus de contextualisation verbaux. (Référence exacte : Gumperz, J. (1999). On interactional sociolinguistic method. In S. Sarangi & C. Roberts (Ed.), Talk, Work and Institutional Order. Discourse in Medical, Mediation and Management Settings (p.453-471))

La Théorie de l’Appréciation se concentre plus précisément, parmi l’ensemble des ressources sémiotiques, ou métafonctions dans la terminologie de la SFL, mobilisées par les locuteurs dans leur démarche de construction du sens, sur la métafonction interpersonnelle. Plusieurs aspects sont alors distingués, comme constitutifs de la métafonction interpersonnelle, ce modèle théorique se réclamant d’une perspective holistique. Les rapports d’influence entre l’auteur d’un texte et son lecteur, médiatisés par l’expression de l’opinion, constituent l’un des objets d’étude de ce modèle. C’est bien le donner à voir, c’est-à-dire le positionnement tel que l’émetteur du message le présente comme objectif ou subjectif, qui est soumis à l’étude, par le biais de l’analyse textuelle – les indices lexico-syntaxiques, entre autres –.

La modélisation de la sémantique de l’appréciation telle qu’elle est exposée dans (Martin and White, 2005), se veut topologique et non typologique. Ils n’entendent donc pas proposer une analyse catégorielle mais graduelle de l’appréciation : The introduction of scaled systems shifts our perspective from categorical to graded analysis. (It) is a shift from typology to topology. (op.cit., Introduction, p.16). Il s’agit en fait d’une modélisation des régions de sens, ainsi que de la proximité qu’entretiennent les sens entre eux, en fonction d’un continuum de variation.

dimanche 27 juillet 2008

Les types d'analyse dans quelques applications du TAL

Je vous propose un petit papier écrit cette année écrit pour un cours d'Analyse Robuste, qui brosse une introduction aux modèles d'analyse du TAL et les problèmes de robustesse : en fait, ça se résume à la capacité des systèmes d'analyse à produire une donnée pertinente pour l'objectif de l'application.

Voici le papier (AnalyseRobuste-DM) et son résumé :

Du point de vue du Traitement Automatique des Langues (TAL), la notion d'analyse renvoie à l'analyse des formes linguistiques, c'est-à-dire des séquences de symboles constitutives du donné linguistique. Il s'agit de mobiliser un modèle d'interprétation de ces séquences de symboles, défini en fonction de données extérieures que sont, par exemple, les connaissances linguistiques, entre autres conventions d'interprétation des symboles que l'on souhaite analyser. Nous tenterons dans ce devoir de faire état des différents niveaux d'analyse, des transformations qu'elles appliquent aux données en entrée et d'identifier les problèmes de robustesse des applications qui découlent de ces analyses.

mercredi 23 juillet 2008

Outils de traitement de corpus et langues peu dotées

Les langues rares, en voie d'extinction ou dans le meilleur des cas encore pratiquées par une communauté active, sont majoritairement sous représentées sur la grande toile d'information nommée Web. Il est certain que des enjeux économico-historiques ont contribué à cet état de fait, en particulier pour ce qui impacte les politiques linguistiques, d'instruction et d'équipement en infrastructures d'enseignement.
J'ai trouvé l'occasion, dans un devoir pour un cours intitulé Outils de traitement de corpus, de constituer un modeste panorama du sujet, en recensant quelques outils de TAL existants ainsi que certaines initiatives pour l'accès à la numérisation de ces langues, dites peu dotées.

Vous trouverez le papier ici (OTC-languesPeuDotées) et le résumé ci-dessous :

Nous nous proposons ici de donner un panorama des recherches et outils développés pour le traitement automatique des langues peu dotées, ou langues-pi. La possibilité de pouvoir constituer et analyser des ressources linguistiques informatisées pour de telles langues relève de perspectives humaines et culturelles. En effet, les travaux de recherche du TAL appliquées aux langues minoritaires contribuent sans doute de leur survie, s'inscrivant dans une perspective de préservation du patrimoine culturel associé à une langue, et peuvent par ailleurs constituer paramètre décisif dans l'alphabétisation des populations.

jeudi 17 juillet 2008

GrosMoteur : l'outil de création de corpus pour linguistes

Kim Gerdes, ILPGA Paris 3, est l'auteur du fort pratique GrosMoteur! Pour ceux qui savent, l'application est codée en Python, interfacée avec QT4 et est en constante amélioration :)
Pour ceux qui ne savent pas, c'est un excellent outil pour récolter du corpus qu'on peut post-traiter à loisir ensuite. L'un de ses nombreux avantages? Deux modes de recherche intégrés : crawler des pages à partir d'une URL ou à partir de requêtes soumises à un moteur de recherche généraliste.
Bien évidemment, les fonctions de contrainte sur la récolte sont disponibles, pour empêcher GrosMoteur de suivre exhaustivement tous les liens qu'il trouve dans une page.
Pardon, je n'ai pas d'illustration à proposer immédiatement et ce billet n'est qu'un trop faible aperçu de la puissance de cet outil, mais dès que possible, je vous livre une esquisse de manuel utilisateur :)
Pour le moment, je l'utilise dans le cadre de mes travaux et discute assez souvent avec Kim Gerdes pour améliorer l'outil. N'hésitez pas à le contacter pour plus de détails en attendant la suite!

mardi 8 juillet 2008

Privatisation des mots... ou la méconnaissance de la trademarkabilité

Les mots, objets rentables valorisés par leur relation au Web?

Le JdN annonce que la chaîne de caractères "Emailing" a été déposée à l'INPI par la société Ludopia Interactive, au même titre qu'un nom de produit ou de service. Curieuse idée...
Regardons de plus près : sur leur site, la page vantant leurs offres de marketing direct mentionne

Nous vous proposons une mégabase de plus de 500.000 internautes que vous pouvez joindre par email, courrier postal, SMS ou téléphone pour des opérations de Marketing Direct ou pour des Etudes de Marchés et enquêtes.

Tout de suite, ça se comprend mieux : je vends des emails, une partie de mon activité est donc de l'emailing; il est certain que la cible visée opèrera très facilement l'association entre les deux. Descriptif, quand tu nous tiens!

Observons ce qu'il advint d'un cas analogue relayé par Legalis.net, avec le mot e-learning :

Force est de constater que ce terme anglais, à défaut de mot français équivalent choisi par les autorités compétentes en la matière en France, s’est imposé dans le secteur concerné avec la rapidité qui caractérise la communication par les réseaux électroniques et qu’au début avril 2000, il ne présentait déjà plus de caractère distinctif suffisant pour pouvoir être admis comme marque, utilisé seul et de manière non figurative, pour désigner des services de formation en ligne. Admettre la protection d’une telle marque reviendrait à ouvrir à la société E-Learning la possibilité d’innombrables actions en contrefaçon contre les utilisateurs de ce terme dans le domaine de la formation à distance, ce qui serait absurde étant donné sa généralisation.

Il convient donc d’annuler, mais uniquement pour les services énumérés de la classe 41, l’enregistrement de la marque “E-Learning” déposée à l’Inpi par la société E-Learning. Conformément aux dispositions de l’article L. 714-3 du code de la propriété intellectuelle, la décision d’annulation a un effet absolu.

Si l'on remonte un peu le temps, d'autres maux mots du Web ont également fait l'objet de polémiques, comme l'explique Sandrine Chicaud de 01net.com. La liste s'allonge un peu, avec entreprenaute et web réputation...
Je vous invite à lire ceci pour davantage quelques précisions supplémentaires, et ne résiste pas à citer Sandrine Chicaud :

Les marques, c'est un métier.

Ce qui me fait une belle transition pour laisser la parole à Quensis, dont c'est justement le métier : j'ai tenu à laisser la parole à Jean-Philippe Hermand et Delphine Parlier, co-fondateurs de la société de création de noms de marques, que je remercie de leurs réflexions avisées. Lisons-les donc :

« L’exemple du dépôt d’E-Mailing par Ludopia Interactive est exemplaire de l’ignorance dans laquelle se trouvent de nombreuses sociétés en matière de droit des marques. Il faut savoir que les marques descriptives ne sont pas protégeables, parce que pas distinctives ; il suffira à quiconque d’établir que « e-mailing» est un terme générique passé dans le langage courant professionnel pour faire invalider la marque déposée par Ludopia. Nous sommes ici dans un cas de figure similaire à celui d’E-learning. Par ailleurs, il est important de comprendre que l’INPI n’a pas vocation à effectuer les recherches d’antériorités des marques. La responsabilité en incombe au registrant, en l’occurrence la société Ludopia, qui aurait dû faire les vérifications préliminaires. En conclusion, une société qui pense s’adjuger un avantage en déposant « e-mailing» et qui risque d’en être pour ses frais. Il eût valu qu’elle soit mieux conseillée ».

What else?

dimanche 6 juillet 2008

Le linguiste, ou le coeur des innovations majeures sur la recherche sémantique

ZdNet relatait hier, encore, l'information de rachat de la technologie Powerset par Microsoft.
Une quote que je laisse à l'appréciation de chacun pour commencer :

la recherche en ligne basée sur le langage naturel - la sémantique -, qui ne se soucie pas des opérateurs booléens notamment

Je laisse de côté ma tentation d'insurrection contre cette définition de la sémantique, parce que ça fait vraiment plaisir de lire ça un peu plus bas :

La recherche en ligne, et particulièrement celle basée sur le langage naturel, sera le théâtre d'innovations majeures dans les 20 prochaines années, assurent les deux entreprises. « Les moteurs de recherche obligent l'utilisateur à réfléchir aux mots précis susceptibles de se trouver sur la page contenant les informations convoitées. Cela rend les choses plus compliquées qu'elles n'ont lieu d'être », analyse Rammez Namm de Microsoft.

On reconsidèrera peut-être l'idée que quand on vire cinq linguistes, on augmente les performances de 5% :)

L'idée commence à faire son chemin : une expertise en linguistique appliquée, le savoir-faire en représentation des connaissances représentent un investissement à long terme qui portera ses fruits. Loin de rester dans la pensée contradictoire que la recherche d'information peut se passer de connaissance de l'information, il m'est avis que nous n'avons pas ici à traiter d'un effet de mode. La lucidité a frappé, depuis les désillusions liées aux développements du TAL après les investissements massifs au sortir de WWII. Un accouchement douloureux de perspectives réalistes : non, l'expertise linguistique ne fera pas faire de la marge tout de suite.
Parce que ce n'est pas un produit. C'est une révolution.

jeudi 5 juin 2008

Newbie de la blogosphère

Après plusieurs années de reluctance à contribuer à un corpus que je pourrais éventuellement être amenée à analyser, l'adage malinowskien du participant observer m'amène aujourd'hui à m'initier à la pratique sociale du blog. Somme toute, au lieu de polluer des feuilles blanches de .doc à l'encre numérique, je m'attaque aux billets, en espérant ne pas en décourager l'hypothétique lectorat.

Quel incipit peu savoureux... bref, venons-en aux présentations. Marguerite Leenhardt, aged 23, born in Paris. Je suis tombée dans la Linguistique grâce aux magistraux cours dispensés par l'Université Paris 3 Censier Sorbonne-Nouvelle, il y a 5 ans maintenant. Ce que j'affectionne le plus dans ce cursus (sans ordre préférentiel aucun) :

  • Linguistique Générale
  • Sémantique Interprétative
  • Sémantique Lexicale
  • Sociolinguistique Interactionnelle (quelques infidélités cependant avec l'Analyse du Discours)
  • Statistiques Textuelles
  • Recherche d'information
  • Phonétique Générale et Expérimentale

Je finalise actuellement ma formation en Ingénierie Linguistique, ayant opté pour un double cursus Professionnel et Recherche : j'ai profité de la voie ouverte par l'initiative PluriTAL pour suivre en parallèle un Master 2 Recherche à Paris 3 et le Master 2 Professionnel à l'INaLCO.

L'intérêt des quelques piges qui seront ici publiées ? A vous de me le dire :)