MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Linguistiquement parlant

Fil des billets - Fil des commentaires

mardi 27 septembre 2011

Linguistic Resources for French : does the size really matter ?

As a web worker and a qualitative data analyst, most of my time is spent analyzing written french online whether published on newspapers, forums, blogs or SNSs. As a linguist, it can be either fun, stimulative or harmful to see how the linguistic norm and the usage differ from each other. So came the idea to take a closer look at it. For this little test, I chose to make a basic lexical evaluation, for comparing the coverage of standard linguistic resources for French.

  • The data

Let's try to be representative with the data to be tested ! Well, that might be easier said than done, but let's give it a try with the following datasets :

- around 800 000 words from an online newspapers corpus on the political topicality in 2009, including both articles and user's comments ;
- over 400 000 words from a popular french forum.

In the end, the dataset contains about 1 200 000 words : this is pure raw text from the Internet, without any pre-treatment such as lemmatization, orthographic correction, case harmonization or any other mutilation of the raw text material.

  • The reference Linguistic Resources

Among other questionable choices, mine was to take the DELA and the Morphalou linguistic resources as a gold standard for a raw lexical comparison.

  1. The DELA dictionnary is a dictionnary of lemmas and their inflected forms for French (and also English, but obviously not used here), designed by the LIGM team from MLV University, France. This resource contains around 700 000 entries.
  2. The Morphalou lexicon is developped and maintained by the CNRTL and deeply linked to the research work from the UMR ATILF of the Nancy University, France. This resource is another reference dataset for inflected forms of the French language, and contains over 500 000 entries.

Here's how they are used by a nice little Perl script :

  1. first, the words of the raw dataset are brutally segmented to obtain one word per line in the input file ;
  2. the result is stored in a hashtable for subsequent use ;
  3. in the same way, the entries of each resource are stored in a specific hashtable, so we have all the entries from DELA in one hashtable and all the entries from Morphalou in another.

In case you ask yourself "why hashtables", the purpose of using this data structure was to set words as keys and nothing as value, to make fast checks on keys, especially checking their existence. It was the best way to make it in Perl, from my non-dev point of view.

  • The rough encounter

Yes, the script aimed at comparing the raw material with each one of the considered resources. So ... Tadaa ! The results !

Three objectives here :

  1. Determine the number of words that were not recognized by DELA
  2. Then, the same evaluation for Morphalou
  3. Being able to give a percentage of the words that aren't recognized neither by one nor the other reference linguistic resources

So, here are my little Perl script results :

unknown words for DELA : 42719
unknown words for Morphalou : 43906
percentage of shared unknown words : 97.296497061905 %

From those results, let's highlight three points :

- first, french web-writers seem to be not that bad at spelling french online, as less than 50 000 occurrences are not recognized by the linguistic ressources ;
- second, that means that those ressources are very close in terms of coverage, even if DELA has 200 000 more entries than Morphalou : a bit less than 3% differences on the shared unknown words ; so the size of the resource is not that important (at least, for the purpose of this little test) ;
- third, as some Linguist colleagues told me at the latest AFLS conference I attended, the linguistic performance problems in current French are more salient on the (micro and macro) syntaxic level (e.g. agreement of inflexions in gender and number) : this partly explains why the results of this basic evaluation based on lexicon are quite good. However, this is far from sufficient to determine what the current level of orthographic performance is.

mercredi 22 décembre 2010

Modélisation en linguistique et perspectives du TAL

Il n'est pas toujours simple d'expliquer à des linguistes dépourvus d'outils informatiques, tout autant qu'à des ingénieurs dépourvus de culture linguistique, l'importance de la modélisation des phénomènes linguistiques, dont l'implémentation permet la validation expérimentale pour les uns, le gain qualitatif du système d'analyse pour les autres.

Lors d'un séminaire dispensé à Paris X Nanterre, plusieurs étudiants de Master présentaient leurs spécialités à partir de références bibliographiques proposées par l'organisateur. J'avais choisi de travailler des articles de Bernard Victorri, Directeur de Recherche au LaTTiCe, qui sont riches et très bien documentés. L'objectif ? Tenter de fournir une synthèse qui permette :

  • aux linguistes de se faire une idée des applications de TAL et de l'importance de la qualité de la modélisation pour la performance des systèmes ;
  • aux ingénieurs d'avoir un panorama des travaux et des problématiques où l'ingénierie gagne en qualité grâce à l'apport de la linguistique.
Ces slides ont été réalisés il y a deux ans, mais me semblent toujours d'actualité, surtout s'ils sont consommés à titre introductif !
#add-on : apparemment, les embed Slideshare ne sont pas super amis de la plateforme DotClear, l'affichage du Slideshare ci-dessus pouvant pâtir de cette mauvaise entente. Si c'est le cas, je vous invite à consulter les slides ici :)

dimanche 4 janvier 2009

FeedVis by Jason Priem : la contradiction du contexte et de la lemmatisation

OF en parle : FeedVis, une application qui permet de faire du tri dans la nuée de flux que peut être amené à ingurgiter le veilleur web. Son auteur, Jason Priem, donne quelques infos et propose sa nouvelle release en téléchargement ici.
OF met bien en exergue le problème de la gestion de l'encodage (UTF8, tu connais?), avec cette instructive image que je me permets de reporter ici :

Feedvis.jpg

Associer une timeline à la génération du nuage de tags construit à partir de vos flux RSS? Proposer quelques résultats de calculs statistiques élémentaires sur la fréquence des occurrences de formes? Revendiquer une couche de lemmatisation avant l'application de ces calculs statistiques? "Sounds nice!", direz-vous, mais en fait, rien de neuf sous le soleil de 2009.

Je salue l'initiative de développer ce genre d'applications web, mais linguistiquement parlant, je tique surtout sur la lemmatisation. Jason Priem nous explique :

Conversations change, and I wanted to see that. I wanted more context

Reprenons :

  • le lemme est la forme non fléchie, par exemple d'un verbe (lemme = aller, forme fléchie = va) ou d'un substantif (lemme = mot, forme fléchie = mots);
  • la lemmatisation consiste donc à rapporter un ensemble de formes fléchies à une forme non fléchie, dite lemmatisée (stratégies, stratégique, stratégiquement rapportées à stratégie, par exemple);
  • en TAL, la lemmatisation est un procédé souvent utilisé car il permet d'obtenir de "meilleures" statistiques sur les fréquences d'occurrences de formes dans un texte; l'idée est la suivante : au lieu d'avoir des statistiques pour stratégies, stratégique et stratégiquement isolément, on regroupe les résultats de ces différentes formes fléchies en les couplant à celles du lemme stratégie;
  • meilleures statistiques? Selon moi, il n'est pas utile d'appliquer une couche de lemmatisation lorsque, comme Jason Priem, l'on prétend vouloir "more context". Pourquoi? Simplement parce que la lemmatisation est une réduction de la variation lexicale présente dans les textes et évacue véritablement le contexte.
  • le contexte (si l'on chipotait, l'on parlerait plutôt de cotexte, d'ailleurs, mais passons) est justement accessible par la diversité des formes présentes dans le texte : les fréquences d'occurrence de pieds ou de pied sont liées au contexte (c'est-à-dire à des emplois différents dans le discours : le pied de la montagne et les pieds de mon ami, par exemple)

En somme :

  1. la lemmatisation maquille le changement dans les conversations
  2. la justification de son emploi est très discutable, d'un point de vue linguistique en tous cas : le contexte, c'est la variation des formes; pourquoi alors les réduire à un artefact, le lemme?

samedi 3 janvier 2009

Petites notions de statistique textuelle

Occurrence? Forme? Fréquence absolue ou relative? Kézako? Petit mémo pour ceux qui travaillent sur les textes...

  • les occurrences correspondent aux unités dans lesquelles la chaîne graphique - la chaîne de caractères qui compose le texte - est découpée;
  • les formes sont des types d'occurrences, c'est-à-dire qu'elles correspondent à des segments ayant la même chaîne graphique (exemple : dans le début de ce billet, on peut compter 3 occurrences de la forme les);
  • la chaîne graphique est découpée par des séparateurs - ou segmenteurs - : les types, donc les formes, ont un nombre d'occurrence dans le texte, comme on vient de le voir;
  • la segmentation permet d'isoler dans le texte des unités de décompte, donc des segments de texte à partir desquels sont effectuées des opérations statistiques.

Lorsque l'on travaille sur les textes, c'est généralement dans la perspective de les contraster, de les comparer les uns aux autres. Introduisons ici l'acception de la notion de corpus la plus intuitive : un corpus est un ensemble de textes.
Afin de pouvoir analyser un corpus, il convient d'introduire la notion de partition : l'ensemble de textes, découpé en unités minimales ou occurrences, doit subir un second découpage en parties; définir différentes partitions du corpus permet de les comparer entre elles.

TLE.jpg

Comment corréler les formes, leurs occurrences et la partition du corpus? Au moyen d'un TLE (Tableau Lexical Entier). Un TLE est une matrice creuse, qui permet de comparer les parties en fonction du nombre des occurrences de formes. Le découpage en parties dépend des hypothèses d'analyse émises dans le cadre de l'étude d'un corpus, à la différence de la segmentation en occurrences, qui dépend, quant à elle, des séparateurs des unités minimales du texte considérées (les suites de caractères séparées par des blancs, les segments de texte entre virgules, par exemple).
Le nombre de formes dans une partie est une sous-fréquence de la fréquence d'occurrences totale dans le corpus. Cela nous permet d'aborder la distinction entre les notions de fréquence absolue et fréquence relative :

  • la fréquence absolue correspond au nombre d'occurrences réellement observé pour une forme donnée. Ce nombre n'est pas rapporté à une autre grandeur; la fréquence absolue ne permet pas de comparaison : on ne peut se fier à cette seule mesure pour interpréter la significativité des formes dans le corpus.
  • la fréquence relative, quant à elle, rend comparables les fréquences absolues, en prenant en compte la longueur des parties. Cette dernière doit être considérée, car le calcul de la fréquence relative d'une forme dans le corpus relève alors d'un décompte des occurrences dans des ensembles de longueur différente. On dira donc que la fréquence relative est la fréquence absolue de la forme, rapportée à la longueur de la partie.

Hope it helps!

dimanche 3 août 2008

The Appraisal Theory (Martin & White, 2005)

MartinANDWhiteBook.jpg

L’Appraisal Theory s’intéresse à la manière de modéliser le langage évaluatif, en particulier à la relation d’influence induite par les stratégies mises en œuvre par l’auteur d’un texte, qui conditionneraient le lecteur à adopter son opinion. Se réclamant de la linguistique systémique fonctionnelle (Systemic Functional Linguistics, ou SFL), Martin et White entendent situer la notion d’appréciation within a holistic model of language and social context (The Language of evaluation, Introduction, p.7). L’intégration du contexte social dans l’interprétation du donner à voir qu’exhibe l’auteur n’est pas sans rappeler certains critères d’analyse de la sociolinguistique interactionnelle. En particulier, ce que (Gumperz, 1999) caractérise en termes de processus de contextualisation verbaux. (Référence exacte : Gumperz, J. (1999). On interactional sociolinguistic method. In S. Sarangi & C. Roberts (Ed.), Talk, Work and Institutional Order. Discourse in Medical, Mediation and Management Settings (p.453-471))

La Théorie de l’Appréciation se concentre plus précisément, parmi l’ensemble des ressources sémiotiques, ou métafonctions dans la terminologie de la SFL, mobilisées par les locuteurs dans leur démarche de construction du sens, sur la métafonction interpersonnelle. Plusieurs aspects sont alors distingués, comme constitutifs de la métafonction interpersonnelle, ce modèle théorique se réclamant d’une perspective holistique. Les rapports d’influence entre l’auteur d’un texte et son lecteur, médiatisés par l’expression de l’opinion, constituent l’un des objets d’étude de ce modèle. C’est bien le donner à voir, c’est-à-dire le positionnement tel que l’émetteur du message le présente comme objectif ou subjectif, qui est soumis à l’étude, par le biais de l’analyse textuelle – les indices lexico-syntaxiques, entre autres –.

La modélisation de la sémantique de l’appréciation telle qu’elle est exposée dans (Martin and White, 2005), se veut topologique et non typologique. Ils n’entendent donc pas proposer une analyse catégorielle mais graduelle de l’appréciation : The introduction of scaled systems shifts our perspective from categorical to graded analysis. (It) is a shift from typology to topology. (op.cit., Introduction, p.16). Il s’agit en fait d’une modélisation des régions de sens, ainsi que de la proximité qu’entretiennent les sens entre eux, en fonction d’un continuum de variation.

dimanche 27 juillet 2008

Les types d'analyse dans quelques applications du TAL

Je vous propose un petit papier écrit cette année écrit pour un cours d'Analyse Robuste, qui brosse une introduction aux modèles d'analyse du TAL et les problèmes de robustesse : en fait, ça se résume à la capacité des systèmes d'analyse à produire une donnée pertinente pour l'objectif de l'application.

Voici le papier (AnalyseRobuste-DM) et son résumé :

Du point de vue du Traitement Automatique des Langues (TAL), la notion d'analyse renvoie à l'analyse des formes linguistiques, c'est-à-dire des séquences de symboles constitutives du donné linguistique. Il s'agit de mobiliser un modèle d'interprétation de ces séquences de symboles, défini en fonction de données extérieures que sont, par exemple, les connaissances linguistiques, entre autres conventions d'interprétation des symboles que l'on souhaite analyser. Nous tenterons dans ce devoir de faire état des différents niveaux d'analyse, des transformations qu'elles appliquent aux données en entrée et d'identifier les problèmes de robustesse des applications qui découlent de ces analyses.

mercredi 23 juillet 2008

Outils de traitement de corpus et langues peu dotées

Les langues rares, en voie d'extinction ou dans le meilleur des cas encore pratiquées par une communauté active, sont majoritairement sous représentées sur la grande toile d'information nommée Web. Il est certain que des enjeux économico-historiques ont contribué à cet état de fait, en particulier pour ce qui impacte les politiques linguistiques, d'instruction et d'équipement en infrastructures d'enseignement.
J'ai trouvé l'occasion, dans un devoir pour un cours intitulé Outils de traitement de corpus, de constituer un modeste panorama du sujet, en recensant quelques outils de TAL existants ainsi que certaines initiatives pour l'accès à la numérisation de ces langues, dites peu dotées.

Vous trouverez le papier ici (OTC-languesPeuDotées) et le résumé ci-dessous :

Nous nous proposons ici de donner un panorama des recherches et outils développés pour le traitement automatique des langues peu dotées, ou langues-pi. La possibilité de pouvoir constituer et analyser des ressources linguistiques informatisées pour de telles langues relève de perspectives humaines et culturelles. En effet, les travaux de recherche du TAL appliquées aux langues minoritaires contribuent sans doute de leur survie, s'inscrivant dans une perspective de préservation du patrimoine culturel associé à une langue, et peuvent par ailleurs constituer paramètre décisif dans l'alphabétisation des populations.

samedi 7 juin 2008

Samedi matin, syntaxe à la rue des Bernardins

L'Ecole Doctorale 268 "Langages et langues", Sorbonne Nouvelle, Paris 3 organise à l'ILPGA un cycle Conférences du Samedi matin, dont j'ai découvert une des sessions aujourd'hui, gentiment conviée par monsieur Kim Gerdes. Un petit compte rendu rapide de cet évènement coordonné par Kim Gerdes et Pollet Samvelian...

Programme

10h00 - 10h30 : Kim Gerdes (ILPGA) et Pollet Samvelian (ILPGA)

Les méthodes empiriques en syntaxe et l'émergence de nouveaux fonctionnalismes

10h30 - 11h30 : Rens Bod (Université d'Amsterdam)

From Exemplar to Grammar : Simulating Language Acquisition in U-DOP

11h30 - 12h30 : Discussion avec Martin Kay (Université de Stanford)

Les méthodes empiriques en syntaxe et l'émergence de nouveaux fonctionnalismes

Gerdes et Samvelian ont situé leur propos dans le contexte des approches en syntaxe formelle en affirmant leur accord avec certains principes générativistes, sans adhérer cependant à toutes les propositions de la théorie chomskyenne.

S'ils agréent la distinction entre compétence et performance, la dichotomie grammatical / agrammatical, l'idée d'une rule-based view, et partant, la possibilité de formuler les règles syntaxiques de façon algébrique, une divergence subsiste cependant sur la question de l'approche empirique, liée à la Linguistique de Corpus.

Chomsky, en effet, maintient le postulat de l'innéisme, selon lequel l'enfant connaît nécessairement des structures grammaticales de façon innée sans lesquelles il lui serait impossible de parvenir à acquérir une langue. Par ailleurs, l'une de ses critiques à l'encontre des approches basées sur corpus leur oppose l'introspection comme seul accès à la compétence linguistique, dont dépendent les jugements d'acceptabilité sur un énoncé. Gerdes et Samvelian soutiennent, pour leur part, l'émergence d'une nouvelle conception de la compétence - dont ils ne se réclament pas les seuls porteurs - variable et probabiliste plutôt que catégorique et algébrique. Ils convoquent d'ailleurs les acquis de la Psychologie Développementale et Cognitive, en particulier les travaux de Michael Tomasello, qui ont contribué à démontrer que les mécanismes d'apprentissage chez l'enfant sont puissants et étendus à l'acquisition de tout système de connaissance. Ils citent en particulier les mécanismes de l'attention partagée (intention-reading) et de la catégorisation, l'aptitude à effectuer des analyses distributionnelles et à établir des analogies entre des unités syntaxiques simples et complexes (pattern-finding). Dans une telle perspective, la syntaxe relève d'une des dimensions symboliques du langage; il ne faudrait donc pas parler d'universaux linguistiques, en termes de catégories ou de formes, mais d'universaux communicationnels.

Quant au succès des méthodes statistiques appliquées dans le TAL, ils l'ont confirmé : ça marche mieux. Après avoir insisté sur la rareté d'une réelle double compétence en développement et en linguistique parmis les développeurs d'applications du TAL, Gerdes et Samvelian ont souligné les réussites des approches TAListes basées sur le Web, concrétisées dans la mise à disposition de ressources ouvertes : des corpus annotés morphosyntaxiquement, comme par exemple celui du Penn Treebank Project.

Les travaux d'Ivan Sag, de l'Université de Stanford, ont été cités comme illustrant l'émergence de nouveaux fonctionnalismes en syntaxe formelle, au même titre que Wasow et Bresnan. L'étude de phénomènes syntaxiques sur corpus ont permis une évolution des modèles générativistes vers de nouveaux modèles fonctionnels, qui postulent que la bonne formation syntaxique des énoncés inclut des visées communicationnelles : c'est l'un des moyens à disposition pour l'accomplissement d'objectifs pratiques en situation de communication. Là encore, un point de divergence puisqu'un tel postulat remet en question l'autonomie de la syntaxe, en particulier soutenue par Chomsky.

L'ouverture s'est close sur le constat de l'inexistence d'un modèle complet de la langue, capable d'en gérer la complexité réelle dans la globalité des phénomènes de sa manifestation, et partant, sur l'idée qu'un modèle fonctionnel du langage pourrait répondre à de telles attentes.

From Exemplar to Grammar : Simulating Language Acquisition in U-DOP

Rens Bod, dont les derniers travaux ont remporté le Best Paper Award in Applied Cognitive Modeling (Cognitive Science 2008), a apporté un point de vue présenté comme the starting point for a new theory in language learning. Ses recherches relèvent des approches statistiques en TAL, du Data-Oriented Parsing (DOP, analyse syntaxique orientée données) et des modèles d'acquisition du langage basés sur l'exemple (Exemplar-based models).

Bod réconcilie les Exemlpar-based et les Rule-based approaches en soutenant que le DOP permet de les envisager comme deux extrémités d'un continuum de distribution. En effet, le DOP permet de représenter les règles et les exemples acquis sur corpus sous forme d'arbres syntaxiques minimaux, en se fondant sur le principe de ''structural analogy'' (analogie structurelle) entre une phrase et celles qui la précèdent.

Le modèle U-DOP (Unsupervised Data-Oriented Parsing) est implémenté en fonction d'un principe découlant des observations sur l'acquisition d'une langue seconde chez les apprenants : If a language learner does not know which syntactic tree structure should be assigned to a sentence, s/he initially keeps open all possible tree structures and lets linguistic experience decide which is the most probable tree structure. Le point de vue développé constitue un contrepied fort contre l'idée chomskyenne selon laquelle the notion of analogy is vacuous. Chomsky formule en effet, dans Knowledge of Language : Its Nature, Origin and Use (1986) Bloomfield (1933) held that when a speaker produces speech forms that he has not heard, "we say that he utters them on the analogy of similar forms which he has heard". This idea is not wrong but rather is vacuous since "analogy" is simply an inappropriate concept in the first place.

Le modèle proposé par Bod est cependant fondé sur l'analogie probabiliste (probabilistic analogy) et son système obtient de bon résultats quand aux phrases générées après apprentissage automatique non supervisé. Il s'agit bien d'une approche empirique et émergentiste : U-DOP, sur la base d'un petit corpus d'entraînement de phrases manuellement annotées, en extrait toutes les structures minimales afin de generate complex structures in a complete randomly way. Ce système a été testé sur plusieurs langues - Anglais, Allemand, Chinois -, notamment en utilisant le corpus du Penn Treebank Project, ainsi que sur le corpus d'interactions avec des enfants du CHILDES. L'une des conclusions majeures de ces travaux est que syntactic facets can emerge from analogical matching without hearing the particular facet in the linguistic data and without having to assume that it is hard-wired in the mind.

Quelques mots sur Monsieur Kay

De Monsieur Martin Kay, je ne cite, modestement et sans erreur je l'espère, qu'une assertion : We could get rid of categories. Celle-ci est bien entendu à replacer dans le contexte historique de la traduction automatique et de l'alignement de textes bilingues, de la notion d'unification qui a initié l'émergence des grammaires d'unification en syntaxe formelle, contexte impressionnant que représente à lui seul ce vénérable Monsieur.