MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 17 juillet 2008

GrosMoteur : l'outil de création de corpus pour linguistes

Kim Gerdes, ILPGA Paris 3, est l'auteur du fort pratique GrosMoteur! Pour ceux qui savent, l'application est codée en Python, interfacée avec QT4 et est en constante amélioration :)
Pour ceux qui ne savent pas, c'est un excellent outil pour récolter du corpus qu'on peut post-traiter à loisir ensuite. L'un de ses nombreux avantages? Deux modes de recherche intégrés : crawler des pages à partir d'une URL ou à partir de requêtes soumises à un moteur de recherche généraliste.
Bien évidemment, les fonctions de contrainte sur la récolte sont disponibles, pour empêcher GrosMoteur de suivre exhaustivement tous les liens qu'il trouve dans une page.
Pardon, je n'ai pas d'illustration à proposer immédiatement et ce billet n'est qu'un trop faible aperçu de la puissance de cet outil, mais dès que possible, je vous livre une esquisse de manuel utilisateur :)
Pour le moment, je l'utilise dans le cadre de mes travaux et discute assez souvent avec Kim Gerdes pour améliorer l'outil. N'hésitez pas à le contacter pour plus de détails en attendant la suite!

samedi 7 juin 2008

Samedi matin, syntaxe à la rue des Bernardins

L'Ecole Doctorale 268 "Langages et langues", Sorbonne Nouvelle, Paris 3 organise à l'ILPGA un cycle Conférences du Samedi matin, dont j'ai découvert une des sessions aujourd'hui, gentiment conviée par monsieur Kim Gerdes. Un petit compte rendu rapide de cet évènement coordonné par Kim Gerdes et Pollet Samvelian...

Programme

10h00 - 10h30 : Kim Gerdes (ILPGA) et Pollet Samvelian (ILPGA)

Les méthodes empiriques en syntaxe et l'émergence de nouveaux fonctionnalismes

10h30 - 11h30 : Rens Bod (Université d'Amsterdam)

From Exemplar to Grammar : Simulating Language Acquisition in U-DOP

11h30 - 12h30 : Discussion avec Martin Kay (Université de Stanford)

Les méthodes empiriques en syntaxe et l'émergence de nouveaux fonctionnalismes

Gerdes et Samvelian ont situé leur propos dans le contexte des approches en syntaxe formelle en affirmant leur accord avec certains principes générativistes, sans adhérer cependant à toutes les propositions de la théorie chomskyenne.

S'ils agréent la distinction entre compétence et performance, la dichotomie grammatical / agrammatical, l'idée d'une rule-based view, et partant, la possibilité de formuler les règles syntaxiques de façon algébrique, une divergence subsiste cependant sur la question de l'approche empirique, liée à la Linguistique de Corpus.

Chomsky, en effet, maintient le postulat de l'innéisme, selon lequel l'enfant connaît nécessairement des structures grammaticales de façon innée sans lesquelles il lui serait impossible de parvenir à acquérir une langue. Par ailleurs, l'une de ses critiques à l'encontre des approches basées sur corpus leur oppose l'introspection comme seul accès à la compétence linguistique, dont dépendent les jugements d'acceptabilité sur un énoncé. Gerdes et Samvelian soutiennent, pour leur part, l'émergence d'une nouvelle conception de la compétence - dont ils ne se réclament pas les seuls porteurs - variable et probabiliste plutôt que catégorique et algébrique. Ils convoquent d'ailleurs les acquis de la Psychologie Développementale et Cognitive, en particulier les travaux de Michael Tomasello, qui ont contribué à démontrer que les mécanismes d'apprentissage chez l'enfant sont puissants et étendus à l'acquisition de tout système de connaissance. Ils citent en particulier les mécanismes de l'attention partagée (intention-reading) et de la catégorisation, l'aptitude à effectuer des analyses distributionnelles et à établir des analogies entre des unités syntaxiques simples et complexes (pattern-finding). Dans une telle perspective, la syntaxe relève d'une des dimensions symboliques du langage; il ne faudrait donc pas parler d'universaux linguistiques, en termes de catégories ou de formes, mais d'universaux communicationnels.

Quant au succès des méthodes statistiques appliquées dans le TAL, ils l'ont confirmé : ça marche mieux. Après avoir insisté sur la rareté d'une réelle double compétence en développement et en linguistique parmis les développeurs d'applications du TAL, Gerdes et Samvelian ont souligné les réussites des approches TAListes basées sur le Web, concrétisées dans la mise à disposition de ressources ouvertes : des corpus annotés morphosyntaxiquement, comme par exemple celui du Penn Treebank Project.

Les travaux d'Ivan Sag, de l'Université de Stanford, ont été cités comme illustrant l'émergence de nouveaux fonctionnalismes en syntaxe formelle, au même titre que Wasow et Bresnan. L'étude de phénomènes syntaxiques sur corpus ont permis une évolution des modèles générativistes vers de nouveaux modèles fonctionnels, qui postulent que la bonne formation syntaxique des énoncés inclut des visées communicationnelles : c'est l'un des moyens à disposition pour l'accomplissement d'objectifs pratiques en situation de communication. Là encore, un point de divergence puisqu'un tel postulat remet en question l'autonomie de la syntaxe, en particulier soutenue par Chomsky.

L'ouverture s'est close sur le constat de l'inexistence d'un modèle complet de la langue, capable d'en gérer la complexité réelle dans la globalité des phénomènes de sa manifestation, et partant, sur l'idée qu'un modèle fonctionnel du langage pourrait répondre à de telles attentes.

From Exemplar to Grammar : Simulating Language Acquisition in U-DOP

Rens Bod, dont les derniers travaux ont remporté le Best Paper Award in Applied Cognitive Modeling (Cognitive Science 2008), a apporté un point de vue présenté comme the starting point for a new theory in language learning. Ses recherches relèvent des approches statistiques en TAL, du Data-Oriented Parsing (DOP, analyse syntaxique orientée données) et des modèles d'acquisition du langage basés sur l'exemple (Exemplar-based models).

Bod réconcilie les Exemlpar-based et les Rule-based approaches en soutenant que le DOP permet de les envisager comme deux extrémités d'un continuum de distribution. En effet, le DOP permet de représenter les règles et les exemples acquis sur corpus sous forme d'arbres syntaxiques minimaux, en se fondant sur le principe de ''structural analogy'' (analogie structurelle) entre une phrase et celles qui la précèdent.

Le modèle U-DOP (Unsupervised Data-Oriented Parsing) est implémenté en fonction d'un principe découlant des observations sur l'acquisition d'une langue seconde chez les apprenants : If a language learner does not know which syntactic tree structure should be assigned to a sentence, s/he initially keeps open all possible tree structures and lets linguistic experience decide which is the most probable tree structure. Le point de vue développé constitue un contrepied fort contre l'idée chomskyenne selon laquelle the notion of analogy is vacuous. Chomsky formule en effet, dans Knowledge of Language : Its Nature, Origin and Use (1986) Bloomfield (1933) held that when a speaker produces speech forms that he has not heard, "we say that he utters them on the analogy of similar forms which he has heard". This idea is not wrong but rather is vacuous since "analogy" is simply an inappropriate concept in the first place.

Le modèle proposé par Bod est cependant fondé sur l'analogie probabiliste (probabilistic analogy) et son système obtient de bon résultats quand aux phrases générées après apprentissage automatique non supervisé. Il s'agit bien d'une approche empirique et émergentiste : U-DOP, sur la base d'un petit corpus d'entraînement de phrases manuellement annotées, en extrait toutes les structures minimales afin de generate complex structures in a complete randomly way. Ce système a été testé sur plusieurs langues - Anglais, Allemand, Chinois -, notamment en utilisant le corpus du Penn Treebank Project, ainsi que sur le corpus d'interactions avec des enfants du CHILDES. L'une des conclusions majeures de ces travaux est que syntactic facets can emerge from analogical matching without hearing the particular facet in the linguistic data and without having to assume that it is hard-wired in the mind.

Quelques mots sur Monsieur Kay

De Monsieur Martin Kay, je ne cite, modestement et sans erreur je l'espère, qu'une assertion : We could get rid of categories. Celle-ci est bien entendu à replacer dans le contexte historique de la traduction automatique et de l'alignement de textes bilingues, de la notion d'unification qui a initié l'émergence des grammaires d'unification en syntaxe formelle, contexte impressionnant que représente à lui seul ce vénérable Monsieur.