L'Ecole
Doctorale 268 "Langages et langues", Sorbonne Nouvelle, Paris 3 organise à
l'ILPGA
un cycle Conférences du Samedi matin, dont j'ai découvert une des
sessions aujourd'hui, gentiment conviée par monsieur Kim Gerdes. Un petit compte rendu rapide
de cet évènement coordonné par Kim Gerdes et Pollet
Samvelian...
Programme
10h00 - 10h30 : Kim Gerdes (ILPGA) et Pollet Samvelian (ILPGA)
Les méthodes empiriques en syntaxe et l'émergence de nouveaux
fonctionnalismes
10h30 - 11h30 : Rens Bod (Université d'Amsterdam)
From Exemplar to Grammar : Simulating Language Acquisition in
U-DOP
11h30 - 12h30 : Discussion avec Martin Kay (Université de Stanford)
Les méthodes empiriques en syntaxe et l'émergence de nouveaux
fonctionnalismes
Gerdes et Samvelian ont situé leur propos dans le contexte
des approches en syntaxe formelle en affirmant leur accord avec certains
principes générativistes, sans adhérer cependant à toutes les propositions de
la théorie
chomskyenne.
S'ils agréent la distinction entre compétence et performance, la dichotomie
grammatical / agrammatical, l'idée d'une rule-based view, et partant,
la possibilité de formuler les règles syntaxiques de façon algébrique, une
divergence subsiste cependant sur la question de l'approche empirique, liée à
la Linguistique de Corpus.
Chomsky, en
effet, maintient le postulat de l'innéisme, selon lequel l'enfant connaît
nécessairement des structures grammaticales de façon innée sans lesquelles il
lui serait impossible de parvenir à acquérir une langue. Par ailleurs, l'une de
ses critiques à l'encontre des approches basées sur corpus leur oppose
l'introspection comme seul accès à la compétence linguistique, dont dépendent
les jugements d'acceptabilité sur un énoncé. Gerdes et Samvelian soutiennent,
pour leur part, l'émergence d'une nouvelle conception de la compétence - dont
ils ne se réclament pas les seuls porteurs - variable et probabiliste plutôt
que catégorique et algébrique. Ils convoquent d'ailleurs les acquis de la
Psychologie Développementale et Cognitive, en particulier les travaux de
Michael Tomasello,
qui ont contribué à démontrer que les mécanismes d'apprentissage chez l'enfant
sont puissants et étendus à l'acquisition de tout système de connaissance. Ils
citent en particulier les mécanismes de l'attention partagée
(intention-reading) et de la catégorisation, l'aptitude à effectuer
des analyses distributionnelles et à établir des analogies entre des unités
syntaxiques simples et complexes (pattern-finding). Dans une telle
perspective, la syntaxe relève d'une des dimensions symboliques du
langage; il ne faudrait donc pas parler d'universaux linguistiques, en
termes de catégories ou de formes, mais d'universaux
communicationnels.
Quant au succès des méthodes statistiques appliquées dans le TAL, ils l'ont
confirmé : ça marche mieux
. Après avoir insisté sur la rareté d'une
réelle double compétence en développement et en linguistique parmis les
développeurs d'applications du TAL, Gerdes et Samvelian ont souligné les
réussites des approches TAListes basées sur le Web, concrétisées dans la mise à
disposition de ressources ouvertes : des corpus annotés
morphosyntaxiquement, comme par exemple celui du Penn Treebank
Project.
Les travaux d'Ivan
Sag, de l'Université de Stanford, ont été cités comme illustrant
l'émergence de nouveaux fonctionnalismes en syntaxe formelle, au même titre que
Wasow et Bresnan. L'étude de
phénomènes syntaxiques sur corpus ont permis une évolution des modèles
générativistes vers de nouveaux modèles fonctionnels, qui postulent que la
bonne formation syntaxique des énoncés inclut des visées
communicationnelles : c'est l'un des moyens à disposition pour
l'accomplissement d'objectifs pratiques en situation de communication.
Là encore, un point de divergence puisqu'un tel postulat remet en question
l'autonomie de la syntaxe, en particulier soutenue par Chomsky.
L'ouverture s'est close sur le constat de l'inexistence d'un modèle complet
de la langue, capable d'en gérer la complexité réelle dans la globalité des
phénomènes de sa manifestation, et partant, sur l'idée qu'un modèle fonctionnel
du langage pourrait répondre à de telles attentes.
From Exemplar to Grammar : Simulating Language Acquisition in
U-DOP
Rens Bod,
dont les derniers travaux ont remporté le Best Paper Award
in Applied Cognitive Modeling (Cognitive Science 2008), a apporté un point
de vue présenté comme the starting point for a new theory in
language learning
. Ses recherches relèvent des approches
statistiques en TAL, du Data-Oriented Parsing (DOP, analyse syntaxique
orientée données) et des modèles d'acquisition du langage basés sur l'exemple
(Exemplar-based models).
Bod réconcilie les Exemlpar-based et les Rule-based approaches en soutenant
que le DOP permet de les envisager comme deux extrémités d'un continuum de
distribution. En effet, le DOP permet de représenter les règles et les exemples
acquis sur corpus sous forme d'arbres syntaxiques minimaux, en se fondant sur
le principe de ''structural analogy'' (analogie structurelle)
entre une phrase et celles qui la précèdent.
Le modèle U-DOP (Unsupervised Data-Oriented Parsing) est implémenté
en fonction d'un principe découlant des observations sur l'acquisition d'une
langue seconde chez les apprenants : If a language learner does not
know which syntactic tree structure should be assigned to a sentence, s/he
initially keeps open all possible tree structures and lets linguistic
experience decide which is the most probable tree structure.
Le point de
vue développé constitue un contrepied fort contre l'idée chomskyenne selon
laquelle the notion of analogy is vacuous
. Chomsky formule en effet,
dans Knowledge of Language : Its Nature, Origin and Use
(1986) Bloomfield (1933) held that when a speaker produces speech forms that
he has not heard, "we say that he utters them on the analogy of
similar forms which he has heard". This idea is not wrong but rather is vacuous
since "analogy" is simply an inappropriate concept in the first
place.
Le modèle proposé par Bod est cependant fondé sur l'analogie probabiliste
(probabilistic analogy) et son système obtient de bon
résultats quand aux phrases générées après apprentissage automatique non
supervisé. Il s'agit bien d'une approche empirique et émergentiste :
U-DOP, sur la base d'un petit corpus d'entraînement de phrases manuellement
annotées, en extrait toutes les structures minimales afin de generate
complex structures in a complete randomly way
. Ce système a été testé sur
plusieurs langues - Anglais, Allemand, Chinois -, notamment en utilisant le
corpus du Penn
Treebank Project, ainsi que sur le corpus d'interactions avec des enfants
du CHILDES. L'une des
conclusions majeures de ces travaux est que syntactic facets can
emerge from analogical matching without hearing the particular facet
in the linguistic data and without having to assume that it is hard-wired in
the mind
.
Quelques mots sur Monsieur Kay
De Monsieur Martin Kay, je ne cite, modestement et sans erreur je l'espère, qu'une
assertion : We could get rid of categories
.
Celle-ci est bien entendu à replacer dans le contexte historique de la
traduction automatique et de l'alignement de textes bilingues, de la notion
d'unification qui a initié l'émergence des grammaires d'unification en syntaxe
formelle, contexte impressionnant que représente à lui seul ce vénérable
Monsieur.