MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - apprentissage automatique

Fil des billets - Fil des commentaires

jeudi 18 septembre 2008

REI, veille stratégique : l'expertise linguistique et l'amélioration des systèmes

Les plateformes de gestion de l'information sont volontiers brandées "sémantique" par leurs éditeurs : voilà le constat de la tendance actuelle. On comprend bien le malheur du benêt linguiste, qui ne saisira pas qu'on lui fourre du dédoublonnage d'URLs dans le paradigme sémantique, lorsqu'il se retrouve face à un chef de produit tout heureux de sa belle interface glossy.

Cependant, le caractère concurrentiel du marché de la veille (un tour sur le site de l'i-expo2008 confortera cette idée) laisse bon espoir de voir émerger le besoin d'une réelle qualité dans l'analyse des contenus.

A cet égard, CELI-France développe une des technologies les plus pointues pour la gestion de l'information objective et subjective sur des données du Web. Son choix? Présenter l'expertise linguistique comme LA valeur ajoutée de son système.
Dans un très bon papier, ''Classification d'opinions par méthodes symbolique, statistique et hybride'', qui leur a valu le victoire au Workshop DEFT'07 (DEfi Fouille de Textes), l'équipe CELI-France donne la faveur aux résultats des méthodes hybrides. Les méthodes hybrides? Nous y reviendrons plus longuement dans un prochain billet, mais il s'agit d'améliorer les résultats des algorithmes d'apprentissage automatique (type Support Vector Machines ou Naive Bayes algorithm) avec le produit d'une modélisation linguistique des données (sous forme de grammaires symboliques).

la démarche hybride ... est importante non seulement pour des raisons scientifiques de performance (le meilleur résultat entre les technologies que nous avons adoptées) mais, aussi et surtout pour des raisons de développement et acceptation par le marché

Il ne sera plus longtemps possible pour l'éditeur de compter sur le flou ambiant des cahiers des charges autour de ces outils, le client est déjà sur le point de faire le deuil de son inculture. Oui, il pourra questionner sur la pertinence de la méthode de génération de votre nuage de mots, lui dont l'oeil humide offrait hier encore une vitreuse surface de réflexion à ces jolies chaînes de caractères colorées.

samedi 7 juin 2008

Samedi matin, syntaxe à la rue des Bernardins

L'Ecole Doctorale 268 "Langages et langues", Sorbonne Nouvelle, Paris 3 organise à l'ILPGA un cycle Conférences du Samedi matin, dont j'ai découvert une des sessions aujourd'hui, gentiment conviée par monsieur Kim Gerdes. Un petit compte rendu rapide de cet évènement coordonné par Kim Gerdes et Pollet Samvelian...

Programme

10h00 - 10h30 : Kim Gerdes (ILPGA) et Pollet Samvelian (ILPGA)

Les méthodes empiriques en syntaxe et l'émergence de nouveaux fonctionnalismes

10h30 - 11h30 : Rens Bod (Université d'Amsterdam)

From Exemplar to Grammar : Simulating Language Acquisition in U-DOP

11h30 - 12h30 : Discussion avec Martin Kay (Université de Stanford)

Les méthodes empiriques en syntaxe et l'émergence de nouveaux fonctionnalismes

Gerdes et Samvelian ont situé leur propos dans le contexte des approches en syntaxe formelle en affirmant leur accord avec certains principes générativistes, sans adhérer cependant à toutes les propositions de la théorie chomskyenne.

S'ils agréent la distinction entre compétence et performance, la dichotomie grammatical / agrammatical, l'idée d'une rule-based view, et partant, la possibilité de formuler les règles syntaxiques de façon algébrique, une divergence subsiste cependant sur la question de l'approche empirique, liée à la Linguistique de Corpus.

Chomsky, en effet, maintient le postulat de l'innéisme, selon lequel l'enfant connaît nécessairement des structures grammaticales de façon innée sans lesquelles il lui serait impossible de parvenir à acquérir une langue. Par ailleurs, l'une de ses critiques à l'encontre des approches basées sur corpus leur oppose l'introspection comme seul accès à la compétence linguistique, dont dépendent les jugements d'acceptabilité sur un énoncé. Gerdes et Samvelian soutiennent, pour leur part, l'émergence d'une nouvelle conception de la compétence - dont ils ne se réclament pas les seuls porteurs - variable et probabiliste plutôt que catégorique et algébrique. Ils convoquent d'ailleurs les acquis de la Psychologie Développementale et Cognitive, en particulier les travaux de Michael Tomasello, qui ont contribué à démontrer que les mécanismes d'apprentissage chez l'enfant sont puissants et étendus à l'acquisition de tout système de connaissance. Ils citent en particulier les mécanismes de l'attention partagée (intention-reading) et de la catégorisation, l'aptitude à effectuer des analyses distributionnelles et à établir des analogies entre des unités syntaxiques simples et complexes (pattern-finding). Dans une telle perspective, la syntaxe relève d'une des dimensions symboliques du langage; il ne faudrait donc pas parler d'universaux linguistiques, en termes de catégories ou de formes, mais d'universaux communicationnels.

Quant au succès des méthodes statistiques appliquées dans le TAL, ils l'ont confirmé : ça marche mieux. Après avoir insisté sur la rareté d'une réelle double compétence en développement et en linguistique parmis les développeurs d'applications du TAL, Gerdes et Samvelian ont souligné les réussites des approches TAListes basées sur le Web, concrétisées dans la mise à disposition de ressources ouvertes : des corpus annotés morphosyntaxiquement, comme par exemple celui du Penn Treebank Project.

Les travaux d'Ivan Sag, de l'Université de Stanford, ont été cités comme illustrant l'émergence de nouveaux fonctionnalismes en syntaxe formelle, au même titre que Wasow et Bresnan. L'étude de phénomènes syntaxiques sur corpus ont permis une évolution des modèles générativistes vers de nouveaux modèles fonctionnels, qui postulent que la bonne formation syntaxique des énoncés inclut des visées communicationnelles : c'est l'un des moyens à disposition pour l'accomplissement d'objectifs pratiques en situation de communication. Là encore, un point de divergence puisqu'un tel postulat remet en question l'autonomie de la syntaxe, en particulier soutenue par Chomsky.

L'ouverture s'est close sur le constat de l'inexistence d'un modèle complet de la langue, capable d'en gérer la complexité réelle dans la globalité des phénomènes de sa manifestation, et partant, sur l'idée qu'un modèle fonctionnel du langage pourrait répondre à de telles attentes.

From Exemplar to Grammar : Simulating Language Acquisition in U-DOP

Rens Bod, dont les derniers travaux ont remporté le Best Paper Award in Applied Cognitive Modeling (Cognitive Science 2008), a apporté un point de vue présenté comme the starting point for a new theory in language learning. Ses recherches relèvent des approches statistiques en TAL, du Data-Oriented Parsing (DOP, analyse syntaxique orientée données) et des modèles d'acquisition du langage basés sur l'exemple (Exemplar-based models).

Bod réconcilie les Exemlpar-based et les Rule-based approaches en soutenant que le DOP permet de les envisager comme deux extrémités d'un continuum de distribution. En effet, le DOP permet de représenter les règles et les exemples acquis sur corpus sous forme d'arbres syntaxiques minimaux, en se fondant sur le principe de ''structural analogy'' (analogie structurelle) entre une phrase et celles qui la précèdent.

Le modèle U-DOP (Unsupervised Data-Oriented Parsing) est implémenté en fonction d'un principe découlant des observations sur l'acquisition d'une langue seconde chez les apprenants : If a language learner does not know which syntactic tree structure should be assigned to a sentence, s/he initially keeps open all possible tree structures and lets linguistic experience decide which is the most probable tree structure. Le point de vue développé constitue un contrepied fort contre l'idée chomskyenne selon laquelle the notion of analogy is vacuous. Chomsky formule en effet, dans Knowledge of Language : Its Nature, Origin and Use (1986) Bloomfield (1933) held that when a speaker produces speech forms that he has not heard, "we say that he utters them on the analogy of similar forms which he has heard". This idea is not wrong but rather is vacuous since "analogy" is simply an inappropriate concept in the first place.

Le modèle proposé par Bod est cependant fondé sur l'analogie probabiliste (probabilistic analogy) et son système obtient de bon résultats quand aux phrases générées après apprentissage automatique non supervisé. Il s'agit bien d'une approche empirique et émergentiste : U-DOP, sur la base d'un petit corpus d'entraînement de phrases manuellement annotées, en extrait toutes les structures minimales afin de generate complex structures in a complete randomly way. Ce système a été testé sur plusieurs langues - Anglais, Allemand, Chinois -, notamment en utilisant le corpus du Penn Treebank Project, ainsi que sur le corpus d'interactions avec des enfants du CHILDES. L'une des conclusions majeures de ces travaux est que syntactic facets can emerge from analogical matching without hearing the particular facet in the linguistic data and without having to assume that it is hard-wired in the mind.

Quelques mots sur Monsieur Kay

De Monsieur Martin Kay, je ne cite, modestement et sans erreur je l'espère, qu'une assertion : We could get rid of categories. Celle-ci est bien entendu à replacer dans le contexte historique de la traduction automatique et de l'alignement de textes bilingues, de la notion d'unification qui a initié l'émergence des grammaires d'unification en syntaxe formelle, contexte impressionnant que représente à lui seul ce vénérable Monsieur.