MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

TAL tools

TreeTagger



TreeTagger
, développé par les chercheurs de l'Université de Stuttgart, est un grand classique dans un cursus de Traitement Automatique des Langues (TAL).

Fil des billets - Fil des commentaires

mardi 18 janvier 2011

Glozz, l'outil pour gloser en liberté

L'art de la glose, c'est d'abord l'art des annotations, et c'est un peu le moyen des herméneutiques quotidiennes déployées par les <insert-random-word>-analystes qui développent des études et autres rapports d'analyse. Ou des linguistes qui travaillent sur corpus. De tous ceux-là, donc, Glozz devrait susciter l'intérêt.

Glozz est une plateforme dédiée à l'annotation et à l'exploration de corpus textuels, librement téléchargeable. Cet outil est développé par des chercheurs français en TAL (Traitement Automatique des Langues), dans le cadre du projet ANR ANNODIS par le GREYC, en collaboration avec l'ERSS et l'IRIT.

Je vous propose de découvrir une première facette de cet outil, celle de l'annotation de corpus. On garde tout de même en mémoire l'énorme intérêt de GlozzQL, langage de requêtes qui permet d'interroger les annotations réalisées, aspect que je mets de côté pour le moment. Je mets également de côté toutes les considérations liées à la méthodologie de mise en place d'une campagne d'annotation (adaptation de modèle, définition de la grille, rôdage, ...). L'objectif est vraiment de partager ma première expérience utilisateur de cet outil, et comme pour le moment celle-ci consiste en de l'annotation... :D oui, j'adore ça !

La belle facette de l'annotation de corpus, disait-on... cela commence par une application Java, exit donc les problèmes de plateforme : ça tourne sous Windows, Linux et Mac OS X, no worries. D'un point de vue end user et mise en oeuvre de la campagne d'annotation, quatre points-clés :

  • la prise en main est accessible, mais pas encore user-friendly ; il faut passer par l'invite de commande pour lancer le .jar ;

Lancement de Glozz via le terminal

  • l'interface permet deux points de vue simultanés sur le fil textuel (global et local en même temps) ;

Vues du fil textuel

  • la puissance du système d'annotation - récursivité, quand tu nous tiens - qu'il est possible de mettre en place ;

Récursivité du système d'annotation

  • la synchronisation de plusieurs trames d'annotation projetées sur le cadre du corpus confère un confort et une grande flexibilité du système d'annotation (ex : trame d'annotation modifiable en temps réel)

Chargement en temps réel des modèles d'annotation


ÉTAPES D'UTILISATION

  • convertir son corpus .txt au format requis

Lors du premier import du corpus via l'interface, on crée deux fichiers de sortie :
(i) l'un au format .ac, qui est le cadre des coordonnées du corpus et auquel on associe
(ii) un fichier au format .aa, dans lequel sont stockées les trames d'annotation instanciées par la suite.

Charger et convertir son corpus au format requis

  • importer son corpus "prêt-à-annoter"

Il faut ensuite charger simultanément le cadre et la trame, pour l'instant vides, du corpus.

Charger le corpus avec son cadre (fichiers .ac et .aa)

  • annoter ... mais avec quoi ?

Il faut à présent importer le fichier contenant la grille d'annotation que vous souhaitez projeter sur le corpus ; on passe bien entendu sur l'étape préalable de réflexion qui consiste à définir la grille d'annotation en elle-même. Ce fichier est un "annotation model" et est distingué par l'extension .aam : le modèle d'annotation peut être directement importé depuis l'interface.

Charger le fichier .aam (modèle d'annotation)

A noter :
(i) la flexibilité du système, car on peut modifier et réimporter directement un modèle d'annotation à tout moment ;
(ii) la puissance du système, qui permet de travailler le corpus avec différentes grilles de description très facilement, sans l'altérer. Par "altérer", j'entends que dans la plupart des campagnes d'annotation - tout du moins les quelques-unes auxquelles j'ai eu la chance de participer - les annotations sont intégrées au fil textuel, et non pas associées comme c'est le cas dans Glozz.

  • et maintenant, annotez !

La prise en main est assez simple une fois qu'on a intégré quelques éléments de signalétique propres à l'interface (distinguer les boutons pour instancier une annotation des boutons pour modifier une annotation) ; la navigation simultanée "local + global" du corpus est rend tout simplement la tâche infiniment plus confortable, surtout lorsque vous avez la bonne idée de travailler sur des fils de conversation de plusieurs centaines - et encore, je minimise - de messages :)

Je n'ai pas testé s'il est possible de travailler en mode collaboratif sur un projet d'annotation, mais c'est certainement faisable et confère donc un fort potentiel d'utilisation à cette plateforme. Dans des versions ultérieures, l'applicatif pourrait facilement trouver sa place dans le flux de travail d'analystes en entreprise, ou encore favoriser le développement de projets de recherche sur des corpus collaboratifs.

A noter ! petite astuce si jamais vous avez un corpus un peu volumineux : lancez l'application en lui donnant plus de mémoire :
java -Xmx1024m -jar chemin .jar #pour allouer 1Go
java -Xmx2048m -jar chemin .jar #pour allouer 2Go

samedi 8 novembre 2008

Premiers pas avec Praat

Comme promis, voici un petit savoir-faire, réalisé il y a quelques temps avec Aron Arnold (collègue phonéticien), pour apprendre à utiliser Praat, un logiciel libre dédié à l'analyse de l'oral.

A vos micros!

vendredi 31 octobre 2008

Praat : la phonétique opensource

Très bien documenté, Praat est un outil dédié à l'analyse acoustique de l'oral. Je vous passe LA tirade étymologique "sur-ce-que-ça-veut-dire-en", parce que cette application vaut bien mieux qu'un peu de confiture culturelle :)
Il permet pas mal de choses (on peut programmer ses fonctions) en plus d'un côté fort pratique pour la visualisation, le paramétrage pour l'analyse, le découpage et l'annotation des séquences de sons. Pour le détail des opérations, Cédric Gendrot a mis de bons tutoriels et même des petits scripts : sympa, non?
Je concède, tout ça n'est pas de la plus glamour interface, mais on peut observer plein de choses!

A venir : un petit tutoriel d'introduction

jeudi 17 juillet 2008

GrosMoteur : l'outil de création de corpus pour linguistes

Kim Gerdes, ILPGA Paris 3, est l'auteur du fort pratique GrosMoteur! Pour ceux qui savent, l'application est codée en Python, interfacée avec QT4 et est en constante amélioration :)
Pour ceux qui ne savent pas, c'est un excellent outil pour récolter du corpus qu'on peut post-traiter à loisir ensuite. L'un de ses nombreux avantages? Deux modes de recherche intégrés : crawler des pages à partir d'une URL ou à partir de requêtes soumises à un moteur de recherche généraliste.
Bien évidemment, les fonctions de contrainte sur la récolte sont disponibles, pour empêcher GrosMoteur de suivre exhaustivement tous les liens qu'il trouve dans une page.
Pardon, je n'ai pas d'illustration à proposer immédiatement et ce billet n'est qu'un trop faible aperçu de la puissance de cet outil, mais dès que possible, je vous livre une esquisse de manuel utilisateur :)
Pour le moment, je l'utilise dans le cadre de mes travaux et discute assez souvent avec Kim Gerdes pour améliorer l'outil. N'hésitez pas à le contacter pour plus de détails en attendant la suite!