L'art de la glose, c'est d'abord l'art des annotations, et c'est un peu le moyen des herméneutiques quotidiennes déployées par les <insert-random-word>-analystes qui développent des études et autres rapports d'analyse. Ou des linguistes qui travaillent sur corpus. De tous ceux-là, donc, Glozz devrait susciter l'intérêt.

Glozz est une plateforme dédiée à l'annotation et à l'exploration de corpus textuels, librement téléchargeable. Cet outil est développé par des chercheurs français en TAL (Traitement Automatique des Langues), dans le cadre du projet ANR ANNODIS par le GREYC, en collaboration avec l'ERSS et l'IRIT.

Je vous propose de découvrir une première facette de cet outil, celle de l'annotation de corpus. On garde tout de même en mémoire l'énorme intérêt de GlozzQL, langage de requêtes qui permet d'interroger les annotations réalisées, aspect que je mets de côté pour le moment. Je mets également de côté toutes les considérations liées à la méthodologie de mise en place d'une campagne d'annotation (adaptation de modèle, définition de la grille, rôdage, ...). L'objectif est vraiment de partager ma première expérience utilisateur de cet outil, et comme pour le moment celle-ci consiste en de l'annotation... :D oui, j'adore ça !

La belle facette de l'annotation de corpus, disait-on... cela commence par une application Java, exit donc les problèmes de plateforme : ça tourne sous Windows, Linux et Mac OS X, no worries. D'un point de vue end user et mise en oeuvre de la campagne d'annotation, quatre points-clés :

  • la prise en main est accessible, mais pas encore user-friendly ; il faut passer par l'invite de commande pour lancer le .jar ;

Lancement de Glozz via le terminal

  • l'interface permet deux points de vue simultanés sur le fil textuel (global et local en même temps) ;

Vues du fil textuel

  • la puissance du système d'annotation - récursivité, quand tu nous tiens - qu'il est possible de mettre en place ;

Récursivité du système d'annotation

  • la synchronisation de plusieurs trames d'annotation projetées sur le cadre du corpus confère un confort et une grande flexibilité du système d'annotation (ex : trame d'annotation modifiable en temps réel)

Chargement en temps réel des modèles d'annotation


ÉTAPES D'UTILISATION

  • convertir son corpus .txt au format requis

Lors du premier import du corpus via l'interface, on crée deux fichiers de sortie :
(i) l'un au format .ac, qui est le cadre des coordonnées du corpus et auquel on associe
(ii) un fichier au format .aa, dans lequel sont stockées les trames d'annotation instanciées par la suite.

Charger et convertir son corpus au format requis

  • importer son corpus "prêt-à-annoter"

Il faut ensuite charger simultanément le cadre et la trame, pour l'instant vides, du corpus.

Charger le corpus avec son cadre (fichiers .ac et .aa)

  • annoter ... mais avec quoi ?

Il faut à présent importer le fichier contenant la grille d'annotation que vous souhaitez projeter sur le corpus ; on passe bien entendu sur l'étape préalable de réflexion qui consiste à définir la grille d'annotation en elle-même. Ce fichier est un "annotation model" et est distingué par l'extension .aam : le modèle d'annotation peut être directement importé depuis l'interface.

Charger le fichier .aam (modèle d'annotation)

A noter :
(i) la flexibilité du système, car on peut modifier et réimporter directement un modèle d'annotation à tout moment ;
(ii) la puissance du système, qui permet de travailler le corpus avec différentes grilles de description très facilement, sans l'altérer. Par "altérer", j'entends que dans la plupart des campagnes d'annotation - tout du moins les quelques-unes auxquelles j'ai eu la chance de participer - les annotations sont intégrées au fil textuel, et non pas associées comme c'est le cas dans Glozz.

  • et maintenant, annotez !

La prise en main est assez simple une fois qu'on a intégré quelques éléments de signalétique propres à l'interface (distinguer les boutons pour instancier une annotation des boutons pour modifier une annotation) ; la navigation simultanée "local + global" du corpus est rend tout simplement la tâche infiniment plus confortable, surtout lorsque vous avez la bonne idée de travailler sur des fils de conversation de plusieurs centaines - et encore, je minimise - de messages :)

Je n'ai pas testé s'il est possible de travailler en mode collaboratif sur un projet d'annotation, mais c'est certainement faisable et confère donc un fort potentiel d'utilisation à cette plateforme. Dans des versions ultérieures, l'applicatif pourrait facilement trouver sa place dans le flux de travail d'analystes en entreprise, ou encore favoriser le développement de projets de recherche sur des corpus collaboratifs.

A noter ! petite astuce si jamais vous avez un corpus un peu volumineux : lancez l'application en lui donnant plus de mémoire :
java -Xmx1024m -jar chemin .jar #pour allouer 1Go
java -Xmx2048m -jar chemin .jar #pour allouer 2Go