L'art de la glose, c'est d'abord l'art des annotations, et c'est un peu le moyen des herméneutiques quotidiennes déployées par les <insert-random-word>-analystes qui développent des études et autres rapports d'analyse. Ou des linguistes qui travaillent sur corpus. De tous ceux-là, donc, Glozz devrait susciter l'intérêt.
Glozz est une plateforme dédiée à l'annotation et à l'exploration de corpus textuels, librement téléchargeable. Cet outil est développé par des chercheurs français en TAL (Traitement Automatique des Langues), dans le cadre du projet ANR ANNODIS par le GREYC, en collaboration avec l'ERSS et l'IRIT.
Je vous propose de découvrir une première facette de cet outil, celle de
l'annotation de corpus. On garde tout de même en mémoire l'énorme intérêt de
GlozzQL, langage de requêtes qui permet d'interroger les annotations réalisées,
aspect que je mets de côté pour le moment. Je mets également de côté toutes les
considérations liées à la méthodologie de mise en place d'une campagne
d'annotation (adaptation de modèle, définition de la grille, rôdage, ...).
L'objectif est vraiment de partager ma première expérience utilisateur de cet
outil, et comme pour le moment celle-ci consiste en de l'annotation... :D
oui, j'adore ça !
La belle facette de l'annotation de corpus, disait-on... cela commence par une application Java, exit donc les problèmes de plateforme : ça tourne sous Windows, Linux et Mac OS X, no worries. D'un point de vue end user et mise en oeuvre de la campagne d'annotation, quatre points-clés :
- la prise en main est accessible, mais pas encore user-friendly ; il faut passer par l'invite de commande pour lancer le .jar ;
- l'interface permet deux points de vue simultanés sur le fil textuel (global et local en même temps) ;
- la puissance du système d'annotation - récursivité, quand tu nous tiens - qu'il est possible de mettre en place ;
- la synchronisation de plusieurs trames d'annotation projetées sur le cadre du corpus confère un confort et une grande flexibilité du système d'annotation (ex : trame d'annotation modifiable en temps réel)
ÉTAPES D'UTILISATION
- convertir son corpus .txt au format requis
Lors du premier import du corpus via l'interface, on crée deux fichiers de
sortie :
(i) l'un au format .ac, qui est le cadre des coordonnées du corpus et auquel on
associe
(ii) un fichier au format .aa, dans lequel sont stockées les trames
d'annotation instanciées par la suite.
- importer son corpus "prêt-à-annoter"
Il faut ensuite charger simultanément le cadre et la trame, pour l'instant vides, du corpus.
- annoter ... mais avec quoi ?
Il faut à présent importer le fichier contenant la grille d'annotation que vous souhaitez projeter sur le corpus ; on passe bien entendu sur l'étape préalable de réflexion qui consiste à définir la grille d'annotation en elle-même. Ce fichier est un "annotation model" et est distingué par l'extension .aam : le modèle d'annotation peut être directement importé depuis l'interface.
A noter :
(i) la flexibilité du système, car on peut modifier et réimporter directement
un modèle d'annotation à tout moment ;
(ii) la puissance du système, qui permet de travailler le corpus avec
différentes grilles de description très facilement, sans l'altérer. Par
"altérer", j'entends que dans la plupart des campagnes d'annotation - tout du
moins les quelques-unes auxquelles j'ai eu la chance de participer - les
annotations sont intégrées au fil textuel, et non pas
associées comme c'est le cas dans Glozz.
- et maintenant, annotez !
La prise en main est assez simple une fois qu'on a intégré quelques éléments
de signalétique propres à l'interface (distinguer les boutons pour instancier
une annotation des boutons pour modifier une annotation) ; la navigation
simultanée "local + global" du corpus est rend tout simplement la tâche
infiniment plus confortable, surtout lorsque vous avez la bonne idée de
travailler sur des fils de conversation de plusieurs centaines - et encore, je
minimise - de messages 
Je n'ai pas testé s'il est possible de travailler en mode collaboratif sur un projet d'annotation, mais c'est certainement faisable et confère donc un fort potentiel d'utilisation à cette plateforme. Dans des versions ultérieures, l'applicatif pourrait facilement trouver sa place dans le flux de travail d'analystes en entreprise, ou encore favoriser le développement de projets de recherche sur des corpus collaboratifs.
A noter ! petite astuce si jamais vous avez un corpus un peu
volumineux : lancez l'application en lui donnant plus de mémoire :
java -Xmx1024m -jar chemin .jar
#pour allouer 1Go
java -Xmx2048m -jar chemin .jar
#pour allouer 2Go






