Kim Gerdes, ILPGA Paris 3, est l'auteur du fort pratique GrosMoteur! Pour ceux qui savent, l'application est codée en Python, interfacée avec QT4 et est en constante amélioration :)
Pour ceux qui ne savent pas, c'est un excellent outil pour récolter du corpus qu'on peut post-traiter à loisir ensuite. L'un de ses nombreux avantages? Deux modes de recherche intégrés : crawler des pages à partir d'une URL ou à partir de requêtes soumises à un moteur de recherche généraliste.
Bien évidemment, les fonctions de contrainte sur la récolte sont disponibles, pour empêcher GrosMoteur de suivre exhaustivement tous les liens qu'il trouve dans une page.
Pardon, je n'ai pas d'illustration à proposer immédiatement et ce billet n'est qu'un trop faible aperçu de la puissance de cet outil, mais dès que possible, je vous livre une esquisse de manuel utilisateur :)
Pour le moment, je l'utilise dans le cadre de mes travaux et discute assez souvent avec Kim Gerdes pour améliorer l'outil. N'hésitez pas à le contacter pour plus de détails en attendant la suite!