ActuAbondance en parle cette semaine et propose une première petite étude de
cas sur les résultats du nouveau service Google : "In Quotes".
Sur le principe, entendons-nous bien, l'idée de pouvoir mettre en
regard les citations de deux personnalités publiques sur un sujet
identique ne manque certes pas d'intérêt. Par chez nous les TAListes,
cette mise en regard est indexée par l'intitulé "résonance
textuelle". Je vous recommande d'ailleurs la lecture d'un article
d'André Salem, référence en la matière, intitulé ''Introduction à la résonance textuelle'' (JADT'04).

Ce schéma vise à illustrer un phénomène simple : comparer les discours en
fonction des occurrences que l'ont peut y identifier, afin de les étudier en
contexte, en résonance, justement.
Observons maintenant une page de résultats In Quotes :

L'identification automatique des citations est un problème non trivial en
TAL. Peut-on se limiter au segments de texte encadrés par des guillemets? Non,
et Google Labs a évité cet écueil en effectuant (je suppute) la reconnaissance
automatique des citations en mettant à profit des tournures fréquentes du
discours rapporté, du type "Mr. X said".
In Quotes semble bien fonctionner en procédant par reconnaissance de
mots-clés, associés de façon univoque à une thématique. Il suffirait donc de
trouver une occurrence d'"Iraq" pour que le texte la contenant soit classé dans
la thématique "Iraq". Il n'est bien entendu pas question de prendre en
compte les paraphrases des noms propres, pourtant largement utilisées
dans le discours journalistique, comme par exemple "Baghdad" (le nom de la
capitale du pays en question est souvent utilisée pour renvoyer au pays
lui-même), pour ne prendre que cet exemple.
Autre remarque sur l'alignement d'In Quotes : il n'y en a pas, tout du
moins les extraits de texte restitués et mis en parallèle ne présentent pas
d'alignement par date, par source, par période (la semaine, le mois, par
exemple). C'est dommage : il eût été fort commode pour l'utilisateur de
pouvoir se faire une idée de la recrudescence de ces "thèmes" (fussent-ils
réduits à de simples mots-clés) au cours du temps, en fonction du nombre
d'articles et de la personnalité publique à l'origine des citations relayées
dans la presse. Le seul point de comparaison est finalement un mot-clé
qui apparaît dans les "quotes", ce que ne manque pas de relever
TechCrunch : the site doesn’t seem to be utilizing
any algorithms to determine how each keyword is used
.
Bref, pourquoi proposer un service aussi pauvre, qui ne répond pas à
l'attente de pré-analyse de l'information que peut concevoir
l'utilisateur?