Les systèmes de Questions/Answers - Q/A pour les intimes - ne sont pas nés de la dernière pluie, et arrosent le grand public depuis plusieurs décennies déjà. Véritables moteurs de recherche évolués, ce sont des solutions clairement adaptées aux problématiques de Data Journalism et sans doute à certaines attentes des utilisateurs de Search Engines grand public. Tentative de panorama.

Les mythes véhiculés par les médias audiovisuels prenant comme sujet la machine détentrice de connaissance absolue ne se comptent plus : le paradigme s'étend de 3PO dans Star Wars à Ziggy dans Code Quantum. Une bonne part de ces mythes sont matérialisés par les systèmes de Q/A - ou Q/R pour "Questions/Réponses" en français dans le texte. N'étant pas spécialiste de mythocritique, je vous propose quelques pistes pour vous faire une idée de ce qu'est un système de Q/A.

Q/A, c'est quoi ? Très simplement, un système de Q/A est un moteur de recherche, en ce qu'on adresse une question (une requête) au système et qu'on en attend un ou plusieurs résultats pertinents quant à une requête donnée. Comme un moteur de recherche, un système de Q/A fait appel à des fonctionnalités de recherche documentaire - pour fouiller un ensemble de documents - et inclut des calculs de pertinence - pour retourner à l'utilisateur des documents susceptibles de contenir la/les réponse(s) adéquate(s).

Pourquoi donc parler de "moteur de recherche évolué" ? Parce qu'à la différence d'un moteur de recherche traditionnel, un système de Q/A intègre des modules de traitement linguistique un peu plus complexes : d'une part, il doit traiter des questions, et non des séries de mots-clés; d'autre part, il doit retourner soit une réponse (ou une série de réponses) pertinente, soit un passage textuel (ou une série de passages) comportant la réponse à la question. Par exemple, imaginons le scénario suivant, dans le cadre d'un système de Q/A basé sur Wikipédia en français :
Question :

Quand Jacques Chirac est-il né ?

Réponse (basée sur la page Wikipédia en français dédiée à Jacques Chirac) :

Jacques Chirac est né le 29 novembre 1932

On imagine bien la complexité des traitements impliqués, étant donnée la variété des formulations possibles pour une même question, la sélection de sources documentaires fiables, sans même parler de points plus spécifiques (traitement des Entités Nommées, typage des questions,...), sans même se placer dans un contexte multilingue. Bref, la conception de tels système est bien loin d'être une mince affaire!

Et aujourd'hui, quels exemples concrets ? Reprenons un peu l'actualité de quelques acquisitions, par exemple, des firmes de Redmond et de Mountain View :

Qu'en dire ? Au moins que les systèmes de Q/A intégralement automatiques ne sont pas viables dans un contexte de "real life", et ne sont qu'encore partiellement efficaces sur des bases documentaires fermées et thématiquement homogènes (i.e. des ensembles de documents liés au même domaine, par exemple le domaine médical). Les algorithmes implémentés pour cibler des besoins grand public sont donc plutôt conçus pour router les questions vers des humains qui ont le plus de probabilités de pouvoir répondre correctement.

Les intiatives à la Orange ou certaines tentatives de Google (non, je ne bondirai pas une énième fois sur l'emploi plus ou moins impropre de la lexie "sémantique"), illustrent parfaitement l'avenir des systèmes de Q/A : restituer de l'information encyclopédique. Dommage, moi aussi j'aurais aimé continuer à nourrir le fantasme d'avoir un jour un 3PO ou un Ziggy ;)