MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - recherche d information

Fil des billets - Fil des commentaires

mercredi 6 janvier 2010

Bribes de l'audit d'image de l'Islam online

Moteurs de recherche et religions : des rapports pleins de suggestions?

Matt McGee a mis le doigt sur un bien curieux "bug" de l'incontournable du jour : Google. Curieuse nouvelle circulant ce matin dans le fil RSS de SearchEngineLand, en écho à l'un des derniers billets parus sur TheNextWeb, intitulé Google Blocking Negative Search Recommendations On Islam – Why?

La situation se résume en une phrase :

As The Next Web has reported, typing Islam is into Google shows no terms from Google Suggest.

J'emprunte l'image qui fait preuve :

islam.png

Bien entendu, me prend l'irrésistible envie de faire un comparatif, histoire de voir ce que raconte Google.fr avec une requête analogue : islam est. Surprise! Sur Google France, les résultats de recherche suggérés ont comme des petits relans de débat sur les minarets, ne trouvez-vous pas?

IslamEstUneSecte_GoogleSuggestedResults.png

Bien entendu, avec les requêtes christianisme est, "judaïsme est", catholicisme est ou encore protestantisme est, notre cher et tendre moteur ne nous suggère... rien. A noter tout de même que le bouddhisme semble être source de nombreux questionnements :

BouddhismeEst_google.png

En bref, une bien pernicieuse image de l'Islam sur le Web. Ou plutôt des internautes qui y contribuent. Culturellement dommageable? Indubitablement.

dimanche 4 janvier 2009

FeedVis by Jason Priem : la contradiction du contexte et de la lemmatisation

OF en parle : FeedVis, une application qui permet de faire du tri dans la nuée de flux que peut être amené à ingurgiter le veilleur web. Son auteur, Jason Priem, donne quelques infos et propose sa nouvelle release en téléchargement ici.
OF met bien en exergue le problème de la gestion de l'encodage (UTF8, tu connais?), avec cette instructive image que je me permets de reporter ici :

Feedvis.jpg

Associer une timeline à la génération du nuage de tags construit à partir de vos flux RSS? Proposer quelques résultats de calculs statistiques élémentaires sur la fréquence des occurrences de formes? Revendiquer une couche de lemmatisation avant l'application de ces calculs statistiques? "Sounds nice!", direz-vous, mais en fait, rien de neuf sous le soleil de 2009.

Je salue l'initiative de développer ce genre d'applications web, mais linguistiquement parlant, je tique surtout sur la lemmatisation. Jason Priem nous explique :

Conversations change, and I wanted to see that. I wanted more context

Reprenons :

  • le lemme est la forme non fléchie, par exemple d'un verbe (lemme = aller, forme fléchie = va) ou d'un substantif (lemme = mot, forme fléchie = mots);
  • la lemmatisation consiste donc à rapporter un ensemble de formes fléchies à une forme non fléchie, dite lemmatisée (stratégies, stratégique, stratégiquement rapportées à stratégie, par exemple);
  • en TAL, la lemmatisation est un procédé souvent utilisé car il permet d'obtenir de "meilleures" statistiques sur les fréquences d'occurrences de formes dans un texte; l'idée est la suivante : au lieu d'avoir des statistiques pour stratégies, stratégique et stratégiquement isolément, on regroupe les résultats de ces différentes formes fléchies en les couplant à celles du lemme stratégie;
  • meilleures statistiques? Selon moi, il n'est pas utile d'appliquer une couche de lemmatisation lorsque, comme Jason Priem, l'on prétend vouloir "more context". Pourquoi? Simplement parce que la lemmatisation est une réduction de la variation lexicale présente dans les textes et évacue véritablement le contexte.
  • le contexte (si l'on chipotait, l'on parlerait plutôt de cotexte, d'ailleurs, mais passons) est justement accessible par la diversité des formes présentes dans le texte : les fréquences d'occurrence de pieds ou de pied sont liées au contexte (c'est-à-dire à des emplois différents dans le discours : le pied de la montagne et les pieds de mon ami, par exemple)

En somme :

  1. la lemmatisation maquille le changement dans les conversations
  2. la justification de son emploi est très discutable, d'un point de vue linguistique en tous cas : le contexte, c'est la variation des formes; pourquoi alors les réduire à un artefact, le lemme?

vendredi 10 octobre 2008

La coloration thématique des contenus textuels : une réelle innovation?

"Enfin un outil qui permet une couche d'analyse par dessus les statistiques sur les liens entre les blogs", me suis-je exclamée en lisant la présentation, comme toujours, très brillante, de Marshall Kirkpatrick (ReadWriteWeb), de l'outil Memeorandum.

En lisant ce très bon papier, je me suis souvenue avoir vu des développements analogues. Eh oui, en France, on fait beaucoup moins de bruit autour des innovations concoctées par nos chercheurs CNRS... C'est bien dommage, car en 2001, Pierre Beust, chercheur à l'Université de Caen, s'intéressait déjà au développement de technologies pour ce type d'applications. Je ne peux donc que recommander la lecture de son article de l'époque, Acquisition de classes sémantiques par coloriage thématique des textes électroniques. Je me permets d'en reproduire ici l'abstract :

Cet article présente une application appelée ThemeEditor dont le but est de permettre une acquisition supervisée de classes sémantiques. Cette acquisition est réalisée dans le cours d’une tâche interactive d’analyse interprétative de textes électroniques. Le logiciel d’étude proposé met en oeuvre un principe de coloriage thématique dans un texte et plus généralement dans un corpus de textes électroniques. Il s’agit de mettre en évidence, en fonction des classes sémantiques acquises ou en cours d’acquisition, la répartition des thèmes et leurs différentes formes d’enchaînements.

Ou comment ce qui nous paraît innovant aujourd'hui ne date certainement pas d'hier... Ou comment garder à l'esprit que, quand bien même l'innovation paraît surtout venir des US, elle est pourtant endormie quelque par dans un labo hexagonal...

mercredi 8 octobre 2008

ChaCha!

ChaCha’s Guides are individuals who are part of a vibrant community dedicated to helping people by sharing their knowledge.

Interesting? Bien loin des mobile services avec beaucoup de processing dedans, ChaCha, c'est un peu comme les renseignements téléphoniques, mais avec des contributeurs volontaires à l'autre bout du fil pour vous fournir de l'information.
La vidéo de présentation de l'outil est disponible sur le site chacha.com. Alors, il ne s'agit pas d'un moteur de recherche, mais d'un service de mise en relation entre les personnes, les unes souhaitant obtenir une information, les autres souhaitant partager leur savoir. Chacha propose d'ailleurs du mobile marketing à partir de la plateforme dont dispose la société.

As usual, j'ai cherché des papiers explicitant la technologie utilisée sur le site, mais n'en ai point trouvé. Une phrase intéressante à relever cependant :

ChaCha’s technology is also learning from each answer that is provided by our guides so that we can deliver accurate answers as quickly as possible.

Pas folle la guêpe ChaCha : ils ont donc glissé un algorithme d'apprentissage automatique qui s'entraîne sur les bases de données des réponses fournies par les Guides humains. Je suppute qu'un algorithme de génération automatique de texte ne va pas tarder à pointer le bout de son nez : quelle manne, les réponses de Guides!

mercredi 3 septembre 2008

Un métamoteur à plébisciter : Wbsearch

Wbsearch-barre.jpg

Wbsearch Metasearcher Engine, un métamoteur de recherche où cocher la case Exact Phrase veut vraiment dire quelque chose! Je l'ai testé avec Who is Noam Chomsky?, linguistique et Où est la Tour Eiffel?, pas mal du tout. Il apprend aussi nos recherches favorites, restituées dans la liste sous la boîte de dialogue... :)

Wbsearch-aboutus.jpg

Give it a try!

mercredi 27 août 2008

Jixperts : funny chatterbots from Russia

jixperts.jpg

Une fort sympathique idée d'application Web : proposer des chatterbots, ou agents conversationnels, qui prennent la forme de personnages, de personnalités publiques ou de l'une des diverses entités webbiques bien connues des internautes.

L'autre idée, c'est de transmuter l'internaute en contributeur : on peut créer un chatterbot à l'effigie d'un de nos persos préférés :)

Have you ever felt like talking to your favourite character from some movie or cartoon? to a politician, philosopher, or some other famous person? The mission of our project is to allow you to freely and enjoyably communicate with the characters you like. Jixperts.com allows you to not only talk to existing experts, but also to create new ones and teach them by simply asking and answering questions! Passing Turing test? Easy! Characters are taught by real people asking and answering questions!

La base de données de phrases (questions et réponses) est donc alimentée pour tout ou partie par les contributions de ceux qui apprécieront. Bon, sinon, j'ai dit bonjour à un cher ami de South Park : sa base de réponses n'est pas très complète... des fans pour aider cette instance de Stan?

jixpertStan.jpg

Autre chose : cette application est disponible en anglais et en russe! (je souligne par cette ponctuation exclamative mon plaisir de voir les langues se diversifier un peu).

Une base de connaissances générée par l'internaute, des interlocuteurs par et pour l'internaute, un système de génération automatique de textes pour combiner le tout : on pensera ce que l'on veut du packaging, l'idée n'est pas mauvaise, m'est avis bien entendu!

vendredi 15 août 2008

Hewlett-Packard mécène la recherche d'information

BusinessWeek annonce aujourd'hui les résultats de l'appel à soumissions lancé par Hewlett-Packard en mai dernier. Les chercheurs étaient invités à faire part de leurs projets pour décrocher un éventuel financement.
En somme,

HP said it awarded 41 professors as much as $100,000 apiece.

L'article ne manque pas de le préciser, HP Labs finance la Recherche très régulièrement. Pourquoi alors faire cas de l'orientation esquissée par HP cette année? Parce qu'un précédent papier de BusinessWeek relatait l'intention de la firme de

link research more closely to business objectives

business objectives, un syntagme qui évoque les applications des technologies de traitement automatique de l'information appliquées à l'entreprise, en particulier la CRM (Consumer Relationship Management), dont les applications sont de plus en plus rentables depuis les années 2000, ce qui n'a pas du échapper aux HP data analysis labs.

Alors la chose à retenir : inviting researchers from around the world to submit proposals for research in one of 49 areas of particular interest to HP , avec une emphase sur Erik Brynjolfsson, qui cherche comment rendre l'entreprise plus compétitive grâce à l'interaction avec les TIC. Un signal aux grands groupes pour pérenniser leur compétititvité?

L'un des champs d'investigation liés à Brynjolfsson : how social behavior interacts with social technology. Les technologies de recherche d'information auront sans aucun doute la part belle, et j'imagine que leurs émules appliquées au langage naturel, au langage évaluatif en particulier, ne seront pas en reste. La rénovation des systèmes d'information est sur une bonne lancée :) m'est avis, bien entendu.