MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - moteur de recherche

Fil des billets - Fil des commentaires

mercredi 6 janvier 2010

Bribes de l'audit d'image de l'Islam online

Moteurs de recherche et religions : des rapports pleins de suggestions?

Matt McGee a mis le doigt sur un bien curieux "bug" de l'incontournable du jour : Google. Curieuse nouvelle circulant ce matin dans le fil RSS de SearchEngineLand, en écho à l'un des derniers billets parus sur TheNextWeb, intitulé Google Blocking Negative Search Recommendations On Islam – Why?

La situation se résume en une phrase :

As The Next Web has reported, typing Islam is into Google shows no terms from Google Suggest.

J'emprunte l'image qui fait preuve :

islam.png

Bien entendu, me prend l'irrésistible envie de faire un comparatif, histoire de voir ce que raconte Google.fr avec une requête analogue : islam est. Surprise! Sur Google France, les résultats de recherche suggérés ont comme des petits relans de débat sur les minarets, ne trouvez-vous pas?

IslamEstUneSecte_GoogleSuggestedResults.png

Bien entendu, avec les requêtes christianisme est, "judaïsme est", catholicisme est ou encore protestantisme est, notre cher et tendre moteur ne nous suggère... rien. A noter tout de même que le bouddhisme semble être source de nombreux questionnements :

BouddhismeEst_google.png

En bref, une bien pernicieuse image de l'Islam sur le Web. Ou plutôt des internautes qui y contribuent. Culturellement dommageable? Indubitablement.

lundi 17 août 2009

Mozbot/Twitter : un bon combo

Image_1.png Mozbot proposait déjà des possibilités fort sympathiques pour tout utilisateur de moteur de recherche en quête de fonctionnalités peu banales. On se souvient du Mozcloud, qui permettait par exemple de paramétrer la fréquence d'occurrence des formes à représenter dans le nuage de mots. Plusieurs fonctions avaient malheureusement été "purgées" à la demande de Google, tout récemment, en février 2009. On compte parmi ces pertes, précieuses m'est avis, de bien pratiques features :

  • la possibilité de blacklister un lien lors de recherches ultérieures,
  • le choix du domaine de recherche par défaut,
  • l'affichage des copies d'écran des sites,
  • la restitution d'informations connexes sur le site (statistiques d'Alexa),
  • les statistiques sur la fréquence de saisie d'une requête donnée.

Et encore, je fais l'impasse sur d'autres petites choses agréables, mais qui touchent davantage à la customization, comme le choix de la couleur de l'interface; sans parler non plus de fonctions largement répandues depuis que Mozbot a pointé son nez en 2006, typiquement la proposition de requêtes connexes ou encore la correction orthographique.

En bref, il était vraiment dommage de voir Mozbot déplumé de son beau ramage de fonctionnalités innovantes par le plumeur Google. C'est donc avec plaisir que j'ai ouï parler du nouveau temps d'avance de Mozbot : retourner des résultats provenant aussi de Twitter, dans le frame gauche de l'interface.

Image_2.png

Et de trépigner à la lecture des futures moutures annoncées par ActuAbondance sur le sujet :

les deux listes de résultats ont chacune leur utilité : les liens "organiques", issus de Google, proposent sur la gauche les résultats "de confiance", souvent issus de sites importants en dehors de l'actualité "chaude", alors que les résultats Twitter donnent, pour leur part, une vision du "buzz" autour du domaine demandé. Ainsi, par exemple, la requête "3 Suisses" proposera sur Google des liens "corporate", alors que Twitter fournira des infos sur le "Google bombing" subi actuellement par la société

Que nous réserve l'outil du consortium frenchie Abondance, Raynette et Brioude Internet ?

D'autres fonctionnalités suivront dans les semaines et mois qui viennent.

On n'en saura pas plus pour l'instant, mais c'est décidément une affaire à suivre!

dimanche 1 mars 2009

Truevert, un moteur sémantique "ontology-free"

truevert.jpgDéjà, l'équipe de développement a bien senti la tendance "éco(lo)", et revendique sa verditude comme ma lessive revendique son action pour l'environnement.

Outre l'emballage, Truevert, c'est avant tout un parti-pris surprenant pour un moteur sémantique de nos jours :

We have a semantic web of concepts when we link together all of the words and categories into an ontology and a set of rules for dealing with the elements of this ontology. ... This is the approach taken by the semantic web and by many of the systems that claim to do semantic search. ... The meaning as categorization view implies that there is a fixed set of categories that a word could refer to.

Et tout est là ...

It is capable of serving many needs, but it is not sufficient for semantic search.

Développé par une équipe de californiens, OrcaTec LLC, qui travaillent notamment sur le clustering, l'identification automatique des langues, la gestion de mails et l'identification thématique automatique, et bien sûr sur la recherche sémantique, Truevert est le fruit d'expertises plurielles, de la gestion de l'information aux statistiques, entre autres compétences liées à la recherche appliquée. Ils revendiquent un ancrage universitaire et industriel fort.

Mais revenons-en à l'outil.

Les résultats qu'il retourne sont donc le produit d'un approche émergentiste, où les algorithmes statistiques utilisés opèrent essentiellement sur la cooccurrence des chaînes de caractères. Truevert ne fait appel à aucune ressource exogène au moteur, et c'est là que résident toute sa puissance et son intérêt :

Truevert does not depend on any artificial taxonomy, ontology, thesaurus, dictionary, or require document authors to categorize their content (as in the so-called semantic web).

Parce qu'il y a d'autres façons d'aborder la recherche sémantique : abandonner les formalisations ontologiques du sens pour favoriser le "tout statistique"... ou le retour de l'apprentissage non supervisé.

vendredi 26 décembre 2008

VeoSearch, le moteur solidaire

veosearch1.png VeoSearch est un moteur de recherche français, dont le principe est de financer des associations en reversant une part des profits générés par chaque recherche effectuée sur le site.
Une initiative intéressante : l'idée est innovante et ce service est au centre d'un tissu associatif actif. VeoSearch répertorie plus de 900 associations réparties dans 4 pays (France, Belgique, Suisse, Royaume-Uni). Il faut bien souligner que ce moteur n'a, en termes de fonctionnalités de recherche, rien à envier aux moteurs de recherche classiques dont nous avons l'habitude :

VeoSearch is a search engine working for Sustainable Development (social, economic or environment care). We are in partnership with Google, Yahoo and Ask which allows us to use their technology

L'interface est simple, intuitive : on peut choisir très facilement les associations qu'on souhaite soutenir, sur un panel comme celui ci-dessous.

veosearch2.png

Des groupes sur les grands réseaux sociaux, des informations sur les associations répertoriées et sur le mode de financement sont disponibles ici.

Une belle réussite pour ce service qui compte déjà plus de 60 000 inscrits et a pu collecter plus de 50 000€! Un web-réflexe sur la liste des bonnes résolutions qu'on peut arriver à tenir pour 2009?

jeudi 11 décembre 2008

Vinquire : quand les moteurs de recherche se mettent au pinard

vinquire1.jpg Vinquire a le mérite d'être original : c'est, à ma connaissance, le premier moteur de recherche spécifiquement dédié aux produits viticoles. Une bonne idée, pour un marché de plus en plus international!

A la mode des webservices d'aujourd'hui, les amateurs peuvent commenter, évaluer, noter et vanter les mérites des robes et arômes de leurs vins favoris.

Vinquire permet également d'effectuer des requêtes par prix de vente, par variété et par type, ce qui complète bien l'indexation alphabétique de leur vinothèque. Un vin hors de prix pour accompagner un dessert Pierre Hermé, ou un honnête rouge à consommer entre quelques canapés de tapenade? Il devrait pouvoir vous le dire!

Devrait? Eh bien oui, devrait, parce que dans son impressionnant annuaire de marchands de vins, l'indexation n'existe que pour les états américains. On n'en veut pas à cette bêta d'application qui, m'est avis bien entendu, semble très prometteuse! Elle ne manquera sans doute pas d'intéresser les producteurs sud américains et européens, c'est en tous cas tout le mal que je lui souhaite!

Où l'on a un indice du niveau de culture informatique des viticulteurs californiens... A quand la même en pays bordelais, bourguignon ou champenois?

mercredi 3 septembre 2008

Un métamoteur à plébisciter : Wbsearch

Wbsearch-barre.jpg

Wbsearch Metasearcher Engine, un métamoteur de recherche où cocher la case Exact Phrase veut vraiment dire quelque chose! Je l'ai testé avec Who is Noam Chomsky?, linguistique et Où est la Tour Eiffel?, pas mal du tout. Il apprend aussi nos recherches favorites, restituées dans la liste sous la boîte de dialogue... :)

Wbsearch-aboutus.jpg

Give it a try!

mercredi 27 août 2008

Jixperts : funny chatterbots from Russia

jixperts.jpg

Une fort sympathique idée d'application Web : proposer des chatterbots, ou agents conversationnels, qui prennent la forme de personnages, de personnalités publiques ou de l'une des diverses entités webbiques bien connues des internautes.

L'autre idée, c'est de transmuter l'internaute en contributeur : on peut créer un chatterbot à l'effigie d'un de nos persos préférés :)

Have you ever felt like talking to your favourite character from some movie or cartoon? to a politician, philosopher, or some other famous person? The mission of our project is to allow you to freely and enjoyably communicate with the characters you like. Jixperts.com allows you to not only talk to existing experts, but also to create new ones and teach them by simply asking and answering questions! Passing Turing test? Easy! Characters are taught by real people asking and answering questions!

La base de données de phrases (questions et réponses) est donc alimentée pour tout ou partie par les contributions de ceux qui apprécieront. Bon, sinon, j'ai dit bonjour à un cher ami de South Park : sa base de réponses n'est pas très complète... des fans pour aider cette instance de Stan?

jixpertStan.jpg

Autre chose : cette application est disponible en anglais et en russe! (je souligne par cette ponctuation exclamative mon plaisir de voir les langues se diversifier un peu).

Une base de connaissances générée par l'internaute, des interlocuteurs par et pour l'internaute, un système de génération automatique de textes pour combiner le tout : on pensera ce que l'on veut du packaging, l'idée n'est pas mauvaise, m'est avis bien entendu!

mardi 19 août 2008

Pressflip : la revue de presse façon Deezer

pf_web_logo_front2.pngPressflip, l'un des petits derniers dans la course aux moteurs de recherche, apprend ce que nous aimons à lire dans la presse en ligne.
L'avantage? Pouvoir sauvegarder ses critères de recherche de façon intuitive. Ce n'est pas exactement la smartradio de Deezer, mais ça y ressemble fort et c'est très pratique : on peut filer une ou plusieurs thématiques dans l'actualité, dont le moteur retient la pertinence au fur et à mesure de notre utilisation.
Search Save Learn sur ce prometteur adage, je vous enjoins à tester ce service, dont la release n'a pas tout à fait deux mois :)

mardi 29 juillet 2008

Le joli Cuil

Presque pas dans le buzz tardif cette fois-ci. Cuil, un des derniers-nés de la course au moteur de recherche, fait parler de lui pour sa couverture du Web. Voici une appétissante présentation de Altsearchengines, dont je cite l'amorce :

Cuil, a technology company pioneering a new approach to search, unveils its innovative search offering, which combines the biggest Web index with content-based relevance methods, results organized by ideas, and complete user privacy. Cuil (www.Cuil.com) has indexed 120 billion Web pages, three times more than any other search engine.

C'est élogieux et ça contient le syntagme content-based relevant methods. How interesting! Bon, oui, ça donne envie d'aller tester cette affaire-là. Voyons donc.

google_cuil

cuil_cuil Et pas prétentieux, avec ça : il ne s'indexe pas lui-même!

En bref, de la classification automatique, joli display de l'information, une page d'info très allégorique.

Je n'ai pas identifié d'autre content-based relevant method. :)

jeudi 17 juillet 2008

GrosMoteur : l'outil de création de corpus pour linguistes

Kim Gerdes, ILPGA Paris 3, est l'auteur du fort pratique GrosMoteur! Pour ceux qui savent, l'application est codée en Python, interfacée avec QT4 et est en constante amélioration :)
Pour ceux qui ne savent pas, c'est un excellent outil pour récolter du corpus qu'on peut post-traiter à loisir ensuite. L'un de ses nombreux avantages? Deux modes de recherche intégrés : crawler des pages à partir d'une URL ou à partir de requêtes soumises à un moteur de recherche généraliste.
Bien évidemment, les fonctions de contrainte sur la récolte sont disponibles, pour empêcher GrosMoteur de suivre exhaustivement tous les liens qu'il trouve dans une page.
Pardon, je n'ai pas d'illustration à proposer immédiatement et ce billet n'est qu'un trop faible aperçu de la puissance de cet outil, mais dès que possible, je vous livre une esquisse de manuel utilisateur :)
Pour le moment, je l'utilise dans le cadre de mes travaux et discute assez souvent avec Kim Gerdes pour améliorer l'outil. N'hésitez pas à le contacter pour plus de détails en attendant la suite!

- page 1 de 2