MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

samedi 2 août 2008

Kiobo : la recommandation par contacts interposés

Le rapport d'influence entre les utilisateurs liés par l'appartenance à un réseau social hybridé entre numérique et réalité. C'est un phénomène entre autres étudié par les domaines de l'opinion mining et du sentiment analysis, en particulier pour observer son incidence sur les comportements d'achat.
Une application comme Kiobo apparaît alors comme un terrain à investir, avec les données dont il dispose pour suivre les parcours de vos contacts sur la toile.

kiobo.jpg

share what you see discover what you like

La restitution des informations sur les pérégrinations webbiques de vos groupes de contacts doit leur permettre de vous aiguiller, en fonction de vos affinités d'intérêt mutuelles. Vous représentez aussi un vecteur d'influence potentiel. L'acuité avec laquelle on vous cible est accrue par l'ajout de Kiobo à un réseau social, Facebook pour ne pas le citer. Croiser les informations de profil, de contacts et de navigation.

Le Web sémantique, une standardisation pour la constitution d'un champ d'exploitation orientée marketing aussi? Sans doute la question n'a-t-elle plus à être posée.

Post Scriptum : une très bonne présentation de Mashable à lire absolument!

mardi 29 juillet 2008

Le joli Cuil

Presque pas dans le buzz tardif cette fois-ci. Cuil, un des derniers-nés de la course au moteur de recherche, fait parler de lui pour sa couverture du Web. Voici une appétissante présentation de Altsearchengines, dont je cite l'amorce :

Cuil, a technology company pioneering a new approach to search, unveils its innovative search offering, which combines the biggest Web index with content-based relevance methods, results organized by ideas, and complete user privacy. Cuil (www.Cuil.com) has indexed 120 billion Web pages, three times more than any other search engine.

C'est élogieux et ça contient le syntagme content-based relevant methods. How interesting! Bon, oui, ça donne envie d'aller tester cette affaire-là. Voyons donc.

google_cuil

cuil_cuil Et pas prétentieux, avec ça : il ne s'indexe pas lui-même!

En bref, de la classification automatique, joli display de l'information, une page d'info très allégorique.

Je n'ai pas identifié d'autre content-based relevant method. :)

mardi 15 juillet 2008

Twitter & Summize : l'autre rachat confirmé

Mashable, dans un article très complet, confirme ce matin le rachat de Summize par Twitter. C'est bien l'ensemble du potentiel Summize qui est racheté : équipe maintenue, API dédiée aux développement d'applications twitter-orientées.
Expectative et attente des retours des utilisateurs.

samedi 12 juillet 2008

Twitter & Summize, l'autre rumeur de rachat

Lu sur TechCrunch il y a trois jours. Il y a sans doute nouvelle plus fraîche que celle-là, mais concentrons-nous sur la tendance lourde, comma dirait une amie super veilleuse au sens de la formule éveillé.
Le rachat des boîtes de développement de moteurs de recherche sémantique : après Powerset, Summize. Avec des acquéreurs effectifs ou potentiels au profil très différent.
Summize-Twitter vs Powerset-Microsoft, l'opposition sans intérêt qu'on peut poser tout de même, pour mettre en perspective deux destins d'applications d'analyse du langage naturel. Aggréger l'information pour la classification automatique en fonction de l'opinion - ce que fait Summize en proposant un classement des résultats selon le paramètre ''Attitude'' - le tout appliqué aux contenus twittés. Palpitt, bien meilleur expert que moi sur l'artefact Twitter, livre à cet égard quelques considérations dans son analyse de la libération de Bétancourt sur Twitter :

- Les battements de Twitter sont intimement liés à l'actualité

- Twitter est un champion de la réactivité, de l'info de dernière minute (de la "breaking news"), au point qu'il devienne pour certains un lieu privilégié de découverte d'informations.

twitter centralise l'information

A lire aussi : Ingrid Betancourt libérée (Wikipédia a été tout aussi réactif)

- Les tweets qui ne comportent pas de liens sont le plus souvent de l'ordre du ressenti

Plusieurs choses. L'ensemble de données auxquelles on applique l'indexation, ou comment la réactivité de la source d'information doit être un acquis. Pour mémoire, Powerset indexe les contenus de Wikipédia. Ensuite, l'objectif de l'application : Microsoft investit dans l'interrogation en langage naturel, Twitter dans le langage subjectif comme paramètre pour la pertinence des résultats. Ce dernier champ de recherche s'est développé avec les applications liées au marketing en ligne de mire, pour mieux classer les cibles.

Attendons la suite.

dimanche 6 juillet 2008

Le linguiste, ou le coeur des innovations majeures sur la recherche sémantique

ZdNet relatait hier, encore, l'information de rachat de la technologie Powerset par Microsoft.
Une quote que je laisse à l'appréciation de chacun pour commencer :

la recherche en ligne basée sur le langage naturel - la sémantique -, qui ne se soucie pas des opérateurs booléens notamment

Je laisse de côté ma tentation d'insurrection contre cette définition de la sémantique, parce que ça fait vraiment plaisir de lire ça un peu plus bas :

La recherche en ligne, et particulièrement celle basée sur le langage naturel, sera le théâtre d'innovations majeures dans les 20 prochaines années, assurent les deux entreprises. « Les moteurs de recherche obligent l'utilisateur à réfléchir aux mots précis susceptibles de se trouver sur la page contenant les informations convoitées. Cela rend les choses plus compliquées qu'elles n'ont lieu d'être », analyse Rammez Namm de Microsoft.

On reconsidèrera peut-être l'idée que quand on vire cinq linguistes, on augmente les performances de 5% :)

L'idée commence à faire son chemin : une expertise en linguistique appliquée, le savoir-faire en représentation des connaissances représentent un investissement à long terme qui portera ses fruits. Loin de rester dans la pensée contradictoire que la recherche d'information peut se passer de connaissance de l'information, il m'est avis que nous n'avons pas ici à traiter d'un effet de mode. La lucidité a frappé, depuis les désillusions liées aux développements du TAL après les investissements massifs au sortir de WWII. Un accouchement douloureux de perspectives réalistes : non, l'expertise linguistique ne fera pas faire de la marge tout de suite.
Parce que ce n'est pas un produit. C'est une révolution.

mercredi 2 juillet 2008

Rachat confirmé!

Juste pour relayer cette info : le rachat de Powerset par Microsoft est confirmé.
Fort pressée de voir ce à quoi aboutira cette collaboration!

vendredi 27 juin 2008

Microsoft et Powerset : la rumeur de rachat

Lu dans ReadWriteWeb et TechCrunchFrance ce matin.

Powerset fait parler de lui depuis quelques temps déjà. MarketWatch l'avait vu venir de loin :

Powerset's technology is different from prior attempts in this vein

La force de Powerset : une autre conception de l'indexation :

Indexing in natural language requires about 100 times more computational power than indexing keywords, which is what the popular search engines do today. The cost of central-processing unit cycles was eight times more expensive six years ago (in other words, three iterations of Moore's Law).

That's the problem with existing search engines, Powerset's founders say. Conventional search indexes words based on the occurrence they're mentioned and their proximity are to one another. Where they fall short is they don't index the relationships between words or the meanings of the words themselves.

Forbes a initié le buzz en début d'année, Crunchbase, GenerationNT, ZDNet on largement relayé et délayé sur l'existence de ce "Google outsider".

Powerset

J'ai testé rapidement. Where is Madagascar?, How do you say hello in russian?, Who is Eichiro Oda?, When was Noam Chomsky born?. Eh ben, ça marche plutôt bien :) et ça évite de connaître par coeur les "define:" et autres "howto:" pour interroger l'ami Google.
La preuve en image :

uneRequete

Si Microsoft veut mettre la main dessus, c'est qu'il y a du potentiel là-dedans... Surtout lorsqu'on sait que Microsoft Research planche sur les technologies de sentiment analysis et d'opinion mining depuis 2004 (à ma connaissance).

jeudi 12 juin 2008

TBL et al., le Web Sémantique rêvé les yeux ouverts et l'air sérieux

Quelques mots sur le très complet résumé de ReadWriteWeb sur le débat interactif The future of the World Wide Web, introduit par quelques banalités considérations de ce cher TBL, Mister Tim Berners-Lee.

You need to "disambiguate data". The AI approach puts burden on the software. The Semantic Web approach puts the burden on the data itself, so it's not about making smarter software - but smarter data.

Alors, ça sonne bien tout ça, mais je pose la question : comment transformer de la data en smarter data? Ah ben oui, avec des formats de standardisation imposés au marteau W3Cien pour faciliter la tâche de transmission de données à tout un chacun. Tout un programme :

"it's a huge cultural project" and is a long term goal

TBL faisant de l'épistémologie culturelle, pourquoi pas. Espérons simplement qu'il ne nous sortira pas un autre joli cake du four! En tous cas, il semble très au fait de la relativité linguistique :

there are different languages for different things

Un mot final, presque réaliste, toujours l'air sérieux, mais pas de TBL (dommage?) :

the Semantic Web won't capture the nuances of human interaction any time soon.

Eh ben franchement, lisez-ça pas du tout attentivement, on apprend plein de choses de ces circonlocutions réfléchies ...

page 3 de 3 -