MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - Semantic Web

Fil des billets - Fil des commentaires

vendredi 10 octobre 2008

La coloration thématique des contenus textuels : une réelle innovation?

"Enfin un outil qui permet une couche d'analyse par dessus les statistiques sur les liens entre les blogs", me suis-je exclamée en lisant la présentation, comme toujours, très brillante, de Marshall Kirkpatrick (ReadWriteWeb), de l'outil Memeorandum.

En lisant ce très bon papier, je me suis souvenue avoir vu des développements analogues. Eh oui, en France, on fait beaucoup moins de bruit autour des innovations concoctées par nos chercheurs CNRS... C'est bien dommage, car en 2001, Pierre Beust, chercheur à l'Université de Caen, s'intéressait déjà au développement de technologies pour ce type d'applications. Je ne peux donc que recommander la lecture de son article de l'époque, Acquisition de classes sémantiques par coloriage thématique des textes électroniques. Je me permets d'en reproduire ici l'abstract :

Cet article présente une application appelée ThemeEditor dont le but est de permettre une acquisition supervisée de classes sémantiques. Cette acquisition est réalisée dans le cours d’une tâche interactive d’analyse interprétative de textes électroniques. Le logiciel d’étude proposé met en oeuvre un principe de coloriage thématique dans un texte et plus généralement dans un corpus de textes électroniques. Il s’agit de mettre en évidence, en fonction des classes sémantiques acquises ou en cours d’acquisition, la répartition des thèmes et leurs différentes formes d’enchaînements.

Ou comment ce qui nous paraît innovant aujourd'hui ne date certainement pas d'hier... Ou comment garder à l'esprit que, quand bien même l'innovation paraît surtout venir des US, elle est pourtant endormie quelque par dans un labo hexagonal...

jeudi 18 septembre 2008

REI, veille stratégique : l'expertise linguistique et l'amélioration des systèmes

Les plateformes de gestion de l'information sont volontiers brandées "sémantique" par leurs éditeurs : voilà le constat de la tendance actuelle. On comprend bien le malheur du benêt linguiste, qui ne saisira pas qu'on lui fourre du dédoublonnage d'URLs dans le paradigme sémantique, lorsqu'il se retrouve face à un chef de produit tout heureux de sa belle interface glossy.

Cependant, le caractère concurrentiel du marché de la veille (un tour sur le site de l'i-expo2008 confortera cette idée) laisse bon espoir de voir émerger le besoin d'une réelle qualité dans l'analyse des contenus.

A cet égard, CELI-France développe une des technologies les plus pointues pour la gestion de l'information objective et subjective sur des données du Web. Son choix? Présenter l'expertise linguistique comme LA valeur ajoutée de son système.
Dans un très bon papier, ''Classification d'opinions par méthodes symbolique, statistique et hybride'', qui leur a valu le victoire au Workshop DEFT'07 (DEfi Fouille de Textes), l'équipe CELI-France donne la faveur aux résultats des méthodes hybrides. Les méthodes hybrides? Nous y reviendrons plus longuement dans un prochain billet, mais il s'agit d'améliorer les résultats des algorithmes d'apprentissage automatique (type Support Vector Machines ou Naive Bayes algorithm) avec le produit d'une modélisation linguistique des données (sous forme de grammaires symboliques).

la démarche hybride ... est importante non seulement pour des raisons scientifiques de performance (le meilleur résultat entre les technologies que nous avons adoptées) mais, aussi et surtout pour des raisons de développement et acceptation par le marché

Il ne sera plus longtemps possible pour l'éditeur de compter sur le flou ambiant des cahiers des charges autour de ces outils, le client est déjà sur le point de faire le deuil de son inculture. Oui, il pourra questionner sur la pertinence de la méthode de génération de votre nuage de mots, lui dont l'oeil humide offrait hier encore une vitreuse surface de réflexion à ces jolies chaînes de caractères colorées.

samedi 6 septembre 2008

Firefox, la limite de Yoono

YoonoYoono, l'extension Firefox qui fait parler d'elle depuis quelques temps, en particulier dans ce petit billet, fait l'objet d'un papier très positif sur ReadWriteWeb.

Alors, j'ai envie de dire : oui, avec une reco comme ça, il y a de fortes chances que ce service marche. Le widget apparaît alors comme l'invention du diable :

Yoono is a Firefox extension that sits in your browser's sidebar and provides access to a ton of widgets that help keep you connected to your friends. The available widgets range from your favorite social networks such as Twitter, FriendFeed, Facebook, and Flickr, to providing related web page recommendations.However the things that Yoono is able to do are endless. Essentially Yoono is a tool that can do a lot more than it seems at first glance.

Des tonnes de widgets qui, telles des synapses libérant des neurotransmetteurs potentiellement lucratifs, confèrent un pouvoir infini à ce service dont on est loin de soupçonner l'étendue des talents. Il est tout publics, autant adapté aux mainstream users qu'aux early adopters, bref, rien à redire.
Fort bien, mais n'est-ce pas afficher un enthousiasme un peu trop transcendant? Yoono a une limite inéluctable : son potentiel d'expansion dépend de celui des utilisateurs de Firefox. Comme le relève très justement l'un des lecteurs de cet article sur RWW,

The majority of people still do not use Firefox and the majority of Firefox users are early adopters. ... As long as Yoono remains confined to Firefox, its chances of bringing social media tools to the masses remains small.

What else?

jeudi 4 septembre 2008

askBoss : le Powerset-like pour images

Quelques feuillets de ce petit carnet Web on été consacrés, çà et , à Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation en langage naturel.

a natural language image search powered by Yahoo Boss and Google App Engine

askBoss, justement, reprend et applique ce mode de consultation des données aux contenus images. Le moteur indexe les noms d'images. A priori, il indexe les chaînes de caractères exactes (au moins un des mots complets saisis dans la boîte de dialogue) et partielles (une des séries de lettres présentes dans au moins un des mots complets saisis dans la boîte de dialogue).
Comparez les résultats de Where am I? (indexation sur la suite am) et Who is Aphex Twin? (indexation sur les mots exacts aphex et twin).

askBoss.jpg

En passant, j'ai beaucoup rit en cherchant Who is Tim Berner's Lee? : des images en ribambelle, mais pas une de l'intéressé avant la deuxième page de résultats. L'aura passe sans doute mieux avec des photos de ses fameux cakes et des illustrations à l'effigie du WorldWideWeb.

lundi 18 août 2008

Loi de Zipf, Twitter et la monétisation

Un très complet article de BusinessWeek, paru ce matin, a pour incipit quelque chose qui tient presque de la sentence : Don't be surprised to see advertising on Twitter soon. It's about the only way the service can generate revenue. But will it be enough?

Question rhétorique, formulée pour qu'on ait envie d'y répondre Damn! I'm sure it won't be enough!

Fort bien. Ce qu'il y a de très intéressant, c'est une analogie à l'application de la loi de Zipf. Par chez nous les TAListes, la loi de Zipf est utilisée en tant que méthode empirique pour l'observation de la fréquence des mots dans un texte. Elle peut être envisagée comme un indice de l'informativité de la fréquence des formes (chaînes de caractères) dans un texte (cf. la Théorie de l'Information, Shannon).

Bon, donc, loi de Zipf et tweets, ou comment une loi de distribution statistique, qui pourrait permettre de concevoir un indice de significativité de vos contacts, permet en tous cas d'en prédire la limite quantitative. En effet,

Zipf's Law suggests that each subsequent thing in any series (such as your Twitter contacts) has predictable diminishing value. (Though Twitter) consists of small pools of people with gaps and limits on how they interact. This is important to marketers and investors, because it puts big brakes on how internal communications could propagate inside any social media network.

Nous y voilà! Les limites empiriques d'un réseau dont l'expansion est potentiellement infinie, qui nécessite donc des alternatives de monétisation autres que la vente d'espaces publicitaires ou qu'inciter les utilisateurs à payer. L'une des solutions soulevées par Ben Kunz, auteur de l'article en question : Twitter could extract money from user data.

Il est fort probable que l'on en vienne à ce type de solution, où, faisant fi de la protection des données personnelles, on applique des technologies de traitement automatique des opinions, par exemple, pour améliorer l'identification des cibles marketing. Nombre de travaux dans le champ de l'opinion mining ont précisément cet objectif.

A voir aussi : un billet de Palpitt fournit quelques observations sur les limites cognitives de l'expansion des réseaux sociaux.

samedi 2 août 2008

Kiobo : la recommandation par contacts interposés

Le rapport d'influence entre les utilisateurs liés par l'appartenance à un réseau social hybridé entre numérique et réalité. C'est un phénomène entre autres étudié par les domaines de l'opinion mining et du sentiment analysis, en particulier pour observer son incidence sur les comportements d'achat.
Une application comme Kiobo apparaît alors comme un terrain à investir, avec les données dont il dispose pour suivre les parcours de vos contacts sur la toile.

kiobo.jpg

share what you see discover what you like

La restitution des informations sur les pérégrinations webbiques de vos groupes de contacts doit leur permettre de vous aiguiller, en fonction de vos affinités d'intérêt mutuelles. Vous représentez aussi un vecteur d'influence potentiel. L'acuité avec laquelle on vous cible est accrue par l'ajout de Kiobo à un réseau social, Facebook pour ne pas le citer. Croiser les informations de profil, de contacts et de navigation.

Le Web sémantique, une standardisation pour la constitution d'un champ d'exploitation orientée marketing aussi? Sans doute la question n'a-t-elle plus à être posée.

Post Scriptum : une très bonne présentation de Mashable à lire absolument!

mardi 29 juillet 2008

Le joli Cuil

Presque pas dans le buzz tardif cette fois-ci. Cuil, un des derniers-nés de la course au moteur de recherche, fait parler de lui pour sa couverture du Web. Voici une appétissante présentation de Altsearchengines, dont je cite l'amorce :

Cuil, a technology company pioneering a new approach to search, unveils its innovative search offering, which combines the biggest Web index with content-based relevance methods, results organized by ideas, and complete user privacy. Cuil (www.Cuil.com) has indexed 120 billion Web pages, three times more than any other search engine.

C'est élogieux et ça contient le syntagme content-based relevant methods. How interesting! Bon, oui, ça donne envie d'aller tester cette affaire-là. Voyons donc.

google_cuil

cuil_cuil Et pas prétentieux, avec ça : il ne s'indexe pas lui-même!

En bref, de la classification automatique, joli display de l'information, une page d'info très allégorique.

Je n'ai pas identifié d'autre content-based relevant method. :)

lundi 28 juillet 2008

Microsoft : interrogation en langage naturel et réseaux sociaux

TechCrunch en parle : Microsoft s'associe à Facebook pour lier Live Search au réseau social, to provide web search and search advertising précise msnbc. Rien de trop innovant pour ce type de plateformes, monétisables avant tout par le ciblage des utilisateurs pour réduire les coûts d'affichage aux annonceurs.

Il faut rappeler que ces dernières années, les applications d'analyse des sentiments (sentiment analysis) et de la fouille de textes orientée opinion (opinion mining) se sont essentiellement élaborées avec le Web comme corpus et les sites d'avis de consommateurs comme terrain privilégié. Les technologies de la classification automatique et de la fouille de textes, qui répondaient à des problématiques documentaires, sont appliquées au traitement automatique du langage subjectif. Ces technologies trouvent donc un terrain parfaitement propice dans ces agrégateurs géants de fiches de présentation individuelles auxquelles s'apparentent les réseaux sociaux.

Inévitablement, un écho du récent rachat de Powerset se fait entendre. Pour contextualiser rapidement cette affaire, Microsoft est entré au capital de Facebook en octobre 2007, investissement dont la pertinence semble avoir fait douter. Powerset, moteur de recherche sémantique qui fait plutôt dans l'interrogation des interfaces de recherche en langage naturel, a été absorbé il y a quelques semaines. Ce qui est dans la ligne d'action définie par Microsoft ces dernières années : effectuer de petits investissements pour entretenir la croissance externe du groupe.
herveG, modérateur de Webrankinfo, propose une intéressante mise en perspective sur ces agglomérations entre moteurs de recherche et réseaux sociaux. En particulier sur les développements au sein de Facebook :

Facebook ne cesse de recruter de nouveaux membres grâce à ses quelque 5.000 applications, de nouvelles étant proposées tous les jours. Et maintenant, fort de son succès, il débauche aussi chez Google: après avoir recruté début mars comme nouvelle directrice générale Sheryl Sandberg, l'une des responsables des ventes de publicité de Google, il vient de recruter Ethan Beard, qui était le directeur des médias de socialisation de Google.

Fort bien. Mais alors, si un LiveSearch peut bénéficier d'une technologie telle que Powerset, cette dernière n'aurait-elle pas également sa place dans la prochaine génération d'interfaces à la Windows Seven? Microsoft annonce, justement

"The way you interact with the system will change dramatically."

Changer les modes de consultation et d'accès aux données, sans être trop fou, avec des interfaces qui gèrent le TextToSpeech et le SpeechToText, en calant quelques modules d'analyse syntaxique, d'identification automatique des intonations, saupoudré de sentiment analysis... je n'ai pas la sensation de rêver trop fort.

mardi 15 juillet 2008

Twitter & Summize : l'autre rachat confirmé

Mashable, dans un article très complet, confirme ce matin le rachat de Summize par Twitter. C'est bien l'ensemble du potentiel Summize qui est racheté : équipe maintenue, API dédiée aux développement d'applications twitter-orientées.
Expectative et attente des retours des utilisateurs.

samedi 12 juillet 2008

Twitter & Summize, l'autre rumeur de rachat

Lu sur TechCrunch il y a trois jours. Il y a sans doute nouvelle plus fraîche que celle-là, mais concentrons-nous sur la tendance lourde, comma dirait une amie super veilleuse au sens de la formule éveillé.
Le rachat des boîtes de développement de moteurs de recherche sémantique : après Powerset, Summize. Avec des acquéreurs effectifs ou potentiels au profil très différent.
Summize-Twitter vs Powerset-Microsoft, l'opposition sans intérêt qu'on peut poser tout de même, pour mettre en perspective deux destins d'applications d'analyse du langage naturel. Aggréger l'information pour la classification automatique en fonction de l'opinion - ce que fait Summize en proposant un classement des résultats selon le paramètre ''Attitude'' - le tout appliqué aux contenus twittés. Palpitt, bien meilleur expert que moi sur l'artefact Twitter, livre à cet égard quelques considérations dans son analyse de la libération de Bétancourt sur Twitter :

- Les battements de Twitter sont intimement liés à l'actualité

- Twitter est un champion de la réactivité, de l'info de dernière minute (de la "breaking news"), au point qu'il devienne pour certains un lieu privilégié de découverte d'informations.

twitter centralise l'information

A lire aussi : Ingrid Betancourt libérée (Wikipédia a été tout aussi réactif)

- Les tweets qui ne comportent pas de liens sont le plus souvent de l'ordre du ressenti

Plusieurs choses. L'ensemble de données auxquelles on applique l'indexation, ou comment la réactivité de la source d'information doit être un acquis. Pour mémoire, Powerset indexe les contenus de Wikipédia. Ensuite, l'objectif de l'application : Microsoft investit dans l'interrogation en langage naturel, Twitter dans le langage subjectif comme paramètre pour la pertinence des résultats. Ce dernier champ de recherche s'est développé avec les applications liées au marketing en ligne de mire, pour mieux classer les cibles.

Attendons la suite.

- page 2 de 3 -