MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - information retrieval

Fil des billets - Fil des commentaires

samedi 12 novembre 2011

"Better filters will play a big part"... towards an "expert + system" model in content analysis solutions

During the last couple of years, there has been some brief bursts of content issues here and there, impacting search as well as content analysis. In a recent tribune for Sparksheet.com, Karyn Campbell (The IdeaList) took an interesting stand, saying whatever 3.0 looks like, better filters will play a big part. professional, human filters will play an integral role in the next web after all. I bet she has hollow nose !

Well, indeed, this makes sense and resonates with some other clues around there. 

Remember : two years ago, Yahoo! patented human intervention through a "human editor ranking system" in its engine. At that time, their point was that such a process obtained more refined results. The idea that, for qualitative results with high expectations concerning accuracy and preciseness, it is needed to have human experts in the game, well, this idea made its way. Better filters.

About one year later, one of the Pew Internet studies emphasized that :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

Better filters, again ! In a march 2010 Researcher's tribune by Martin Hayward, some ideas bring water to our mill :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably. we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

What could this mean for content analysis now, which has a foot in search issues and the other in qualitative content analysis and curation issues ? More specifically, what would this mean for the business applications of content analysis, such as trend monitoring solutions, sentiment analysis and other types of applications dealing with one of the biggest amount of information available - say User Generated Content from the social media areas of the web ?

Back in 2009, Asi Sharabi made a realistic but critical portrait of social media monitoring solutions. The systems may have improved by now, but several raised issues still are more relevant than ever :
  • "Unreliable data" : where do the most part of your brand's mentions come from ? is there any feature allowing you to make a distinction between spam messages, deceptive reviews and the spontaneous conversational material you'd like to meaningfully draw insights from ? Rhetoric question, of course there's not such a feature.
  • "Sentiment analysis is flawed" : even if there is progress on the subject, the idea that fully-automated systems are costly to set up, train and adapt from a domain to another has also made its way, which benefits to a different approach : defining a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.
  • "Time consuming" : Asi Sharabi put it well, saying it may take "hours and days" to accurately configure a dashboard. Is this time-consuming step a proper and adequate one to put on any end-user working in a social media, communication or marketing department ?  As suggested by the author, at some point, it would be more profitable for the client to pay an analyst to do the job.
No, unfortunately, the situation has not tremendously evolved since then. Just ask some social media analysts dealing with dashboards and qualitative insight to provide well maybe I attract the bad tempered ones a lot. So, what can be said after that ? 
A few more words. Making faster but accurate and congruent business decisions and recommandations using content analysis solutions is not the core of the problem. The core of the problem more likely lies in setting up an appropriate workflow, with a single main idea : expert systems need experts, and they need them upstream and downstream of the data analysis process. Data scientists skills are without any doubt one of the keys to a "better filtering" of content, to provide, curate and analyse real qualitative content.

jeudi 11 novembre 2010

Refine, la brique Google dans la mare de la gestion des grands ensembles de données

Google annonçait hier la sortie de Google Refine, 'a power tool for data wranglers'. Panorama des réactions dans les webtech rédactions.

Dans la sphère web FR, c'est Zorgloob qui a la primeur de l'info et présente les grandes lignes de l'outil dans un post frais de quelques heures. Dans la sphère web US, qui a reçu la news avec quelques heures d'avance, les retombées sont un peu plus nombreuses. Voyons voir...

Data is the new oil, data is the new soil

quelques mots d'un récent talk du data journalist David McCandless, rapportés par Chinmoy Kanjilal pour TechieBuzz.com, sur lesquels il s'appuie pour on ne peut mieux résumer l'objectif du dernier Google move :

Data is raw and unusable without proper management and handling. Google has stepped into this business with its service Google Refine 2.0.

Un business bien juteux et qui augure un changement de paradigme décisif dans les industries de l'information, comme le disait Martin Hayward dans une tribune pour Researchers en mars dernier, et dont je vous parlais dans un précédent billet :

we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

A noter que le post de Klint Finley pour ReadWriteWeb présente rapidement l'outil et insiste surtout sur son caractère opensource. Pour mémoire, un petit rappel historique sur la (re)naissance de Google Refine, que j'emprunte au dernier post de Jolie O'Dell pour Mashable sur le sujet :

Google Refine is a project born of Freebase Gridworks, a data-cleaning tool Google acquired when it bought Metaweb over the summer. Google has since renamed Gridworks and relaunched it as Refine.

Google Refine builds on its Gridworks roots by helping its users correct inconsistencies, changing data formats, extending data sets with data from web sources and other databases and much more.

ajoute-t-elle pour rappeler les principaux avantages de l'outil. Avantages que Chinmoy Kanjilal met en perspective :

Google Refine 2.0 will serve an excellent back-end for data visualization services. It has been well received by the Chicago Tribune and open-government data communities. Along with Google Squared, Refine 2.0 can create a powerful research tool.

C'est bien vrai : en tirant profit de cette nouvelle brique basée sur la faceted search, qui gère les regular expressions et la structuration à la volée de données extraites de pages web et incluant un Twitter Tracker en gestation, entre autres possibilités, Google frappe fort sur le text-mining grand public. Une belle opportunité pour évangéliser les analystes et chargés d'étude et les exhorter à rénover leurs traditions méthodologiques !

Text-mining only ? Of course not ! On trouve aussi des features pour le Screencast Transcript pour la prise en charge des Textual transcripts for the speech over the screencasts. Moutain View est déjà dans le multimodal search !

Ah ! J'oubliais ! Des vidéos de démo de l'outil sont disponibles ici, ici et :)

lundi 22 juin 2009

A crunch on Hunch ? "Skip this question"

hunch.jpg Hunch, le nouveau produit de la start-up de Caterina Fake (co-fondatrice de Flickr), sorti en juin dernier. En quelques mots? Un moteur qui bénéficie peut-être des effets collatéraux de la campagne de Bing sur le moteur de recherche comme aide à la décision, comme le souligne ActuAbondance (qui nous apprend aussi au passage que Miss Fake s'est, à l'occasion, entourée de chercheurs du MIT) .

Le principe? Intégrer un système incrémental utilisant des arbres de décision pour retourner des propositions à l'utilisateur.

Une sortie discrète pour un outil sur lequel personne n'a grand chose à dire : on en présente le principe ici et , sans vraiment chercher à le tester. Here we go...

Une transparence appréciable et juste ce qu'il faut de camemberts... Hunch-teachHunch-camembert.PNG
Hunch nous dit quelles sont les feuilles de l'arbre de décision qui l'ont mené à nous faire une suggestion donnée : on clique sur Why did Hunch pick this? et on accède aux quatre questions qui ont le plus de poids dans le parcours de l'algorithme. Il indique également, de façon simple, votre "positionnement", en fait le pourcentage de personnes qui ont donné la même réponse que vous à l'une des questions.

Mais une base de connaissances à couverture encore restreinte
Allez donc raconter à Hunch que vous habitez en Europe de l'ouest en testant l'un des parcours proposés à la première connexion "Which cheese would I enjoy?". Surprise! Il connaît des fromages italiens, le brie, mais pas le munster! Testez le mot-clé "munster" dans la boîte de dialogue "Today I'm making a decision about..." : après vous avoir suggéré un "Did you mean : monster", il propose quelques réponses, mais sans rapport avec le fromage... Mince, et si j'avais envie de décider quel vin j'allais boire avec mon munster ce soir?

Pas de procès d'intention, mais une question : pourquoi généraliser à l'ensemble des utilisateurs du Web une procédure de décision typiquement américaine? Seriously, I never bought anything in a Walmart! Why don't you ask me what I think of an Auchan or a Leclerc? En somme, l'outil gagnera beaucoup lorsqu'il sera décliné et mieux adapté à la diversité de ses potentiels utilisateurs.

Pour finir, Hunch a quelques réflexions très curieuses pour un outil ouvert sur l'international, en particulier celle-ci : Hunch-question.PNG

Au bout du compte, on utilise beaucoup la fonction "Skip this question".

jeudi 4 juin 2009

Wolfram a buzzé, Google Labs sort Squared des tiroirs

Image_2.png Un précédent billet donnait quelques éléments en faveur d'une opposition mal posée : Google vs. Worlfram Alpha.
L'idée était de mettre en avant que, non seulement Wolfram Alpha n'avait pas vocation à concurrencer Google, mais que Google commençait à s'inspirer des modèles de restitution des résultats de recherche de son faux outsider. En tous cas, pour ceux qui n'en étaient pas convaincus, on a la preuve tangible que l'information structurée est bien l'avenir des moteurs de recherche grand public.

On pouvait lire début mail sur TechCrunch un excellent billet sur le sujet, dans une perspective comparative à la défaveur de Wolfram Alpha. L'autre membre de la comparaison? Google Squared, très attendu, dont ActuAbondance et TechChunch-fr parlent aujourd'hui.

Nous y voilà : Google s'est bien inspiré de Wolfram Alpha, si la chronologie que donne à voir le web sur ce point peut être estimée fiable. La différence? Wolphram Alpha compute sur quelques dizaines de teraoctets. Avec Squared, Google est en train d'opérer sur le web entier pour que l'utilisateur le perçoive comme mieux rangé, facilitant son accès à l'information "pertinente". Oui, des guillemets. TechChrunch l'avait vu venir de loin, c'est déjà en train de se passer, mais comme la pilule est bien emballée, l'utilisateur l'avalera sans peine :

Turning the Web into a giant database will crush any attempt to segregate the “best” information into a separate database so that it can be processed and searched more deeply.

Une bonne raison pour les internautes de considérer avec précaution la pertinence de la référence nommée Google.

A l'heure où Pasquier prend soin de vous éviter un geste en plus en vous vendant des pains au lait prédécoupés, Google n'est-il pas en train de nous vendre de la pertinence prédécoupée, rongeant un peu plus notre envie de questionner la pertinence du résultat?

mardi 2 juin 2009

Wolfram Alpha / Google : les bons termes de la Question ?

WolframAlpha.PNGWolfram Alpha buzze depuis quelques semaines déjà.
L'image d'un effet d'annonce autour d'un non Google-killer le poursuit, celle d'un énième moteur de recherche "intelligent" qui laisse surtout le goût d'une communication bien orchestrée par Stephen Wolfram à ceux qui en ont parlé. En témoignent les articles parus dans 20minutes.fr et LeMonde.fr.

Des bases de données pas à jour, voire lacunaires. Une mauvaise gestion des chaînes de caractères. Un taux élevé d'échec à fournir une réponse. Ce sont ses trois grands défauts. Futura-sciences.com, qui consacrait un bel article à Wolfram en mai dernier, y fait le constat suivant :

En attendant, Google, Wikipédia et les liens qu’ils fournissent sont la plupart du temps largement meilleurs.

Sur Slate.com, la conclusion n'est pas très enjouée non plus :

Wolfram Alpha doesn't revolutionize search; at best, it adds a marginally useful new layer on top of it.

De toute évidence, en l'état, Wolphram n'a pas l'allure d'un moteur grand public. D'un moteur auquel certains trouveront des utilités, peut-être. En tous cas, il connaît un peu le breton, et ça a été une fort bonne surprise de pouvoir tester une requête sur le "Malagasy Language", pour trouver en quelques clics des informations sur le dialecte Betsimsaraka parlé dans le sud du pays. Dans le même cas de figure, Google ne fait pas aussi bien. Les fonctions de "Word Puzzle" sont sympa, les dictionnaires ne sont pas plus surprenants que ça, mais le rendu est agréable.

Manifestement, Wolfram Alpha ne suscite pas les mêmes comportements de recherche. Il s'adresse sans doute davantage à des utilisateurs en quête d'information spécifique, restituée dans un contenu structuré qui va à rebours de la logique de foisonnement de résultats. De l'information qui, si elle est estimée valide, peut être directement intégrée dans un document de travail, comme on le ferait avec des résultats d'InternetWorldStats ou d'Alexa.

Wolfram-resultats-facebook.PNG

Wolfram Alpha will prove helpful to some people. Because it's based on Wolfram Mathematica, a software package that can do complex calculations, mathematicians, engineers, and scientists will find much to love in it. Wolfram Alpha solves difficult equations and makes nice graphs for lots of specialized inquiries,

peut-on lire sur Slate.com.

Une belle transition à l'avis de Q - initiateur du présent billet -, qui met tout le monde d'accord :

Ceci étant dit, je tends à valider la conclusion que les geeks, les ingénieurs et les chercheurs en sciences devraient y trouver du bon...

Et celui-ci de conclure, fort perspicacement :

WolframAlpha ne vise pas à concurrencer Google, mais Google intègre de plus en plus de résultats Wolfram-style (tapes "scores L1" dans Google, pour voir...)

Wolfram-Google-resultat-Ligue1.PNG

Heureusement, Q est là pour montrer un nez au milieu d'une figure parfois trop familière. Prendre Google comme référence, soit, oublier que parfois, il peut s'inspirer des autres... c'est à croire qu'on peut avoir le nez bien court.

A lire à part ça : des doutes sur la Google Search Appliance 6.0

lundi 4 mai 2009

SEM'09// Les présentations sont en ligne!

Comme prévu, les présentations faites au Search Engine Meeting sont en ligne ici. Merci à toute l'équipe d'Infonortics!

Bonne lecture!

jeudi 30 avril 2009

SEM'09// le programme en images, plus quelques mots sur l'audience

Le secret d'un événement de qualité? L'organisation, le lieu et l'audience. Avec une centaine de personnes rassemblées dans l'ambiance feutrée des salons du Copley Plaza à Boston, il est intéressant de remarquer que plusieurs représentants d'institutions étaient présents parmi les attendees. De la web & enterprise search à l'institutional search?

En tous cas, comme promis, voici les scans du programme en détails, pour vous donner un aperçu de la façon dont se sont déroulés les deux jours du SEM'09.

L'équipe de Infornortics - parmi lesquels Madame Anne Girard, qui avait par exemple présidé la conférence Les apports de l'Intelligence Economique et Concurrentielle à la compétitivité des entreprises à l'i-expo 2004 -, emmenée avec brio par Monsieur Harry Collier, a mis en place une organisation irréprochable!

La jolie couverture du programme de cette année

program1.jpg

Les speakers du premier jour

program_day1.jpgMicrosoft, Nstein et une superbe intervention de Stephen E. Arnold sur ses fameuses Google Studies. En prime, un speech qualifié par la rumeur des couloirs de "provocative" par Frank Bandach (Eeggi).



Les speakers du second jour

program_day2.jpgTrès intéressante, la présentation de David Milward (Linguamatics); des interventions riches d'enseignement sur les problèmes de sécurité en contexte d'enterprise search, par l'équipe de New Idea Engineering, et sur la faceted search, par Daniel Tunkelang (Endeca). Cherry on top : Peter Noerr (MuseGlobal) a présenté son approche de l'underground information.

Tout ceci n'est, bien entendu, qu'un rapport non exhaustif de la richesse qui a été exposée dans les salons du Fairmont Copley Palza pendant les deux jours du SEM'09. Je vous enjoins donc fortement à vous ruer ici dès le 4 mai : toutes les présentations seront disponibles en ligne.

dimanche 26 avril 2009

The Search Engine Meeting : ne cherchez plus, ça se passe ici...

Tout commence en 1987, quand Monsieur Harry Collier a fondé Infonortics...

Harry Collier, diplômé de Oxford en Histoire Moderne, a beaucoup travaillé dans le domaine de l'édition scientifique, entre autres. Cela explique sans nul doute pourquoi Infonortics Ltd., structure spécialisée dans l'organisation de conférences, séminaires, publications et mise en oeuvre de projets liés à l'information électronique, est l'une des références dans le domaine.

Les conférences organisées par Monsieur Collier - le Search Engine Meeting et l'ICIC -, sont reconnues par les professionnels et les chercheurs d'un large panel de secteurs liés à l'information électronique, pour leur sérieux. En effet, Monsieur Collier s'est toujours refusé à faire de ces événements des "foire-à-tout" : l'objectif des meetings qu'il organise est de générer un véritable échange, et non pas de donner un lieu supplémentaire à la superficialité de l'avant-vente de solutions logicielles.

Monsieur Everett Brenner, l'autre père du Search Engine Meeting, a activement contribué au développement de cette conférence. Je vous invite à en apprendre davantage sur cet éminent personnage, qui a pressenti "the Information Age" il y a près d'un demi-siècle. Visionnaire.

Monsieur Stephen E. Arnold - dont je parle plus longuement dans un billet suivant - a publié une fort instructive interview de Monsieur Collier sur son blog, arnoldit. Extraits.

The conference, more than a decade into in-depth explorations of search and content processing, is one of the most substantive search and content processing programs. The speakers have come from a range of information retrieval disciplines. The conference organizing committee has attracted speakers from the commercial and research sectors. Sales pitches and recycled product reviews are discouraged.

Conferences about search, search engine optimization, and Intranet search have proliferated in the last decade. Some of these shows focus on the “soft” topics in search and wrap the talks with golf outings and buzzwords.

The Infonortics search conference has remained sharply focused and content centric.

Voilà pour la mise en bouche. Monsieur Collier donne explicite davantage l'esprit de cet évènement.

we wanted serious talks on serious search domain challenges (...) we have tried to avoid areas such as SEO and product puffs and to keep to the path of meaty, research talks for either search engine developers, or those in an enterprise environment charged with implementing search technology. The meetings tread a line between academic research meetings (lots of equations) and popular search engine optimization meetings (lots of commercial exhibits).

Search — and the problems of search — remains central, but we are also interested in areas such as data or text mining (extracting sense from masses of data) as well as visualization and analysis (making search results understandable and useful). We feel the center of attention is moving away from “can I retrieve all the data?” to that of “how can I find help in making sense out of all the data I am retrieving?”

It’s a meeting without too much razzmatazz; we only have a small, informal exhibition, no real sponsorship, and we try to downplay the commercialized side of the search world.

Because of Infonortics international background, we have a pretty high international attendance compared with most meetings in the United States: many Europeans, Koreans and Asians. I’ve already used the word “serious”, but this is how I would characterize our typical attendee.

A l'heure où nombreux sont ceux qui croient qu'il faut "buzzer pour exister", la sérieuse longévité du Search Engine Meeting rime aussi avec "discrétion". Parce que dans une "foire-à-tout", il y a trop de bruit pour réfléchir.

Le Search Engine Meeting, édition 2009, commence aujourd'hui à 13h30, au Fairmont Copley Plaza, Boston (MA).

samedi 25 avril 2009

SEM'09//The Search Engine Meeting 2009 : le programme

Where search engine developers, academics and corporate professionals learn from each other

Pour sa 14ème édition, le Search Engine Meeting 2009 propose un superbe programme de speechs, qui se tiendront lundi et mardi.

Nous commencerons avec de prestigieux intervenants au petit déjeuner, en particulier des acteurs majeurs du développement de systèmes pour l'analyse sémantique automatisée (Microsoft, Nstein), qui initieront la première journée du SEM'09.

Je vous prépare des revues plus complètes et fouillées de ce qui se sera passé depuis le 26, et vous enjoins à consulter le programme, pour vous donner une idée du beau monde qui se trouve ici, et du beau lieu qui accueille l'évènement. Je manque un peu d'équipement, étant en déplacement, mais vous aurez une liste exhaustive des participants au meeting dès que j'aurai de quoi scanner sous la main.

Cela vaut le coup, et fera de belles opportunités de contact pour ceux qui cherchent à obtenir davantage d'informations sur les acteurs majeurs du segment des search engines, de la semantic search et de l'enterprise search aujourd'hui.

mardi 3 février 2009

SEAmail : l'e-mail à la sauce 3.0

Ne plus perdre de temps à chercher dans vos bases de contacts... Faire du mailing massif aussi facilement qu'une recherche sur Google... vous en avez rêvé? Lisez donc!

InternetACTU en parlait la semaine dernière, faisant écho à un papier de la fameuse Technology Review : les chercheurs de Stanford planchent sur un système d'envoi de mails dores et déjà annoncée comme une application révolutionnaire du web sémantique.

En effet, le Semantic E-mail Adressing (SEAmail, un document explicatif ici) permettrait de ne plus recourir aux adresses mails d'individus spécifiques lors de l'envoi de courrier électroniques.

Comment? Une première explication :

  • l'idée est de se fonder sur une description logique des propriétés générales communes à plusieurs individus
  • cela permet donc de constituer des ensembles de types d'individus

A l'heure actuelle, le mail, c'est plutôt :

Today, we use mailing lists to email predefined groups of people ... you must be able to ardress your email to static mailing lists that are the best fit to your requierements, and you must know of their existence.

Il s'agit en fait d'un système capable d'analyser l'information structurée contenue dans les mails (expéditeur, récipiendaire, objet, corps du texte) et de l'exprimer de façon formelle, par exemple avec un formalisme de type RDF (Resource Description Framework, standard du W3C pour homogénéiser la description des métadonnées associées aux documents indexés sur le Web). Ce type de formalisme, particulièrement efficace pour l'indexation, permet d'optimiser la création de mailing lists à partir de requêtes soumises à une base de données, en exploitant très finement l'information structurée qu'elle contient.

Mais pas seulement...

Les descripteurs, c'est-à-dire les propriétés de description logiques inférées par le système sur la masse d'information traitée, permettent d'accéder à un niveau de généralisation qui ne clôture plus l'utilisateur dans un référentialisme foisonnant. Autrement dit, l'intégration d'un tel système dans un serveur de mails est le moyen de passer du "envoyer l'invitation à tous mes contacts du groupe X" à "envoyer l'invitation à tous les contacts indexés qui ont simultanément la propriété A, B et C".

En contexte d'entreprise, cela pourrait donner "envoyer l'information à tous les consultants juniors de moins de 25 ans". C'est justement l'un des leviers communicationnels autour de la solution SEAmail : un gain de temps des administrateurs du serveur jusqu'aux utilisateurs finaux.

Voilà ce que ça pourrait donner, visuellement parlant :


SEAmail.jpg

Bref, un grand pas vers le mailing intuitif!

Pour aller plus loin : quelques infos sur le standard RDF

- page 1 de 2