MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

samedi 12 novembre 2011

"Better filters will play a big part"... towards an "expert + system" model in content analysis solutions

During the last couple of years, there has been some brief bursts of content issues here and there, impacting search as well as content analysis. In a recent tribune for, Karyn Campbell (The IdeaList) took an interesting stand, saying whatever 3.0 looks like, better filters will play a big part. professional, human filters will play an integral role in the next web after all. I bet she has hollow nose !

Well, indeed, this makes sense and resonates with some other clues around there. 

Remember : two years ago, Yahoo! patented human intervention through a "human editor ranking system" in its engine. At that time, their point was that such a process obtained more refined results. The idea that, for qualitative results with high expectations concerning accuracy and preciseness, it is needed to have human experts in the game, well, this idea made its way. Better filters.

About one year later, one of the Pew Internet studies emphasized that :

Information overload is here, which means anyone with an interest in making sure their news reaches people has to pay close attention to how news now flows and to the production and usage of better filters.

Better filters, again ! In a march 2010 Researcher's tribune by Martin Hayward, some ideas bring water to our mill :

the real stars will be those who can make sense of, and draw insight from, vast amounts of data quickly and reliably. we have to move from being an industry where value was derived from providing scarce information, to one where value is derived from connecting and interpreting the vast amounts of infomation available, to help clients make better business decisions faster

What could this mean for content analysis now, which has a foot in search issues and the other in qualitative content analysis and curation issues ? More specifically, what would this mean for the business applications of content analysis, such as trend monitoring solutions, sentiment analysis and other types of applications dealing with one of the biggest amount of information available - say User Generated Content from the social media areas of the web ?

Back in 2009, Asi Sharabi made a realistic but critical portrait of social media monitoring solutions. The systems may have improved by now, but several raised issues still are more relevant than ever :
  • "Unreliable data" : where do the most part of your brand's mentions come from ? is there any feature allowing you to make a distinction between spam messages, deceptive reviews and the spontaneous conversational material you'd like to meaningfully draw insights from ? Rhetoric question, of course there's not such a feature.
  • "Sentiment analysis is flawed" : even if there is progress on the subject, the idea that fully-automated systems are costly to set up, train and adapt from a domain to another has also made its way, which benefits to a different approach : defining a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.
  • "Time consuming" : Asi Sharabi put it well, saying it may take "hours and days" to accurately configure a dashboard. Is this time-consuming step a proper and adequate one to put on any end-user working in a social media, communication or marketing department ?  As suggested by the author, at some point, it would be more profitable for the client to pay an analyst to do the job.
No, unfortunately, the situation has not tremendously evolved since then. Just ask some social media analysts dealing with dashboards and qualitative insight to provide well maybe I attract the bad tempered ones a lot. So, what can be said after that ? 
A few more words. Making faster but accurate and congruent business decisions and recommandations using content analysis solutions is not the core of the problem. The core of the problem more likely lies in setting up an appropriate workflow, with a single main idea : expert systems need experts, and they need them upstream and downstream of the data analysis process. Data scientists skills are without any doubt one of the keys to a "better filtering" of content, to provide, curate and analyse real qualitative content.

lundi 14 mars 2011

Sentiment Analysis, Opinion Mining & neophyte basics

Conversations2.jpg For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, lots and lots of commercial offers have been built on what I think one should still call a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

One of the major issues dealing with huge amounts of User-Generated Content published online – also referred to as UGC – implies mining opinions, which means detecting their polarity, knowing the target(s) they aim at and what arguments they rely on. Opinion Mining/Sentiment Analysis tools are, simply put, derived from Information Extraction (such as Named Entities detection) and Natural Language Processing technologies (such as syntactic parsing). Given this, simply put, they work like an enhanced search engine with complex data calculation habilities and knowledge bases.

But dealing with the data emphasizes the fact that understanding "how does sentiment analysis work" is more a linguistic modelization problem than a computational one. The "keywords" or "bag-of-words" approach is the most commonly used because it underlies a simplistic representation of how opinions and sentiments can be expressed. It would consist, in its most simplistic form, in detecting words in UGC from a set of words labeled as "positive" or "negative" : this method remains unable to solve most of "simple" ambiguity problems (here is an example that illustrates this quite well, I guess).

Most of Opinion Mining tasks focus on local linguistic determination for opinion expression, which is partly constrained by external ressources and thus often deals with problems such as dictionaries coverage limitations, and at a higher level, domain-dependance. Contextual analysis stil is a challenge, as you will find in the following reference book : Bo PANG, Lillian LEE, Opinion Mining and Sentiment Analysis, Now Publishers Inc., 2008, 135 pages, ISSN 1554-0669.

As a temporary conclusion, I would say that accuracy remains the major challenge in this industry development. In fact, in such analysis systems, some "simple" linguistic phenomena still are problematic to modelize and implement, for example the negation scope problem, which is how to deal with negative turns of phrases. Another problem for systems accuracy is the analysis methodology itself. Fully organic methods are costly, but fully automated ones are innacurate : you need to define a methodology where the software and the analyst collaborate to get over the noise and deliver accurate analysis.

lundi 11 octobre 2010

Goggles jette le flou

Après sa sortie sur l'Apple AppStore cette semaine, Goggles est prétexte à l'expression de l'incompréhension de certains Google Fanboys sur la stratégie web mobile de ce dernier face à la pomme. Allons voir.

I don't get Google at all sometimes. Some of their apps like Google Maps and Google Goggles are actually better on the iPhone than on Android. If I were google, I would have purposely made the iPhone version slightly worse, which would make Android more appealing to current iPhone users.

Ce commentaire d'un internaute sur le post d'Engadget du 5 octobre dernier est un bon résumé de la réaction de certains à la parution de la news : Google Goggles reaches the App Store, only supported on iPhone 3GS and iPhone 4. Eh oui, parce que Goggles, dont on avait parlé en février dernier pour aborder des features de Traduction Automatique en prototypage, est une application vraiment très sympa.

Pourquoi Google irait-il donc donner ses perles aux suidés et qu'a-t-il donc fait de son bon sens concurrentiel ? Une part de la réponse est certainement dans ce commentaire, d'un autre lecteur d'Engadget

Google simply doesn't care. Google Goggles would ultimately send the users to Google's sites, which is the motive behind since the beginning. Remember, Android is free also. Frankly, I found it silly for a company to believe in such uncertain way of making profit, but hey, Google said it's already making a profit from Android, so who knows.

Sûr qu'avec les premiers retours sur le potentiel d'Android - sur lequel Jorodan de fait un point clair dans un billet d'août dernier en insistant sur le nerf de la guerre : Les utilisateurs Android sont plus rentables - la prairie de la pomme est un peu moins verte.

Le tout avec les compliments de NewsWeek, dont l'une des bonnes formules rend bien compte du petit changement de paradigme :

Apple’s momentum has stalled.

Hormis le fait que les équipes de com web globale qui n'ont pas encore l'Android sur le bout de la langue sont en retard, on peut continuer à se demander si la réponse d'Apple n'est pas dans son intérêt à ne pas éclater son identité et cela avant tout, pour faire contrepied au foisonnement des secteurs d'activité chez Google. Sans compter qu'un moteur custom Apple trouverait son public, une idée que je traîne depuis quelques temps et qui ne veut pas partir.

jeudi 27 mai 2010

Des nouvelles de Wolfram

Wolfram, notre ami le moteur computationnel dont on a déjà eu l'occasion de parler sur ce petit carnet web - ici, ici et notamment - a refait pulser certaines régions du web en premier Quarter 2010. Par quoi cette émulation fut-elle générée ? Par un prix, pardi !

Incipit. Wolfram participe au South by Southwest (SXSW, Inc.), un événement culturel global (cinéma, musique, technologies digitales) actif depuis 1987, au Texas (USA). Sélectionnée pour figurer parmi les finalistes le 12 février, c'est l'annonce des lauréats des SXSW web awards 2010 le 14 mars qui coiffe la famille d'outils Wolfram de succès.

La brève AFP qui en découle est relayée par Le Figaro le 15 mars 2010. Un billet de Motrech sur le prix SXSW remporté par Wolfram Alpha, en parle également dès le 18 mars.

Ce retour sur le devant de la scène est fort bénéfique à Wolfram, qui fait l'objet d'une excellente présentation, parue le 26 mai, dans la Tribune de Genève :

une pléiade de sites Web, parmi lesquels un compendium de connaissances mathématiques (Wolfram Math World,, un répertoire de visualisations interactives (Demonstrations Project, et le moteur «computationnel» Wolfram Alpha (lire ci-dessus). Plus léger et amusant, Wolfram Tones ( permet de composer sa propre musique à partir de modèles sonores et de formules mathématiques. Bluffant!

Ce qui est sûr, c'est que le moteur a bénéficié d'une nette amélioration des résultats : la base de données computables s'est considérablement étendue.

Seule petite ombre : Wolfram a d'emblée pâti de verrous en Traitement Automatique des Langues, ce que nous expliquait Tom Krazit de chez CNET News en août 2009, dans un billet republié sur la version US de ZDNet où il rapportait les propos de Stephen Wolfram :

linguistic problems are to blame for half of the occasions when Wolfram Alpha does not return a result. That percentage is changing as Wolfram refines the science behind Wolfram Alpha, but it will take some time.

Voyons-voir, avec un petit test simple. La base en Traitement Automatique des Langues, c'est avant tout de travailler avec des unités textuelles "propres", i.e. bien isolées et pour lesquelles on a observé une grande quantité de phénomènes d'occurrence afin d'identifier des problèmes d'ambiguïté, de silence (ce qui est pertinent et que l'on n'arrive pas à capter) et de bruit (ce que l'on capte et qui n'est pas pertinent) potentiels.

Voyons donc :

Etape 1 : WolframAlpha_test_1.png

Constat 1 > Le moteur ne sait pas comment interpréter.

Etape 2 : WolframAlpha_test_2.png

Constat 2 > Le moteur interprète et retourne une réponse. Il m'explique ce qu'est un astérisque.

Etape 3 : WolframAlpha_test_3.png

Constat 3 > Le moteur interprète et retourne une réponse. Il m'explique à nouveau ce qu'est un astérisque.

Qu'en dire ? Le blanc (espace entre deux caractères alphanumériques) n'est pas un critère distinctif pour le moteur, il retourne donc la même réponse pour la séquence "a*" et "a *". On suppute dans l'oreillette que la segmentation du texte saisi par l'utilisateur ne fait probablement pas trop cas de ce qui se trouve à gauche ou à droite pour y isoler des unités.

Oui, je l'avoue, si la réponse du Test 3 me paraît pertinente et riche en informations sur le caractère qu'est l'astérisque, j'espérais secrètement que Wolfram mette en rapport la recherche du Test 2 avec l'écriture conventionnelle de l'étoile de Kleene, souvent notée V*. En regexp, c'est proche (recherche d'un caractère alphabétique en casse majeure ou mineure suivi d'une astérisque).

Par contre, regardez : Wolfram_whatisalinguist.png

Et oui, Wolfram est un moteur bien cultivé :) Les ressources encyclopédiques du système sont en constante expansion, et même si des remarques plus consistantes sont possibles - sur la segmentation par exemple - je pense que ces points sont en cours de résolution et que Wolfram Alpha est véritablement à la hauteur des retours positifs suite au SXSW.

A voir pour en savoir plus sur l'ensemble des initiatives Wolfram :


samedi 13 février 2010

Emulations et Google killing II

Le keynote 2010 de Steve Jobs inaugure un climax qui tiendra en haleine les webbeurs pour les semaines et mois à venir. Apple diversifie son offre avec sa tablette, mais ce que tient Steve Jobs en main n'est peut-être rien de plus qu'un arbre qui cache la forêt. Allons donc nous promener dans les bois, là où s'augure une guerre de territoires bien plus globale qu'il n'y paraît. Cela va ressembler à une partie de Risk en live et en 3D...

Un des grands maux de la Pomme ? Ne pas souffrir de se faire croquer un autre morceau par l'arrivée du Google Phone. Car c'est bien là le grand malheur de ce beau fruit : alors que la concurrence s'intensifie sur le marché des terminaux dédiés au web mobile, Apple offre encore au moteur de recherche de Mountain View une superbe fenêtre d'exposition. Les iPhoners passent, entre autres, par Google Search pour explorer le web, tandis que Google structure une flotte de terminaux mobiles à sa couleur, qui confine les utilisateurs dans GoogleLand! Déloyale concurrence, n'est-il pas ?

Et pourtant, Steve Jobs pourrait rendre la monnaie de leur pièce à Larry Page et Sergey Brin.

Réfléchissons-y un instant. Tout d'abord, les fonctionnalités de recherche de contenus sous Mac OS X sont extrêmement robustes. La solution d'indexation et de recherche de ce système d'exploitation permet déjà d'outrepasser des verrous, tels que le passage de la recherche plein-texte à la recherche de contenus multimédia. Ensuite, la popularité croissante d'Apple, qui entraîne de plus en plus le grand public, assure à la Pomme une très forte pénétration du marché. Troisième point, la fidélisation d'au moins 75 millions d'utilisateurs emportés par Mac OS X si Wikipédia ne ment pas via les différents terminaux (iPhone, iPodTouch, postes fixes, et maintenant l'iPad) offre un pool de cibles qualifiées plutôt très étendu. Enfin, les applications iPhone, notamment, constituent une entrée privilégiée sur les données utilisateurs, donc sur l'étude et l'évolution des moeurs sociodigitales.

Après cet instant de réflexion, on distingue un peu mieux ce qui se trame dans la forêt, n'est-il pas ? Un Apple Search, pardi! L'idée n'est pas si farfelue, et le temps infirmera (ou pas) si la Pomme entre dans la guerre des Search Engines. Ce me semble en tous cas une perspective logique, dont le nez fin de Steve Jobs n'a pu manquer les effluves.

vendredi 5 février 2010

Siri arrive sur l'iPhone!

Alors, ça, c'est fait... Un très joli coup by SRI International, dont on regrette qu'il ne retentisse pas en Europe!

Siri, qui petit à petit fait son nid, je vous le disais, depuis le printemps dernier, arrive maintenant sur l'iTunes Store d'Apple : depuis hier, l'application Siri pour iPhone est disponible! mais seulement aux USA... dommage

Les premières réactions postées à son sujet sur son étagère du Store ont plutôt une tonalité positive, voire même extatique :

A great app. Siri was able to figure out nearly everything I asked! A must have

I had read about the Siri service but was stunned with both the accuracy and efficacy of early use of this application. It seems to do what I want all apps to do, which is "just work." Not a big learning curve, except to figure out how many things Siri can do. Wonderful!

J'avais déjà abordé sur ce blog la bonne facture des bases de connaissances, l'appareillage ontologique et l'efficience des algorithmes d'apprentissage implémentés dans Siri. Ces qualités n'avaient d'ailleurs pas échappé à Marissa Mayer, VP Search Products & User Experience de Google, qui les rassemblait dans sa définition du "perfect search engine".

On reporte quelques bugs, mais ça ne l'empêchera sans doute pas de remporter un vif succès! A quand le portage sur les autres smartphones?

A voir pour tout savoir : Jetez-vous avec délectation sur cet excellent post de Louis Gray, qui vous dit tout (premiers tests, informations sur le moteur de reconnaissance vocale développé par Nuance et autres joyeuseries) sur cette belle appli!

samedi 9 janvier 2010

Moteur de recherche, téléphonie & énergies renouvelables : Grand écart ou stratégie Gagnante?

Cela ressemble à un scénario alternatif de victoire totale par conquête commerciale et conversion culturelle dans Civilization, le mythique jeu conçu par Sid Meier.

La Grande faim du Géant de la recherche est décidément bien omnivore! En pleine période d'excitation générale du Web autour de la sortie du Nexus One, la nouvelle a presque toutes les chances de passer inaperçue. Mais elle étaie si bien le tournant qu'est en train de prendre la firme de Mountain View que ne pas en parler est tout bonnement impensable. De quoi donc, au fait?

Publiée sur Twitter par @sheagunther il y a moins de 24 heures, l'annonce du lancement de l'offre Google Energy est très rapidement reprise par le Huffington Post - suscitant au passage un petit buzz international, essaimé depuis le Canada jusqu'en Belgique et en France ici et , ou encore relayé par l'agrégateur ContinentalNews, pour ne pas poursuivre plus longuement l'énumération.

Nous étions pourtant prévenus dès le 10 janvier 2008, par un post sur le blog officiel de Google :

This year Google has invested more than $45 million in startup companies with breakthrough wind, solar and geothermal technologies through our Renewable Energy Cheaper than Coal initiative (RE<C)

Progress will accelerate when the price of carbon reflects its true costs to society. Putting a price on carbon through cap-and-trade or a carbon tax would help address this.

Voilà grosso modo pour les chiffres et l'esprit bien-pensant. On distingue entre les lignes quelques dents longues qui reluisent (encore emballées d'esprit bien-pensant) : c'est là que ça devient intéressant :

When homes are equipped with smart meters and real-time pricing, research shows that energy use typically drops. Google is looking at ways that we can use our information technology and our reach to help increase awareness and bring better, real-time information to consumers.

Je parlais d'un Google Blitz en marche et d'un intérêt croissant du géant américain pour l'analyse des comportements des internautes. Le marketbabble développé autour de Google Energy concrétiserait-il un switch bigbrotheresque?

En tous cas, c'est sûr qu'avec la quantité et la variété des données capitalisées, il y aura de quoi prendre un pas décisif sur la bulle DataVizualization, en passe d'exploser bientôt, qui entraînera sans doute dans son souffle un renouveau du DataMining et du SemanticSearch.

mercredi 6 janvier 2010

Le Google Blitz est en marche

Il y a un an à peine s'élevaient encore les voix de quelques sceptiques quant à l'arrivée de Google sur le marché de la téléphonie.

Le Nexus One sort aujourd'hui aux USA - arrivée programmée au printemps en Europe -, et si certains se prêtent au jeu de l'émerveillement et des supputations sur le volume du "Google marketing muscle" déployé pour le promouvoir, le web fourmille déjà de questions sur la prochaine glissade du singe de la firme de Mountain View sur le grand goban des TIC globales - à l'image d'ActuAbondance qui posait hier une question qui n'est que rhétorique : Une tablette Google après le smartphone et le netbook?

Tout frais posté, le dernier billet de l'Official Google Blog feint la nouvelle stratégie de vente, titrant sans hésiter Our new approach to bying a mobile phone :

today we're pleased to announce a new way for consumers to purchase a mobile phone through a Google hosted web store

Vendre un téléphone mobile unlocké? Une stratégie pourtant déjà rôdée, entre autres par Nokia. Vendre exclusivement en ligne? Plus très novateur en 2010. Reste à voir comment Google va tirer profit de sa force de frappe pour appâter le web-chaland, sans risquer de souiller sa légendaire page d'accueil à l'allure spartiate - qui doit coûte que coûte continuer à inspirer "la recherche au service de l'internaute lambda" - sans pour autant rater le temps de cerveau disponible du client lambda.

A ce sujet aussi, les supputations vont bon train :

Already seen a couple Nexus One ads on sites using Adsense

rapporte @nferno commentant l'un des billets de TechCrunch sur la sortie du Nexus One.

nexus one google ad on my rss feed of this article…. and hey, maybe someone will google wave it, lol

ironisent d'autres lecteurs, tandis que se profile déjà une guerre de joutes entre Google et Apple fanboys.

Ce qui est sûr, c'est qu'un vent de superlativité souffle sur la créativité lexicale donnée à voir dans le discours de Mario Queiroz, VP of Product Management de Google (auteur affiché du billet cité plus haut et paru sur l'Official Google Blog)

The Nexus One belongs in the emerging class of devices which we call "superphones."

Un peu too much pour un terminal mobile dont on murmure qu'il serait dépourvu de fonctionnalités multitouch et de copié/collé? Peut-être. Mais la question n'est à n'en pas douter plus celle-là. Oublions l'arbre et intéressons-nous à la forêt : qu'importe le qu'en-dira-t-on sur les différents dispositifs brandés Google, il faut surtout souligner l'arrivée du géant de la recherche là où il n'était pas forcément attendu. Un pied dans le plat de la téléphonie mobile et des terminaux web, soit. Ce pas est petit est ce n'est que le premier.

Un pronostic? Le prochain pied sera dans le plat des opérateurs traditionnels qui n'ont ni la technologie, ni les investissements pour coloniser des espaces encore vierges de réseaux téléphoniques.

lundi 16 novembre 2009

FastFlip, l'avenir de Google News?

Dans la famille des webservices de feuilletage de news, après le prometteur PressFlip (présenté à la dernière édition de la SearchRace et que je n'avais pas résisté à vous présenter en août 2008) dont FastFlip des Google Labs est l'un des récents émules, on assiste à une fusion de modes de consultation des actualités online.

Nos amis de SearchEngineLand annoncent en effet ce matin un petit tournant stratégique adopté par Google quant à la diffusion des contenus qu'ils agrègent et diffusent sur FastFlip :

It offers a more “branded” and visual way to consume news and magazine content from major publishers.

Avec tout le contenu 'marketing contextuel' (la 'sémantique' telle qu'on l'entend dans l'univers Web, dopée à la stratégie de monétisation) qu'on peut associer aux news, le choix d'une ergonomie en mozaïque anticipe clairement sur des problématiques de consultation sur un terminal mobile. Comme le suppute fort judicieusement Greg Sterling dans ce billet riche d'informations :

Fast Flip might be the “platform” for the micropayments system that Google has been working on with a number of newspaper publishers.

Si Schmidt s'exclamait il y a peu que "Google is not a content company", l'arrivée d'un FastFlip - après la mort prématurée d'un PressFlip qui est arrivé un an trop tôt mais avait tout pour exploser dans le contexte actuel de redéfinition des modes de consommation, de consultation et de distribution de l'information en ligne - la fonction de Google dans l'univers Web de 2010 semble bien s'orienter vers un tapis misé sur l'innovation des modes de consultation des contenus informationnels. Ce que tend d'ailleurs à confirmer ce très documenté billet d' ActuAbondance, à lire sans tarder, tout juste frais de deux jours, qui rappelle que le temps de chargement des pages est sans doute l'un des prochains grands leviers du moteur de référence de la décennie.

mercredi 11 novembre 2009

Siri : le 'Perfect Search Engine' de Marissa?

On avait consacré un billet à l'assistant virtuel Siri, qui a un peu fait parler de lui en mai dernier. Sans plus de bruit que cela, faut-il préciser : Siri avait trouvé un Web un peu sourd à ses potentialités.

Sorti par la porte, il revient par l'une des plus belles fenêtres, sous la forme allégorique d'une définition du Perfect Search Engine by Marissa Mayer herself!

A la question :

What is the perfect search engine? If you had a magic wand and could create it, what would it look like? What would it do?

la blonde Vice President of Search Product and User Experience de Google, dont on suppute deci-delà qu'elle pourrait aller voir ailleurs si le Perfect Search Engine y est, a répondu :

It would be a machine that could answer that question, really. It would be one that could understand speech, questions, phrases, what entities you’re talking about, concepts. It would be able to search all of the world’s information, (find) different ideas and concepts, and bring them back to you in a presentation that was really informative and coherent.

Fort bien, c'est précisément l'objectif de Siri, bien accueilli par la Technology Review du MIT en mars/avril. Cet assistant virtuel, fait de la reconnaissance vocale, implémente sans doute nombre ontologies, mais exploite surtout fort bien les algorithmes d'apprentissage, qui lui confèrent souplesse et autonomie.

Petit Siri ne devrait pas tarder à devenir très grand, comme je le laissais entendre dans le billet de mai qui lui était consacré. Une User Experience à faire, Marissa?

- page 1 de 5