MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - méthodes hybrides

Fil des billets - Fil des commentaires

lundi 6 juin 2011

3D motion + speech2text + translation memory = towards innovative broadcast services

Just found this info twitted by @TheNextWeb : Japanese researchers invent automatic animated sign language system, and just had to blog about it !

As you may not know, apart my research work on text analytics methodologies, I studied speech processing until the rigorous nomenclatures of the French University forced me to choose between specializing in Natural Language Processing applied to textual material or applied to speech material, a few years ago.

I still have a strong interest for what goes on in the field of speech processing and its applications (conversational agents, lip-sync systems, vocal search engines) even though I work on textual material for now. And I particularly enjoy applications that merge text and speech processing. So I could not help but being drown into writing those lines on the latest innovative development made by the NHK Science & Technology Research Laboratories that is, imho, just an awesome example of what could be done merging text and speech processing. Let's take a closer look :

The NHK Science & Technology Research Laboratories is coming up with technology that automatically generates animated sign language in order to expand sign language in news broadcasts.

Simply put, it is almost like a lip-sync system but for the hands :) The system is actually built on a text-to-text correspondence module that converts japanese text to signed text ; another correspondance module then associates text spans to "hand-codes" (I don't know the exact term, and suggest this one by analogy with "mouth-codes", used in animation for lip-sync systems development).

The cherry-on-top idea ? Incorporating a translation memory to enhance the system outputs with expert knowledge : this materializes by a user interface through wich a human can enrich the lexicon or refine combination rules for hand gestures.

Oh yes ! I teased with "speech2text" but wait... There is no speech-to-text module in this system ! Let's think about it : it lacks only one brick ! Indeed, once the speech signal's complexity is reduced to text material (words, phrases or any other accurate text span), the whole system would be in capacity to deal with speech material as input. This kind of phonetization processes development is not an issue in itself nowadays.

And if we think a bit further, I'd say it is a reasonable hope to expect this kind of system handling "text2speech" outputs too, even if "text2speech" is not as easy to handle for now, if one is expecting for a natural / non-robotic output. That would be very useful for blind people (of course, they can hear broadcast news, but hey, what if they want to refresh their experience of accessing written info on the web ?), social games applications (texting messages to your motioned and talking avatar while being temporarily or permanently speechless, so that it can talk ingame) or domotic applications (texting messages to your home that are displayed with your avatar and voice in the end, for example), to mention just a few. #I skip the 3D motion part, as I am completely unexperimented in this domain#

I am quietly but eagerly waiting for this kind of initiatives to develop and impact the mainstream audience. Startupers with NLProc backgrounds in text AND speech processing should begin to combine their skills thinking of the next opportunities to come up with an innovative solution : multimodal NLProc is on its way :)

mardi 2 novembre 2010

Blekko : aimables échos ?

Début novembre, après avoir frissonné d'Halloween, une partie de la sphère web FR et US s'émeut à la sortie de Blekko. Passons sur le principe du slashtag c'est vrai qu'on manquait d'un useless buzzword de plus qui est, m'est avis, la partie la moins intéressante de l'outil.

Blekko HomepageBlekko, c'est le fruit d'un projet débuté en 2007 et porté par une levée de fonds de 24 millions de dollars US. Si on le présente le pauvre comme un n-ième outsider dans la "who's the next G-killer race", il est fort probable que les termes de la question ne soient pas optimalement posés par le marronnier des tech journals online, comme ç'avait déjà été le cas pour Wolfram Alpha. Passons, c'est un point de détail dans la tendance à laquelle on assiste.

Bon, premier modulo : la sphère web FR ne s'émule pas vraiment sur le sujet. La news est diffusée dans les rubriques Tech ici et là, mais les internautes ne sont pas impliqués au point de laisser un avis, tout du moins sur LeMonde.fr, France24.com et ActuAbondance.com.

Bon, second modulo : comparer n'importe quel search engine à Google c'est facile pour la rhétorique, mais c'est un point de détail qui suscite des réactions pas toujours aimables chez les webbeurs qui se creusent sur la question :

Why have slashtags when you can perform such an advanced search on Google? There are startups that want to become big companies, and there are startups that want to be bought out by the likes of Google. Blekko is squarely in the latter: they want to excite a certain user base to create smart lists, and then sell their lists and users to Google.

ou encore :

Remember: Google News uses its own factors for rankings, while Bing appears to use sophisticated criteria for its cool recipes results. Users need to remember that Blekko slashtags like "news" and "techblogs" won't necessarily return the kind of recent, relevant results you'd expect when you search them. Instead, it returns the highest ranking results from a certain bucket of sites.

peut-on par exemple lire sur le site de Ryan Beale , là où les commentaires ont une tonalité représentative de l'accueil fait à Blekko, malgré l'avis plutôt positif de l'auteur. Un autre internaute, commentant la news de BusinessInsider sur le sujet, ajoute très justement :

The problem with "transparency" in a search engine is that it invites manipulation.

Un rapport avec la tendance dont je parle plus haut ? Précisément, je vous disais qu'il y avait une scission dans les stratégies d'accès pertinent à l'information :

Le recours à l'humain pour garantir la qualité des informations, les structurer, les enrichir et ainsi en faire des connaissances : voilà le sillon dans lequel s'inscrit Blekko, comme Yahoo! l'a fait en 2005, comme Google l'a mis en place un temps pour optimiser les performances de Google Translate, comme l'industrie de la veille web et des études web quali est en train d'en prendre conscience. Mais si, mais si, tout arrive !

jeudi 18 septembre 2008

REI, veille stratégique : l'expertise linguistique et l'amélioration des systèmes

Les plateformes de gestion de l'information sont volontiers brandées "sémantique" par leurs éditeurs : voilà le constat de la tendance actuelle. On comprend bien le malheur du benêt linguiste, qui ne saisira pas qu'on lui fourre du dédoublonnage d'URLs dans le paradigme sémantique, lorsqu'il se retrouve face à un chef de produit tout heureux de sa belle interface glossy.

Cependant, le caractère concurrentiel du marché de la veille (un tour sur le site de l'i-expo2008 confortera cette idée) laisse bon espoir de voir émerger le besoin d'une réelle qualité dans l'analyse des contenus.

A cet égard, CELI-France développe une des technologies les plus pointues pour la gestion de l'information objective et subjective sur des données du Web. Son choix? Présenter l'expertise linguistique comme LA valeur ajoutée de son système.
Dans un très bon papier, ''Classification d'opinions par méthodes symbolique, statistique et hybride'', qui leur a valu le victoire au Workshop DEFT'07 (DEfi Fouille de Textes), l'équipe CELI-France donne la faveur aux résultats des méthodes hybrides. Les méthodes hybrides? Nous y reviendrons plus longuement dans un prochain billet, mais il s'agit d'améliorer les résultats des algorithmes d'apprentissage automatique (type Support Vector Machines ou Naive Bayes algorithm) avec le produit d'une modélisation linguistique des données (sous forme de grammaires symboliques).

la démarche hybride ... est importante non seulement pour des raisons scientifiques de performance (le meilleur résultat entre les technologies que nous avons adoptées) mais, aussi et surtout pour des raisons de développement et acceptation par le marché

Il ne sera plus longtemps possible pour l'éditeur de compter sur le flou ambiant des cahiers des charges autour de ces outils, le client est déjà sur le point de faire le deuil de son inculture. Oui, il pourra questionner sur la pertinence de la méthode de génération de votre nuage de mots, lui dont l'oeil humide offrait hier encore une vitreuse surface de réflexion à ces jolies chaînes de caractères colorées.