MyLinguistics - Marguerite Leenhardt's Web Log

Aller au contenu | Aller au menu | Aller à la recherche

Tag - Virtual Assistants

Fil des billets - Fil des commentaires

lundi 6 juin 2011

3D motion + speech2text + translation memory = towards innovative broadcast services

Just found this info twitted by @TheNextWeb : Japanese researchers invent automatic animated sign language system, and just had to blog about it !

As you may not know, apart my research work on text analytics methodologies, I studied speech processing until the rigorous nomenclatures of the French University forced me to choose between specializing in Natural Language Processing applied to textual material or applied to speech material, a few years ago.

I still have a strong interest for what goes on in the field of speech processing and its applications (conversational agents, lip-sync systems, vocal search engines) even though I work on textual material for now. And I particularly enjoy applications that merge text and speech processing. So I could not help but being drown into writing those lines on the latest innovative development made by the NHK Science & Technology Research Laboratories that is, imho, just an awesome example of what could be done merging text and speech processing. Let's take a closer look :

The NHK Science & Technology Research Laboratories is coming up with technology that automatically generates animated sign language in order to expand sign language in news broadcasts.

Simply put, it is almost like a lip-sync system but for the hands :) The system is actually built on a text-to-text correspondence module that converts japanese text to signed text ; another correspondance module then associates text spans to "hand-codes" (I don't know the exact term, and suggest this one by analogy with "mouth-codes", used in animation for lip-sync systems development).

The cherry-on-top idea ? Incorporating a translation memory to enhance the system outputs with expert knowledge : this materializes by a user interface through wich a human can enrich the lexicon or refine combination rules for hand gestures.

Oh yes ! I teased with "speech2text" but wait... There is no speech-to-text module in this system ! Let's think about it : it lacks only one brick ! Indeed, once the speech signal's complexity is reduced to text material (words, phrases or any other accurate text span), the whole system would be in capacity to deal with speech material as input. This kind of phonetization processes development is not an issue in itself nowadays.

And if we think a bit further, I'd say it is a reasonable hope to expect this kind of system handling "text2speech" outputs too, even if "text2speech" is not as easy to handle for now, if one is expecting for a natural / non-robotic output. That would be very useful for blind people (of course, they can hear broadcast news, but hey, what if they want to refresh their experience of accessing written info on the web ?), social games applications (texting messages to your motioned and talking avatar while being temporarily or permanently speechless, so that it can talk ingame) or domotic applications (texting messages to your home that are displayed with your avatar and voice in the end, for example), to mention just a few. #I skip the 3D motion part, as I am completely unexperimented in this domain#

I am quietly but eagerly waiting for this kind of initiatives to develop and impact the mainstream audience. Startupers with NLProc backgrounds in text AND speech processing should begin to combine their skills thinking of the next opportunities to come up with an innovative solution : multimodal NLProc is on its way :)

vendredi 5 février 2010

Siri arrive sur l'iPhone!

Alors, ça, c'est fait... Un très joli coup by SRI International, dont on regrette qu'il ne retentisse pas en Europe!

Siri, qui petit à petit fait son nid, je vous le disais, depuis le printemps dernier, arrive maintenant sur l'iTunes Store d'Apple : depuis hier, l'application Siri pour iPhone est disponible! mais seulement aux USA... dommage

http://blog.louisgray.com/2010/02/siri-brings-artificial-intelligence-to.html?utm_source=feedburner&utm_medium=twitter&utm_campaign=Feed%3A+LouisgraycomLive+(louisgray.com)&utm_content=Twitter

Les premières réactions postées à son sujet sur son étagère du Store ont plutôt une tonalité positive, voire même extatique :

A great app. Siri was able to figure out nearly everything I asked! A must have

I had read about the Siri service but was stunned with both the accuracy and efficacy of early use of this application. It seems to do what I want all apps to do, which is "just work." Not a big learning curve, except to figure out how many things Siri can do. Wonderful!

J'avais déjà abordé sur ce blog la bonne facture des bases de connaissances, l'appareillage ontologique et l'efficience des algorithmes d'apprentissage implémentés dans Siri. Ces qualités n'avaient d'ailleurs pas échappé à Marissa Mayer, VP Search Products & User Experience de Google, qui les rassemblait dans sa définition du "perfect search engine".

On reporte quelques bugs, mais ça ne l'empêchera sans doute pas de remporter un vif succès! A quand le portage sur les autres smartphones?

A voir pour tout savoir : Jetez-vous avec délectation sur cet excellent post de Louis Gray, qui vous dit tout (premiers tests, informations sur le moteur de reconnaissance vocale développé par Nuance et autres joyeuseries) sur cette belle appli!

jeudi 28 mai 2009

AV, Siri! Ou l'intelligence pour iPhone et Smartphones

Image_1.pngSiri, l'AV (assistant virtuel) qui va révolutionner l'expérience utilisateur sur l'iPhone et autres Smartphones. Quelques explications...

Siri n'a pas l'objectif de révolutionner la recherche en ligne sur terminal mobile, mais de proposer des solutions pour faciliter la vie : ce n'est pas là d'un énième Google Killer, mais un assistant virtuel dont l'arrivée marque un tournant technologique majeur dans notre interaction quotidienne avec nos goodies high-tech!

Mais avant tout, qu'est-ce qu'un assistant virtuel ?

  • aider l'utilisateur à accéder à une information ou à exécuter une tâche;
  • comprendre l'intention de l'utilisateur en fonction du contexte;
  • travailler pour l'utilisateur, i.e. être autonome dans l'exécution des tâches intermédiaires pour apporter une réponse finale à l'utilisateur.

Le shift? On passe de l'adaptation d'outils - ce qu'on fait constamment en configurant les interfaces qu'on utilise au quotidien - à l'interaction avec une application intelligente. (A voir : la Technology Review du MIT en parlait dans son édition de mars/avril)

On annonce des performances exceptionnelles en reconnaissance vocale - ce que Google offre déjà avec Android - mais sur le principe, Siri fait mieux : c'est un agent conversationnel nouvelle génération, en plus d'être un outil qui n'impose pas à l'utilisateur de se servir des touches pour exécuter des actions. Tout peut se faire à la voix. L'intégration de fonctionnalités de synthèse vocales sont à l'étude, ce qui garantirait une accessibilité optimale aux utilisateurs atteints de cécité, par exemple.

Siri mettrai à profit les technologies d'autocomplétion et de navigation contextuelle. Son avantage saillant ? L'opérationnalisation, i.e. découper votre besoin en tâches et sous-tâches à exécuter pour retourner une réponse pertinente, en fonction des données contextuelles qu'il connaît sur son utilisateur. Une belle performance d'utilisation des algorithmes d'apprentissage automatique!

Les ressources actuelles pour la géolocalisation, la reconnaissance et l'extraction d'entités nommées (noms de personnes et dates, par exemple) et les technologies fondées sur les ontologies du langage (ne poussons pas le rêve trop loin, c'est un assistant, pas un humain en boîte) seraient particulièrement bien exploitées. En bref, une grille de lecture du monde étendue qui vous facilite la vie!

Siri, une startup qui aura bien exploité sa levée de fonds de 8,5 millions de dollars en 2008!

Pour aller plus loin : à lire chez nos amis de TechCrunch et de Twine