dim 16 nov 2008
Pourquoi le langage naturel est il en passe de réussir après des années décevantes de la reconnaissance vocale ?
16 11 2008
La reconnaissance vocale est un serpent de mer bien connu, chaque année c'est la bonne. Et ceci depuis plus de vingt ans.
Pourquoi tant d'écueils sur un sujet apparement si prometteur ?
Et que se passe t'il en ce moment sur le langage naturel qui est en train de balayer tous les doutes sur la reconnaissance vocale ? 
Les raisons du succès relativement moyen de la reconnaissance vocale sont à notre sens liés à trois raisons principales:
- les mauvaises performances des moteurs quand il s'agit de reconnait la parole à coup sûr
- la volonté (obstinée) d'adopter la reconnaissance vocale avec une approche classique d'ergonomie DTMF (appui de touches du clavier du téléphone)
- un mauvais angle d'approche sur l'utilisation de la technologie
En revanche, les raisons du succès actuel du langage naturel sont dûs aux raisons suivantes:
- Le langage naturel se concentre sur les phases de qualification des appels où il donne des résultats excellents
- Des performances imparfaites des moteurs (80 % en moyenne) suffisent amplement pour réussir à automatiser la qualification d'un appel en langage naturel
- l'appui du langage naturel en mode supervisé par des agents qui prennent les appels mal qualifiés par le moteur (20% en moyenne)
Jusqu'à présent, la reconnaissance vocale a été évaluée pour reconnaitre la parole de l'utilisateur dans le cadre d'un dialogue dirigé et il s'agit de récupérer des variables dans le dialogue : motif de l'appel, réservation, date, commande, etc...
La performance est dans ce cas essentiellement lié à la qualité du moteur de reconnaissance vocale et un indicateur du type taux de reconnaissance est parfaitement justifié, le problème est que les technologies actuelles ne permettent d'assurer des performances au dela de 90 % de taux de reconnaissance dans la plupart des cas et le coût de mise au point pour dépasser ce taux est exponentiel: voir les tâches de tuning de la reconnaissance vocale
De plus la justification d'un dialogue en reconnaissance vocale par rapport au même dialogue en appui de touches est relativement faible quand on ne dépasse pas 25 motifs d'appels, ce qui est le cas de la plupart des portails vocaux actuels.
- (Voir notre article sur la comparaison ergonomie DTMF et reconnaissance vocale)
Dans ces conditions, justifier un passage en reconnaissance vocale est difficile et le marché nous le prouve : peu de systèmes ont été déployés depuis cinq ans.
Les technologies de reconnaissance vocale évoluent relativement lentement et les algorithmes d'il y a cinq ans sont assez comparables à ceux d'aujourd'hui, par conséquent on peut penser qu'il n'y aura pas de révolution rapide dans les années à venir sur la reconnaissance vocale classique.
En revanche le langage naturel qui apparaissait il y a quelques années beaucoup plus ambitieux que la reconnaissance vocale en dialogue dirigé est en passe de dépasser celle ci et être beaucoup plus facile et efficace à mettre en place.

En effet, la principale raison est que le langage naturel n'adresse plus du tout le même besoin que la reconnaissance vocale en mode dirigé: l'objectif est non pas d'apporter uniquement un confort à l'utilisateur (ce qui est louable mais difficile à justifier économiquement quand les performances ne sont pas parfaites) mais plutôt de qualifier la raison de l'appel en moins de quelques dizaines de secondes et de chercher à rendre ce processus automatique mais à 80 % avec une supervision humaine à 20 % (en effet lorsque le seuil de confiance du moteur est trop faible, l'utilisateur est dirigé de façon transparente vers un agent chargé de faire la qualification de l'appel manuellement).
Cette approche lève tous les verrous de la reconnaissance vocale en mode dirigé:
- Il s'agit à la fois de confort pour l 'utilisateur (il est qualifié rapidement) et de productivité pour l'entreprise (80 % du routage est automatique)
- Les performances des moteurs ne sont plus un obstacle, car nous sommes en mode supervisé, les 20 % d'appels non qualifiés sont traités par un agent humain sans impact pour l'utilisateur
Il est dans ces conditions beaucoup plus facile de justifier le langage naturel:
- le risque de rejet par le client est nul
- la productivité du centre d'appel est augmentée et celui-ci est recentré vers les appels à valeur ajoutée
- la rapidité pour qualifier les clients à valeur ajoutée est sans mesure avec un système classique qui prend plus d'une minute pour qualifier le client en le faisant passer sans priorité par un dialogue de qualification et file d'attente avec un taux d'abandon élevé
Vous pouvez également lire sur le même sujet:
Dans ces conditions, justifier un passage en reconnaissance vocale est difficile et le marché nous le prouve : peu de systèmes ont été déployés depuis cinq ans.