Un portail vocal en langage naturel nécessite ce que l'on appelle un modèle de langage, qui lui-même est réalisé à partir d'un corpus c'est-à-dire un ensemble (de l'ordre de plusieurs, voir dizaines, de milliers) de formulations possibles en réponse aux messages diffusés par le serveur vocal.
Lors de la vie du portail, ce corpus est constitué naturellement par les visiteurs du portail et à l'aide de transcriptions au fil de l'eau, il est aisé de le transformer en modèle de langage pour que la reconnaissance vocale fonctionne bien. En revanche, la principale difficulté à résoudre est la constitution initiale de ce corpus lors du démarrage de l'application car sans lui, le modèle de langage et donc la reconnaissance vocale ne fonctionne pas.
Ce billet expose les différents moyens disponibles pour créer ce corpus initial...
Lire la suite …