L'Attracteur No. 9 Hiver 2000 | LA REVUE DE PHYSIQUE |
ISSN 1207-0203 |
Allô?
- Bonjour, votre appel sera transféré à un système de traitement de la voix. À qui souhaitez-vous parler?
- Benoît Dumoulin.
- Votre appel sera maintenant acheminé à Benoît Dumoulin. Merci!
Détenteur d'un doctorat en physique de l'Université de Sherbrooke, Benoît Dumoulin travaille maintenant dans un groupe de recherche de la compagnie Nortel. En fait, parmi les autres membres de son équipe, quatre physiciens sont aussi des diplômés au doctorat du département de physique. Leur domaine : la reconnaissance vocale.
Quel est le fonctionnement des appareils à reconnaissance vocale?
Lors d'un appel téléphonique, par exemple, un dispositif intègre le signal vocal (voix émise par l'interlocuteur) à plusieurs moments. Lorsque l'intégrale augmente et se maintient, le système distingue qu'il est en présence d'un signal cohérent, c'est-à-dire de la parole. Par contre, si l'intégrale augmente, mais diminue subitement, l'appareil "sait" que c'est un bruit et non de la parole (ex.: le téléphone est accroché, l'interlocuteur tousse, etc.). Lorsque la détection est faite, un système d'acquisition se met en marche.
Le signal vocal est alors enregistré et il est transmis à un programme qui traitera ce signal. Celui-ci fait une transformée de Fourier, c'est-à-dire qu'il cherche les caractéristiques importantes du signal pour ensuite les convertir en un vecteur. L'appareil calcule un vecteur de ce genre à toutes les 1/102 secondes. Par la suite, cette série de vecteurs est envoyée au reconnaisseur. Ce dernier fait une comparaison de ces vecteurs avec les modèles acoustiques qu'il possède. Il essaie de voir lequel des modèles ressemble le plus aux vecteurs. Il existe des modèles pour chaque phonèmes - pour chaque son phonétique que l'on peut émettre. Par exemple, le modèle acoustique du phonème "â" sera différent du modèle du phonème "à". Après avoir reconnu les différents phonèmes, le reconnaisseur regroupe tout ça ensemble et regarde dans son dictionnaire pour trouver le mot qui ressemble le plus à ce qu'il a calculé. Et c'est à ce mot qu'il donnera une réponse. Si le mot calculé n'est pas dans son dictionnaire, il prendra le mot qui s'y rapproche le plus, ce qui peut parfois entraîner des erreurs.
Comment l'appareil fait-il pour reconnaître les mots même lorsqu'ils sont dits avec différents accents?
Les ordinateurs sont "entraînés" pour reconnaître plusieurs accents. On crée une banque de données qui enregistre des phrases dites par des gens. Très fréquemment aux États-Unis, et quelques fois à Montréal, des concours sont organisés. Les gens vont sur un site internet spécial et ils écrivent un mot de passe. Ensuite, ils téléphonent, disent les phrases qu'ils ont à dire et raccrochent! Ils sont alors inscrits dans un concours et ils peuvent gagner des prix! L'ordinateur amasse donc plusieurs versions d'une même phrase, donc plusieurs modèles acoustiques auxquels il peut se référer. Plus il y a de variabilité, plus les modèles seront robustes pour reconnaître différents accents. C'est pourquoi on essaie d'avoir des données d'un peu partout à travers le monde. On tente d'obtenir le meilleur fonctionnement possible du reconnaisseur dans toutes les applications et ce, dans plusieurs langues autres que le français ou l'anglais, telles que les langues asiatiques et les langues nordiques (Europe du Nord).
Quels sont les applications des dispositifs à reconnaissance de la parole?
Actuellement, une des applications populaires est une machine utilisée par les entreprises et parfois même par les écoles. Lorsque des gens veulent rejoindre une personne en particulier au téléphone, ils n'ont qu'à nommer cette personne et la machine composera directement son numéro. Les gens n'ont donc pas besoin de chercher les numéros dans des annuaires. Il existe aussi un prototype qui peut réserver des salles, autrement dit, qui peut reconnaître des phrases entières comme: "J'aimerais réserver la salle A-123, le mardi 22 juin à 16 heures." Si la machine a mal compris une information, elle demandera à la personne de la répéter. Mais c'est un système encore très limité, même s'il fonctionne bien. La compréhension du langage naturel (natural language understanding) représente une grande part des travaux. Elle implique plusieurs branches des mathématiques ainsi que l'intelligence artificielle. Les chercheurs tentent de mettre au point un dispositif capable de reconnaître des phrases complètes, mais aussi d'en comprendre la signification, ce qu'on appelle la sémantique. Les recherches se font pour que l'on puisse, éventuellement, converser avec le système.
Existe-t-il d'autres prototypes?
Oui, sur certains prototypes, la voix sert de mot de passe. Par exemple, si le mot de passe du physicien est "soleil", l'accès lui sera libre s'il dit "soleil". Par contre, si le chimiste dit "soleil", l'accès lui sera refusé, car le mot de passe n'aura pas été dit avec le même timbre de voix. La voix joue le même rôle qu'une empreinte digitale. Elle possède une fréquence naturelle qui est caractéristique à chacun et c'est cette fréquence qui excitera l'appareil vocal. Chez certaines personnes, la fréquence naturelle se ressemble, mais l'appareil saisie plusieurs autres caractéristiques vocales, ce qui rend la marge d'erreur très faible. Ainsi, "l'empreinte" de la voix devient fiable.
D'autres technologies sont pas mal au point. C'est le cas d'un type de téléphone cellulaire qui répond aux demandes de son utilisateur. Si le téléphone sonne, la personne peut dire : "Take the call" (ce téléphone n'est qu'en version anglaise pour le moment), et elle pourra prendre l'appel. Elle peut aussi prendre ses messages ou composer un numéro sans appuyer sur les touches de son téléphone, ce qui est pratique pour ceux qui utilisent beaucoup leur téléphone cellulaire en conduisant leur voiture. Même s'il est déjà sur le marché, il y a toujours de la recherche qui se fait dans ce domaine pour améliorer encore davantage le produit.
Bien sûr, il y a beaucoup d'autres recherches en cours. Entre autres, on essaie de réaliser un logiciel à reconnaissance vocale avec lequel l'utilisateur pourrait naviguer sur internet sans l'intermédiaire de sa souris. Il n'aurait qu'à lire les hyperliens à haute voix, dans un micro, au lieu de les cliquer. On travaille aussi sur des logiciels de traduction. Avec ces derniers, il serait possible de dicter un texte en français à l'ordinateur pour que celui-ci l'écrive en anglais, par exemple. C'est un domaine actif de la reconnaissance vocale qui fait partie des objectifs du projet de la compréhension du langage naturel.
À quoi ta formation de physicien t'aide-t-elle dans ton milieu de travail?
Face à un problème, l'ingénieur essaie de développer des algorithmes avec ce qui existe déjà, mais le physicien a plutôt la mentalité de ne pas accepter ce qui est là, d'inventer autre chose et je crois que c'est ce qui fait la force d'un physicien.
On peut donc voir que la physique se cache partout, même dans les conversations téléphoniques! J'aimerais remercier Benoît Dumoulin de m'avoir accordé cette entrevue.
Marie-Ève Gosselin j