Une interface utilisateur vocale ou IUV (ou VUI pour Vocal User Interface en anglais) permet l'interaction orale entre humains et ordinateurs. Un dispositif de commande vocale (ou VCD pour Voice Command Device) est un appareil doté d'une interface utilisateur vocale. Les ordinateurs équipés d'un tel dispositif utilisent généralement la reconnaissance vocale pour comprendre les mots énoncés par les humains et la synthèse vocale pour les retranscrire.
Des interfaces utilisateur vocales sont intégrées aux objets du quotidien comme les automobiles, la domotique, les systèmes d'exploitation des ordinateurs, les appareils ménagers (machines à laver et fours à micro-ondes) ou encore les télécommandes des télévisions. Elles constituent le principal moyen d'interaction avec les assistants virtuels sur smartphones et enceintes connectées.
Les anciens assistants automatiques (qui acheminent les appels téléphoniques vers le bon numéro) et les systèmes de réponse vocale interactive (qui effectuent des transactions plus complexes par téléphone) peuvent répondre à la pression des touches du clavier par des tonalités multifréquence, mais ces systèmes dotés d'une interface utilisateur entièrement vocale permettent aux appelants de formuler des demandes et des réponses sans avoir à appuyer sur aucun bouton.
Les nouveaux dispositifs de commande vocales sont indépendants du locuteur, ils peuvent donc répondre à plusieurs voix, indépendamment de l'accent ou des influences linguistiques. Ils sont également capables de répondre à plusieurs commandes à la fois, de séparer les messages vocaux et de fournir un retour d'information approprié, en imitant avec précision une conversation naturelle.
Les premières applications de l'interface utilisateur vocale ont été la numérotation des téléphones, soit directement, soit via un casque (généralement Bluetooth) ou un système audio de véhicule.
En 2007, un article de CNN rapporte que des entreprises comme Google et Apple tentent de développer des fonctionnalités de reconnaissance vocale. Depuis, la technologie a considérablement évolué. Google a ainsi créé un moteur de reconnaissance vocale appelé Pico TTS et Apple a mis en place Siri. Les dispositifs de commande vocale sont de plus en plus accessibles et efficaces. Actuellement, Xbox Live permet d'utiliser la commande vocale et Apple TV inclut Siri parmi ses fonctionnalités.
Ces applications sont supposées rationaliser les flux d'appels, minimiser les invites, éliminer les itérations inutiles et permettre des "dialogues d'initiatives mixtes" élaborés, permettant aux appelants d'entrer plusieurs informations en un seul énoncé et dans n'importe quel ordre ou combinaison. En général, plus les demandes de renseignements et les transactions sont complexes, plus elles sont difficiles à automatiser et donc susceptibles d'échouer. Dans certains scénarios, l'automatisation n'est tout simplement pas applicable. Une hotline de conseil juridique serait très difficile à automatiser, alors que les transactions rapides et routinières, ne nécessitant pas de compétences, sont maîtrisées.
Une VUI constitue l'interface de toute application vocale. Il y a encore peu de temps, contrôler une machine par la parole relevait de la science-fiction et jusqu'à une période récente, ce domaine était considéré comme rattaché à l'intelligence artificielle. Cependant, les avancées dans des technologies telles que la synthèse vocale, le traitement du langage naturel (NLP) et les services Cloud, en général, ont contribué à l'adoption massive de ces types d'interfaces. Les VUI sont devenues plus courantes, les avantages sont multiples d'après les constructeurs permettant notamment de libérer les mains et le regard.
La fiabilité de la réponse apportée par les VUI est déterminante pour sa diffusion. Un taux d'erreurs trop important conduit potentiellement au rejet de ces technologies. Concevoir une bonne VUI requiert des talents interdisciplinaires en informatique, en linguistique et en psychologie des facteurs humains, autant de compétences coûteuses et difficiles à acquérir. Malgré les outils de développement avancés, la construction d'une VUI nécessite une compréhension approfondie des tâches à effectuer et une connaissance des utilisateurs.
Apple et Windows fournissent des fonctionnalités de reconnaissance vocale intégrées à leurs systèmes d'exploitation.
Deux systèmes d'exploitation Microsoft, Windows 7 et Windows Vista, offrent des capacités de reconnaissance vocale. Microsoft a intégré des commandes vocales dans ses systèmes d'exploitation s'adressant aux personnes qui souhaitent, d'après Microsoft, limiter leur utilisation de la souris et du clavier sans compromettre leur productivité.
Avec la commande vocale de Windows Vista, un utilisateur peut dicter des documents et des e-mails dans les applications courantes, démarrer et basculer entre les applications, contrôler le système d'exploitation, formater des documents, enregistrer des documents, modifier des fichiers, corriger efficacement les erreurs et remplir des formulaires sur le Web. Le logiciel de reconnaissance vocale s'enrichit automatiquement à chaque utilisation. Elle est disponible en anglais (États-Unis), anglais (Royaume-Uni), allemand (Allemagne), français (France), espagnol (Espagne), japonais, chinois (traditionnel) et chinois (simplifié). Le logiciel est livré avec un didacticiel interactif, qui peut être utilisé pour former à la fois l'utilisateur et le moteur de reconnaissance vocale.
En plus de toutes les fonctionnalités fournies dans Windows Vista, Windows 7 fournit un assistant pour configurer le microphone et un sur l'utilisation de la fonctionnalité.
Tous les ordinateurs Mac OS X sont préinstallés avec le logiciel de reconnaissance vocale. Le logiciel est indépendant de l'utilisateur et lui permet de naviguer dans les menus, d'entrer des raccourcis clavier, énoncer les noms des cases à cocher, les noms des boutons radio, les éléments de listes et les noms des commandes : ouvrir, fermer, contrôler et basculer entre les applications.
Si l'utilisateur n'est pas satisfait du logiciel de reconnaissance vocale intégré ou s'il n'en dispose pas, il est possible de se doter de produits commerciaux tels que Braina Pro ou Dragon Naturally Speaking pour Windows PC, et Dictate pour Mac OS.
Tout appareil mobile exécutant Androïde OS, Microsoft Windows Phone, iOS 9 ou version ultérieure ou Blackberry OS offre des capacités de commande vocale. En plus du logiciel de reconnaissance vocale intégré pour le système d'exploitation de chaque téléphone mobile, un utilisateur peut télécharger des applications de commande vocale tierces à partir du magasin d'applications de chaque système d'exploitation: Apple App Store, Google Play, Windows Phone Marketplace (initialement Windows Marketplace pour Mobile), ou BlackBerry App World .
Google a développé un système d'exploitation open source appelé Android, qui permet à un utilisateur d'exécuter des commandes vocales pour envoyer un SMS, écouter de la musique, obtenir un itinéraire, appeler des contacts, envoyer un e-mails, consulter des sites Web, rédiger une note et rechercher sur Google. Le logiciel de reconnaissance vocale est disponible pour tous les appareils depuis Android 2.2 "Froyo", mais les paramètres doivent être définis en l'anglais. Google permet à l'utilisateur de changer la langue. L'utilisateur est invité à utiliser la fonction de reconnaissance vocale pour la première fois s'il souhaite que ses données vocales soient jointes à son compte Google. Si un utilisateur décide d'opter pour ce service, il contribue à l'entraînement du logiciel, lui permettant de reconnaître sa voix.
Google a présenté l' Assistant Google avec Android 7.0 "Nougat". Il est beaucoup plus avancé que l'ancienne version. Amazon a Echo, il utilise la version personnalisée d'Amazon sur Android pour fournir une interface vocale.
Sur Windows Phone 7.5, l'application vocale est indépendante de l'utilisateur et peut être utilisée pour appeler quelqu'un de la liste de contacts, appeler n'importe quel numéro de téléphone, recomposer le dernier numéro, envoyer un SMS, appeler votre messagerie vocale, ouvrir une application, lire des rendez-vous, interroger l'état du téléphone et rechercher sur le Web. En outre, la parole peut également être utilisée pendant un appel téléphonique et les actions suivantes sont possibles pendant un appel téléphonique: appeler un autre numéro, activer le haut-parleur ou appeler quelqu'un, ce qui active la pause de l'appel en cours.
Windows 10 présente Cortana, un système de commande vocale qui remplace la commande vocale précédemment utilisée sur les téléphones Windows.
Apple a ajouté le contrôle vocal à sa famille d'appareils iOS en tant que nouvelle fonctionnalité de l'iPhone OS 3 . L'iPhone 4S, l'iPad 3, l'iPad Mini 1G, l'iPad Air, l'iPad Pro 1G, l'iPod Touch 5G et les versions ultérieures sont tous livrées avec un assistant vocal plus avancé appelé Siri. Le contrôle vocal peut toujours être activé via le menu Paramètres des nouveaux appareils.
Siri est une fonction de reconnaissance vocale intégrée indépendante de l'utilisateur qui permet à un utilisateur d'émettre des commandes vocales. Avec l'aide de Siri, un utilisateur peut émettre des commandes telles qu'envoyer un SMS, vérifier la météo, définir un rappel, rechercher des informations, planifier des réunions, envoyer un e-mail, rechercher un contact, définir une alarme, obtenir des itinéraires, suivre vos stocks, définir une minuterie et demander des exemples de requêtes de commandes vocales. De plus, Siri fonctionne avec Bluetooth et un casque filaire.
En 2014, Amazon présente l'appareil intelligent pour la maison Alexa. Il s'agit d'un haut-parleur intelligent contrôlé par la voix. Il s'est transformé en un appareil ayant la capacité de contrôler l'électroménager par commande vocale. Aujourd'hui, presque tous les appareils connectés sont contrôlables avec Alexa, y compris la lumière et la température. En permettant le contrôle vocal, Alexa peut se connecter à la technologie de la maison intelligente, permettant de verrouiller la maison et d'activer divers appareils (domotique). Cette forme d'intelligence Artificielle (IA) répond par voix enregistrée à une question posée.
Au fur et à mesure que la technologie automobile s'améliore, de plus en plus de fonctionnalité s'y ajoutent. Selon le CNET (site d'information sur les nouvelles technologies), les commandes vocales pour les voitures devraient permettre au conducteur d'émettre des commandes sans être distrait.
Un logiciel analogue à Siri est en cours de développement pour les voitures. La plupart des logiciels de reconnaissance vocale sur le marché en 2011 n'avaient que 50 à 60 commandes vocales, là où Ford SYNc en avait 10 000. Cependant, le CNET affirme que 10 000 commandes vocales ne sont pas suffisantes compte tenu de la complexité et de la variété des tâches qu'un utilisateur peut souhaiter effectuer. La commande vocale pour les voitures est différente de la commande vocale pour les téléphones portables et les ordinateurs, car un conducteur peut utiliser la fonction pour rechercher des restaurants à proximité, rechercher de l'essence, des itinéraires, des conditions routières et l'emplacement de l'hôtel le plus proche.
Actuellement, la technologie permet à un conducteur d'émettre des commandes vocales sur un GPS portable comme un Garmin et un système de navigation de constructeur automobile.
Alors que la plupart des interfaces utilisateur vocales sont conçues pour prendre en charge l'interaction à travers le langage humain oral, il y a également eu des explorations récentes dans la conception d'interfaces prenant des sons humains non verbaux en entrée. Dans ces systèmes, l'utilisateur contrôle l'interface en émettant des sons non verbaux tels que des bourdonnements, des sifflements ou des souffles dans un microphone.
Un tel exemple d'une interface utilisateur vocale non verbale est Blendie, une installation artistique interactive créée par Kelly Dobson. La pièce comprenait un mélangeur classique des années 1950 qui a été adapté pour répondre à l'entrée du microphone. Pour contrôler le mélangeur, l'utilisateur doit imiter les sons mécaniques vrombissants qu'un mélangeur produit généralement: le mélangeur tournera lentement en réponse au grondement grave de l'utilisateur, et augmentera sa vitesse à mesure que l'utilisateur émet des sons vocaux plus élevés.
Un autre exemple est Voice Draw, un système de recherche qui permet le dessin numérique pour les personnes ayant des capacités motrices limitées. Voice Draw permet aux utilisateurs de «peindre» des traits sur un canevas numérique en modulant les sons de voyelle, qui sont mappés sur les directions du pinceau. La modulation d'autres caractéristiques para linguistiques (par exemple le volume de leur voix) permet à l'utilisateur de contrôler différentes caractéristiques du dessin, telles que l'épaisseur du coup de pinceau.
D'autres approches incluent l'adoption de sons non verbaux pour augmenter les interfaces tactiles (par exemple sur un téléphone mobile) pour prendre en charge de nouveaux types de gestes qui ne seraient pas possibles avec la seule saisie des doigts.
Les interfaces vocales posent un nombre important de défis d'utilisation. Contrairement aux interfaces utilisateur graphiques (GUI), de meilleures pratiques pour la conception d'interfaces vocales émergent en permanence.
Avec une interaction purement audio, les interfaces utilisateur vocales ont tendance à souffrir d'une faible accessibilité. Il est difficile pour les utilisateurs de comprendre l'étendue des capacités d'un système. Pour que le système transmette ce qui est possible sans affichage visuel, il devrait énumérer les options disponibles, qui peuvent devenir fastidieuses ou irréalisables. Une faible accessibilité se traduit souvent par des utilisateurs signalant une confusion sur ce qu'ils sont «autorisés» à dire, ou un décalage dans les attentes concernant l'étendue de la compréhension d'un système.
Alors que la technologie de reconnaissance vocale s'est considérablement améliorée ces dernières années, les interfaces utilisateur vocales souffrent toujours d'erreurs d'analyse ou de transcription dans lesquelles la parole d'un utilisateur n'est pas interprétée correctement. Ces erreurs sont particulièrement répandues lorsque le contenu de la parole utilise un vocabulaire technique ou une orthographe non conventionnelle.
La conception d'un système efficace pour maximiser la compréhension conversationnelle reste un domaine de recherche ouvert. Les interfaces utilisateur vocales qui interprètent et gèrent l'état conversationnel sont difficiles à concevoir en raison de la difficulté inhérente à intégrer des tâches complexes de traitement du langage naturel telles que la résolution de la coréférence, la reconnaissance d'entités nommées, la récupération d'informations et la gestion des dialogues. La plupart des assistants vocaux sont aujourd'hui capables d'exécuter très bien des commandes simples mais limités dans leur capacité à gérer le dialogue au-delà d'une tâche précise ou de quelques nuances dans une conversation.
Les problèmes de confidentialité sont soulevés par la mise à disposition des fournisseurs, d'interfaces voix utilisateur non cryptées. Elles peuvent donc être partagées avec des tiers et être traitées au-delà de leur objectif initial. Outre le contenu linguistique de la parole enregistrée, le mode d'expression et les caractéristiques vocales d'un utilisateur peuvent contenir implicitement des informations sur son identité biométrique, ses traits de personnalité, sa forme corporelle, son état de santé physique et mentale, son sexe, son genre, humeurs et émotions, statut socio-économique et origine géographique.