La Interfaz mediante voz del usuario (IVU)' permite la interacción humana con ordenadores a través de una plataforma de voz/habla para iniciar procesos o servicios automaticos. IVU es la interfaz de cualquier aplicación de habla. Controlar una máquina simplemente hablándola era considerado ciencia ficción hasta hace no mucho tiempo. Posteriormente pasó a considerarse inteligencia artificial. Sin embargo, con los avances tecnológicos, las IVU han llegado a ser más comunes y la gente puede aprovecharse de las ventajas de interfaces como manos libres en muchas situaciones.
Sin embargo, las , IVU presenta varias complicaciones. Es necesario tener un poco de paciencia para aquello que la máquina no entiende. Por ello, hay un pequeño margen de error: Las IVU necesitan que las respuestas se realicen de forma fiable, o serán rechazadas o ridiculizadas por sus usuarios. El diseño de un buen IVU precisa de talento interdisciplinar sobre ciencias de la computación, lingüística y psicología. Incluso con herramientas avanzadas de desarrollo, construir un IVU eficaz requiere una comprensión profunda de las tareas que se quiere realizar y del mercado objetivo que utilizará el sistema final. Cuanto más cerca se encuentre el IVU del modelo mental del usuario para una tarea dada, más fácil será de utilizar y será necesario un menor entrenamiento, resultando en mayor eficiencia y satisfacción de usuario.
Las características del mercado objetivo son muy importantes. Por ejemplo, una IVU diseñada para el público general debería enfatizar la facilidad de uso y proporcionar ayuda y asistencia para los llamados "primerizos". Por otro lado, una IVU diseñada para un pequeño grupo de usuarios avanzados, debería enfocarse en una mayor productividad y menos ayuda y asistencia. Tales aplicaciones deberían racionalizar las llamadas, minimizar las preguntas, eliminar iteraciones innecesarias y permitir elaborar "diálogos de iniciativa mixta", que permite a los usuarios introducir varias piezas de información en una simple declaración y en cualquier orden o combinación. En pocas palabras, las aplicaciones de reconocimiento de habla tienen que estar construidas cuidadosamente para los procesos de negocios específicos que se van a automatizar.
No todos los procesos de negocio se desenvuelven igualmente bien con la automatización basado en el habla. Generalmente, cuanto más complejas sean las transacciones, más complicado serán de automatizar y más fallará con el público general. En algunos escenarios, la automatización no se puede aplicar así que la asistencia personal es la única opción. Por ejemplo, una línea de asesoramiento jurídico sería muy complicado de automatizar. Por otro lado, es IVU es perfecto para manejar transacciones y rutinas de forma rápida, como cambiar el estado de un trabajo o transferir dinero entre cuentas bancarias.
Dispositivos de bolsillo como PDAs o teléfonos móviles, tienen pequeños botones para entrado de datos. Estos están en el dispositivo o forman parte de una interfaz de pantalla táctil como los dispositivos de Apple iPod Touch y iPhone. La pulsación de botones tan pequeños puede ser tediosa y poco precisa. Una IVU fiable, precisa y fácil de usar puede suponer un gran avance en este caso. En otras situaciones como en portátiles o en ordenadores de escritorio se resolverían muchos problemas relacionados con el teclado y el ratón, incluyendo lesiones como el síndrome del túnel carpiano o poca velocidad de mecanografiado por parte de usuarios sin experiencia.
Tales desarrollos pueden cambiar literalmente la imagen de las máquinas actuales y tendrían implicaciones importantes sobre cómo los usuarios interactúan con ellas. Los dispositivos de mano se diseñarían con pantallas más grandes y fáciles de usar ya que no requerirían teclado. Las pantallas táctiles no necesitarían dividir la pantalla entre el contenido y un teclado en pantalla, proporcionando una visión del contenido en pantalla completa. Los ordenadores portátiles podrían disminuir su tamaño ya que el teclado se eliminaría y los componentes internos se integrarían tras la pantalla, dando como resultado un simple Tablet PC. Los ordenadores de escritorio consistirían en una pantalla y una CPU, ahorrando el espacio que ocuparía un teclado, eliminando las bandejas que se encuentran bajo los escritorios. Podrían eliminarse también los mandos a distancia de los televisores y los teclados de muchos dispositivos, desde microondas hasta fotocopiadoras.
Hay muchos retos que hay que solventar para que tales desarrollos ocurran. Primero, la IVU debería ser lo suficientemente sofisticada para distinguir entre órdenes y conversaciones de fondo. De lo contrario, una falsa orden podría desencadenar un error. Una entrada de comandos estándar, como el famoso "¡Ordenador!" utilizada por personajes de programas de TV de ciencia ficción como Star Trek, podría activar la IVU y prepararla para recibir comandos. Además, la IVU podría incluir representación de estilo humano: una voz que responda y continúe la comunicación con el usuario que da las órdenes para indicar que ha recibido una orden correctamente.
Además, la IVU necesitaría un software altamente sofisticado para procesar de forma precisa y buscar/obtener la información necesaria para llevar a cabo una acción sobre la base de las preferencias de un usuario particular. Por ejemplo, si Samanta prefiere información de un periódico particular, y prefiere que esa información se devuelva en algún orden, podría decir "Ordenador, encuentra información sobre las inundaciones de China de la pasada noche". En respuesta, la IVU que está familiarizada con sus preferencias podría "buscar" hechos sobre "inundaciones en China", ordenarla y mostrarlo en pantalla o de forma hablada. Así que se necesitaría un reconocimiento del habla preciso, junto con algún grado de inteligencia artificial por parte de la máquina asociada a la IVU.