Cada vez hay más dispositivos controlados por voz, como Apple HomePod, Google Home y Amazon Echo. Esto debido a que las interfaces de voz mejoran la experiencia de usuario, de hecho, comScore (una compañía de investigación de marketing) cree que la voz impulsará el 50% de todas las búsquedas para 2020.
Las cinco mayores compañías de tecnología, Microsoft, Google, Amazon, Apple y Facebook, han desarrollado (o están desarrollando actualmente) asistentes de IA habilitados para voz.
Ya sea que estemos hablando de VUI (Interfaces de usuario de voz) para aplicaciones móviles o para parlantes domésticos inteligentes, las interacciones de voz son cada vez más comunes en la tecnología actual, especialmente porque muchas personas experimentan fatiga por estar muchas horas frente a una pantalla.
Así que a continuación veamos cómo diseñar interfaces de usuario de voz y cuál es la anatomía que deberían tener los comandos de voz.
Si lees las reseñas en línea de altavoces domésticos, te darás cuenta que algunas personas forman un vínculo cercano con su altavoz de una manera que se parece más a una mascota que a un producto.
Ciertamente no puedes cumplir todas las expectativas de los clientes con programas que todavía están en pleno desarrollo, pero sí puedes seguir algunas pautas inspiradas en las mejores prácticas de Amazon sobre cómo crear habilidades de interacción de voz para Alexa como punto de partida.
Una interfaz gráfica de usuario muestra a los usuarios todo lo que pueden hacer. Una interfaz de voz no tiene forma de mostrarle al usuario qué opciones son posibles, y los nuevos usuarios basan sus expectativas en su experiencia con las conversaciones humanas.
Por lo tanto, pueden comenzar pidiendo algo que no tiene sentido para el sistema o que no es posible. La solución a esto es ofrecer al usuario opciones de interacción.
Por ejemplo la interfaz por voz puede decir algo como "Puedo ayudarte a comprar" o "Puedo darte información sobre productos".
En cualquier caso, también se debe proporcionar a los usuarios una salida fácil de una funcionalidad, al incluir 'salir' como una de sus opciones.
En las interfaces gráficas los usuarios pueden ver en qué sección están, mientras que en las interfaces de usuario de voz, los usuarios deben saber qué funcionalidad están utilizando.
Los usuarios pueden confundirse rápidamente sobre dónde están en la conversación o pueden activar una funcionalidad por error, por lo tanto, sin más orientación que la auditiva, necesitan más detalles.
La interfaz debe responder a una pregunta sobre un producto con una frase entera como "El automóvil de marca X y modelo X tiene el precio de 20.000 dólares, y tiene una garantía de 2 años".
Esto les permite a los usuarios saber qué funcionalidad están usando, y sobre que está hablando el altavoz.
Cuando la gente habla, a menudo no expresan sus intenciones plenas, muchas veces porque usan jergas, muletillas, acortan palabras, etc.
Entre humanos nos entendemos, pero las interfaces de voz necesitan que el humano se exprese correctamente para entender sus intenciones.
Además, cuanta más información sobre sus intenciones incluya un usuario en una oración, mejor.
Un usuario puede preguntar: "Dame información sobre los autos disponibles, el precio del modelo X por favor" y obtener la información que quiere de inmediato, en lugar de decir primero: "Quiero información sobre los autos disponibles" y luego preguntar por el modelo que quiere.
Los usuarios pueden no darse cuenta de este modo de operar, por eso debes usar el máximo de ejemplos posibles de interacciones.
Cuando los usuarios navegan por contenido visual o listas, pueden volver a la información que pasaron por alto u olvidaron.
Ese no es el caso con el contenido verbal. Con el contenido verbal, las oraciones deben mantenerse breves.
Se recomienda que se usen más de tres opciones diferentes para una interacción.
Utiliza alguna forma de retroalimentación simple para que el usuario sepa que el sistema está escuchando.
Debes usar alguna información visual para que los usuarios sepan que la interfaz de usuario de voz está escuchando, el usuario puede ver de inmediato que lo que está diciendo está siendo registrado (de manera similar a cuando hablamos con otras personas y se puede ver por su comunicación no verbal que están escuchando).
Antes de que se pueda crear un flujo de diálogo, los diseñadores primero deben comprender la anatomía de un comando de voz. El comando de voz de un usuario consta de tres factores clave: intención, declaración y espacio. Analicemos la siguiente solicitud: "Reproduce música relajante para dormir".
La intención representa el objetivo más amplio del comando de voz de un usuario. En la solicitud de ejemplo, la intención es clara, el usuario quiere escuchar música.
Cómo el usuario formula el comando, es decir el enunciado. En el ejemplo utilizado sabemos que el usuario quiere reproducir música relajante gracias a la palabra “reproduce”, pero esta no es la única forma de decirlo. El usuario también puede decir “quiero escuchar música”.
Los diseñadores de la conversación deben tener en cuenta todas las variaciones de la expresión.
A veces, una intención por sí sola no es suficiente y se requiere más información del usuario para cumplir con la solicitud.
Se llama a esto un “contexto”, y estos, como en interfaces visuales, pueden ser opcionales o requeridos para completar una solicitud.
En este caso, la palabra “relajante” podría usar el contexto "reproducir música", para saber que se está solicitando reproducir música relajante.
Para diseñar excelentes interfaces de usuario de voz, debe encontrar una manera elegante de proporcionar a los usuarios información relevante sin abrumarlos.
La interacción del usuario de voz puede plantear más desafíos en algunos aspectos que un sistema visual, sin embargo, no caben dudas de que es un modo de interacción que cada vez será más utilizado.