Existem cada vez mais dispositivos controlados por voz, como Apple HomePod, Google Home e Amazon Echo. Isso ocorre porque as interfaces de voz melhoram a experiência do usuário; na verdade, a comScore (uma empresa de pesquisa de marketing) acredita que a voz executará 50% de todas as pesquisas até 2020.
As cinco maiores empresas de tecnologia, Microsoft, Google, Amazon, Apple e Facebook, desenvolveram (ou estão atualmente desenvolvendo) assistentes de IA habilitados para voz.
Quer estejamos falando de VUI (Voice User Interfaces) para aplicativos da Web ou alto-falantes domésticos inteligentes, as interações por voz são cada vez mais comuns na tecnologia atual, especialmente porque muitas pessoas sentem fadiga por passar muitas horas na frente da tela.
Então, vamos ver como projetar interfaces de usuário de voz e quais comandos de voz de anatomia devem ter.
Se você ler resenhas on-line de alto-falantes domésticos, notará que algumas pessoas estabelecem um vínculo estreito com o alto-falante de uma maneira que parece mais um animal de estimação do que um produto.
Você certamente não pode atender a todas as expectativas dos clientes com programas que ainda estão em andamento, mas pode seguir algumas diretrizes como ponto de partida.
Uma interface gráfica do usuário mostra aos usuários tudo o que eles podem fazer. Uma interface de voz não tem como mostrar ao usuário quais opções são possíveis, e os novos usuários baseiam suas expectativas em sua experiência com conversas humanas.
Portanto, eles podem começar pedindo algo que não faz sentido para o sistema ou que não é possível. A solução para isso é oferecer opções de interação com o usuário.
Por exemplo, a interface de voz pode dizer algo como "Posso ajudá-lo a comprar" ou "Posso fornecer informações sobre produtos".
De qualquer forma, os usuários também devem ter uma saída fácil de um recurso, incluindo 'exit' como uma de suas opções.
Nas interfaces gráficas, os usuários podem ver em qual seção eles estão, enquanto nas interfaces de usuário de voz, os usuários devem saber que funcionalidade estão usando.
Os usuários podem rapidamente se confundir sobre o local da conversa ou ativar a funcionalidade por engano; portanto, sem mais orientações do que o auditivo, eles precisam de mais detalhes.
A interface deve responder a uma pergunta sobre um produto com uma frase inteira como "O carro da marca X e do modelo X custa US $ 20.000 e é garantido por 2 anos".
Isso permite que os usuários saibam que funcionalidade estão usando e sobre o que o palestrante está falando.
Quando as pessoas falam, muitas vezes não expressam suas intenções plenas, muitas vezes porque usam gírias, muffins, palavras encurtadas etc.
Entre os humanos, nos entendemos, mas as interfaces de voz precisam que o humano se expresse corretamente para entender suas intenções.
Além disso, quanto mais informações sobre suas intenções incluirem um usuário em uma frase, melhor.
Um usuário pode perguntar: "Dê-me informações sobre os carros disponíveis, o preço do modelo X, por favor" e obtenha as informações desejadas imediatamente, em vez de dizer primeiro: "Quero informações sobre os carros disponíveis" e, em seguida, solicitar o modelo .
Os usuários podem não perceber essa maneira de operar; portanto, você deve usar o maior número possível de interações.
Quando os usuários navegam no conteúdo visual ou nas listas, eles podem retornar às informações que ignoraram ou esqueceram.
Esse não é o caso do conteúdo verbal. Com conteúdo verbal, as frases devem ser curtas.
É recomendável que mais de três opções diferentes sejam usadas para uma interação.
Use alguma forma de feedback simples para que o usuário saiba que o sistema está ouvindo.
Você deve usar algumas informações visuais para que os usuários saibam que a interface do usuário de voz está ouvindo, o usuário pode ver imediatamente que o que está dizendo está sendo gravado (semelhante a quando conversamos com outras pessoas e pela comunicação não verbal, você pode ver que eles estão ouvindo )
Antes que um fluxo de diálogo possa ser criado, os designers devem primeiro entender a anatomia de um comando de voz. O comando de voz de um usuário consiste em três fatores principais: intenção, declaração e espaço. Vamos analisar a seguinte solicitação: "Tocar música relaxante para dormir".
Intenção representa o objetivo mais amplo do comando de voz de um usuário. No pedido de exemplo, a intenção é clara, o usuário deseja ouvir música.
Como o usuário formula o comando, ou seja, a instrução No exemplo usado, sabemos que o usuário deseja tocar música relaxante graças à palavra "play", mas essa não é a única maneira de dizê-la. O usuário também pode dizer "Quero ouvir música".
Os designers de conversas devem levar em consideração todas as variações da expressão.
Às vezes, apenas uma intenção não é suficiente e mais informações do usuário são necessárias para atender à solicitação.
Isso é chamado de "contexto" e estes, como nas interfaces visuais, podem ser opcionais ou necessários para concluir um aplicativo.
Nesse caso, a palavra "relaxante" pode usar o contexto "tocar música" para saber que você está solicitando a reprodução de música relaxante.
Para projetar excelentes interfaces de usuário de voz, você deve encontrar uma maneira elegante de fornecer aos usuários informações relevantes sem sobrecarregá-los.
A interação do usuário por voz pode representar mais desafios em alguns aspectos do que um sistema visual; no entanto, não há dúvida de que é um modo de interação que será cada vez mais utilizado.