Esistono sempre più dispositivi a comando vocale, come Apple HomePod, Google Home e Amazon Echo. Questo perché le interfacce vocali migliorano l'esperienza dell'utente, infatti comScore (una società di ricerche di marketing) ritiene che la voce eseguirà il 50% di tutte le ricerche entro il 2020.
Le cinque più grandi aziende tecnologiche, Microsoft, Google, Amazon, Apple e Facebook, hanno sviluppato (o stanno attualmente sviluppando) assistenti AI con attivazione vocale.
Sia che stiamo parlando di VUI (Voice User Interfaces) per applicazioni Web o altoparlanti domestici intelligenti, le interazioni vocali sono sempre più comuni nella tecnologia di oggi, soprattutto perché molte persone sperimentano la fatica di essere molte ore davanti a uno schermo.
Quindi, vediamo come progettare le interfacce utente vocali e quali comandi vocali di anatomia dovrebbero avere.
Se leggi le recensioni online degli altoparlanti di casa, noterai che alcune persone formano uno stretto legame con il loro oratore in un modo che assomiglia più ad un animale domestico che a un prodotto.
Certamente non puoi soddisfare tutte le aspettative dei clienti con programmi che sono ancora in pieno progresso, ma puoi seguire alcune linee guida come punto di partenza.
Un'interfaccia utente grafica mostra agli utenti tutto ciò che possono fare. Un'interfaccia vocale non ha modo di mostrare all'utente quali opzioni sono possibili e i nuovi utenti basano le loro aspettative sulla loro esperienza con conversazioni umane.
Pertanto, possono iniziare chiedendo qualcosa che non ha senso per il sistema o che non è possibile. La soluzione a questo è quella di offrire all'utente opzioni di interazione.
Ad esempio, l'interfaccia vocale può dire qualcosa come "Posso aiutarti a comprare" o "Posso darti informazioni sui prodotti".
In ogni caso, agli utenti dovrebbe essere fornita anche una facile via d'uscita da una funzione, inclusa "uscita" come una delle loro opzioni.
Nelle interfacce grafiche gli utenti possono vedere in quale sezione si trovano, mentre nelle interfacce utente vocali, gli utenti devono sapere quale funzionalità stanno utilizzando.
Gli utenti possono rapidamente confondersi su dove si trovano nella conversazione o possono attivare la funzionalità per errore, quindi, senza più indicazioni di quelle uditive, hanno bisogno di maggiori dettagli.
L'interfaccia deve rispondere a una domanda su un prodotto con una frase intera come "L'auto del marchio X e del modello X ha un prezzo di $ 20.000 ed è garantita per 2 anni".
Ciò consente agli utenti di sapere quali funzionalità stanno utilizzando e di cosa parla l'altoparlante.
Quando le persone parlano, spesso non esprimono le loro piene intenzioni, molte volte perché usano gergo, muffin, abbreviazioni di parole, ecc.
Tra gli umani ci capiamo, ma le interfacce vocali hanno bisogno che l'umano si esprima correttamente per comprendere le sue intenzioni.
Inoltre, più informazioni sulle loro intenzioni includono un utente in una frase, meglio è.
Un utente può chiedere: "Dammi informazioni sulle auto disponibili, per favore il prezzo del modello X per favore" e ottenere immediatamente le informazioni che desiderano, invece di dire prima: "Voglio informazioni sulle auto disponibili" e quindi chiedere il modello .
Gli utenti potrebbero non rendersi conto di questo modo di operare, quindi è necessario utilizzare il maggior numero possibile di esempi di interazioni.
Quando gli utenti sfogliano contenuti o elenchi visivi, possono tornare alle informazioni trascurate o dimenticate.
Questo non è il caso del contenuto verbale. Con il contenuto verbale, le frasi dovrebbero essere brevi.
Si consiglia di utilizzare più di tre diverse opzioni per un'interazione.
Utilizzare una qualche forma di feedback semplice in modo che l'utente sappia che il sistema è in ascolto.
Dovresti usare alcune informazioni visive in modo che gli utenti sappiano che l'interfaccia utente vocale è in ascolto, l'utente può immediatamente vedere che ciò che sta dicendo è in fase di registrazione (simile a quando parliamo con altre persone e con la comunicazione non verbale puoi vedere che stanno ascoltando ).
Prima di poter creare un flusso di dialogo, i progettisti devono prima comprendere l'anatomia di un comando vocale. Il comando vocale di un utente è costituito da tre fattori chiave: intenzione, dichiarazione e spazio. Analizziamo la seguente richiesta: "Riproduci musica rilassante per dormire".
L'intenzione rappresenta l'obiettivo più ampio del comando vocale di un utente. Nella richiesta di esempio, l'intenzione è chiara, l'utente vuole ascoltare la musica.
Come l'utente formula il comando, ovvero l'istruzione. Nell'esempio utilizzato sappiamo che l'utente vuole riprodurre musica rilassante grazie alla parola "play", ma questo non è l'unico modo per dirlo. L'utente può anche dire "Voglio ascoltare la musica".
I progettisti di conversazioni devono tenere conto di tutte le varianti dell'espressione.
A volte, un'intenzione da sola non è sufficiente e sono necessarie ulteriori informazioni sull'utente per soddisfare la richiesta.
Questo è chiamato "contesto" e questi, come nelle interfacce visive, possono essere opzionali o necessari per completare un'applicazione.
In questo caso, la parola "relax" potrebbe usare il contesto "play music" per sapere che stai chiedendo di suonare musica rilassante.
Per progettare interfacce utente vocali eccellenti, è necessario trovare un modo elegante per fornire agli utenti informazioni pertinenti senza sopraffarle.
L'interazione vocale dell'utente può comportare più sfide in alcuni aspetti rispetto a un sistema visivo, tuttavia, non vi è dubbio che si tratta di una modalità di interazione che verrà sempre più utilizzata.