Hvordan designe stemmebrukergrensesnitt

Det er flere og flere talestyrte enheter, som Apple HomePod, Google Home og Amazon Echo. Dette er fordi stemmegrensesnitt forbedrer brukeropplevelsen, faktisk mener comScore (et markedsundersøkelsesfirma) at tale vil utføre 50% av alle søk innen 2020.

De fem største teknologiselskapene, Microsoft, Google, Amazon, Apple og Facebook, har utviklet (eller utvikler for tiden) stemmeaktiverte AI-assistenter.

Enten vi snakker om VUI (Voice User Interfaces) for nettapplikasjoner eller smarthøyttalere, er stemmesamhandling stadig oftere i dagens teknologi, spesielt siden mange mennesker opplever tretthet fra å være mange timer foran en skjerm.

Så la oss se hvordan du designer stemmebrukergrensesnitt og hvilke anatomi stemmekommandoer som skal ha.

Hvordan designe stemmegrensesnitt

Hvis du leser anmeldelser på nettet av hjemmehøyttalere, vil du legge merke til at noen mennesker danner en nær kobling med høyttaleren på en måte som ligner mer på et kjæledyr enn et produkt.

Du kan absolutt ikke oppfylle alle kundens forventninger med programmer som fremdeles er i full gang, men du kan følge noen retningslinjer som utgangspunkt.

Gi brukerne informasjon om hva de kan gjøre

Et grafisk brukergrensesnitt viser brukerne alt de kan gjøre. Et stemmegrensesnitt har ingen måte å vise brukeren hvilke alternativer som er mulige, og nye brukere baserer sine forventninger på deres opplevelse med menneskelige samtaler.

Derfor kan de starte med å be om noe som ikke gir mening for systemet eller som ikke er mulig. Løsningen på dette er å tilby interaksjon for brukerne.

For eksempel kan stemmegrensesnittet si noe som "Jeg kan hjelpe deg med å kjøpe" eller "Jeg kan gi deg informasjon om produkter".

I alle fall bør brukerne også få en enkel vei ut av en funksjon, inkludert 'exit' som et av alternativene.

Lever svar med fullstendig informasjon

I de grafiske grensesnittene kan brukerne se i hvilken seksjon de er, mens brukerne i stemmebrukergrensesnittene må brukerne vite hvilken funksjonalitet de bruker.

Brukere kan fort bli forvirret over hvor de er i samtalen eller kan aktivere funksjonalitet ved en feiltakelse, derfor trenger de uten mer veiledning enn det auditive mer detaljer.

Grensesnittet må svare på et spørsmål om et produkt med en hel setning som "Bilen til merke X og modell X er priset til 20 000 dollar, og er garantert i 2 år."

Dette lar brukerne vite hvilken funksjonalitet de bruker, og hva høyttaleren snakker om.

Bruk så mange eksempler du kan

Når folk snakker, uttrykker de ofte ikke sine fulle intensjoner, mange ganger fordi de bruker slang, muffins, forkorte ord osv.

Blant mennesker forstår vi hverandre, men stemmegrensesnitt trenger mennesket til å uttrykke seg riktig for å forstå intensjonene sine.

I tillegg, jo mer informasjon om intensjonene deres inkluderer en bruker i en setning, jo bedre.

En bruker kan spørre: "Gi meg informasjon om tilgjengelige biler, prisen på X-modellen, vær snill" og få informasjonen de ønsker umiddelbart, i stedet for å si først: "Jeg vil ha informasjon om tilgjengelige biler" og deretter be om modellen .

Brukere er ikke klar over denne måten å operere på, så du bør bruke så mange eksempler på interaksjoner som mulig.

Begrens antall opsjoner

Når brukere blar gjennom visuelt innhold eller lister, kan de gå tilbake til informasjonen de oversett eller glemte.

Det er ikke tilfelle med verbalt innhold. Med verbalt innhold bør setninger holdes korte.

Det anbefales at mer enn tre forskjellige alternativer brukes for en interaksjon.

Informer brukeren om at du lytter

Bruk en form for enkel tilbakemelding slik at brukeren vet at systemet lytter.

Du bør bruke visuell informasjon slik at brukerne vet at stemmebrukergrensesnittet lytter, brukeren kan umiddelbart se at det han sier blir spilt inn (ligner på når vi snakker med andre mennesker og ved ikke-verbal kommunikasjon kan du se at de lytter ).

Anatomi av stemmekommandoer

Før en flyt av dialog kan opprettes, må designere først forstå anatomien til en stemmekommando. En brukers stemmekommando består av tre viktige faktorer: intensjon, erklæring og plass. La oss analysere følgende forespørsel: "Spill avslappende musikk for å sove".

Intensjon

Intensjon representerer det bredere målet med en brukers stemmekommando. I eksempelforespørselen er intensjonen klar, brukeren ønsker å høre på musikk.

Uttalelse

Hvordan brukeren formulerer kommandoen, det vil si utsagnet. I eksemplet som brukes vet vi at brukeren ønsker å spille avslappende musikk takket være ordet "play", men dette er ikke den eneste måten å si det på. Brukeren kan også si "Jeg vil høre på musikk".

Samtaledesignere må ta hensyn til alle varianter av uttrykket.

Kontekst

Noen ganger er ikke en intensjon alene nok, og det kreves mer brukerinformasjon for å oppfylle forespørselen.

Dette kalles en "kontekst", og disse, som i visuelle grensesnitt, kan være valgfrie eller påkrevd for å fullføre en applikasjon.

I dette tilfellet kan ordet "avslappende" bruke konteksten "spille musikk" for å vite at du ber om å spille avslappende musikk.

For å designe gode brukergrensesnitt for stemmer, må du finne en elegant måte å gi brukerne relevant informasjon uten å overvelde dem.

Talebrukerinteraksjon kan by på flere utfordringer i noen aspekter enn et visuelt system, men det er ingen tvil om at det er en interaksjonsmåte som i økende grad blir brukt.