Der er flere og flere stemmestyrede enheder, såsom Apple HomePod, Google Home og Amazon Echo. Dette skyldes, at stemmegrænseflader forbedrer brugeroplevelsen, faktisk mener comScore (et marketingundersøgelsesfirma), at stemme vil udføre 50% af alle søgninger inden 2020.
De fem største teknologiselskaber, Microsoft, Google, Amazon, Apple og Facebook, har udviklet (eller udvikler i øjeblikket) stemmeaktiverede AI-assistenter.
Uanset om vi taler om VUI (Voice User Interfaces) til webapplikationer eller smart home-højttalere, er stemmesamspil mere og mere almindeligt i dagens teknologi, især da mange mennesker oplever træthed fra at være mange timer foran en skærm.
Så lad os se, hvordan man designer stemmebrugergrænseflader, og hvilke anatomi stemmekommandoer skal have.
Hvis du læser anmeldelser af hjemmehøjttalere online, vil du bemærke, at nogle mennesker danner et tæt link til deres højttaler på en måde, der ligner mere et kæledyr end et produkt.
Du kan bestemt ikke opfylde alle kundens forventninger med programmer, der stadig er i fuld gang, men du kan følge nogle retningslinjer som udgangspunkt.
En grafisk brugergrænseflade viser brugerne alt, hvad de kan gøre. En stemmegrænseflade har ingen måde at vise brugeren, hvilke muligheder der er mulige, og nye brugere baserer deres forventninger på deres oplevelse med menneskelige samtaler.
Derfor kan de starte med at bede om noget, der ikke giver mening for systemet, eller som ikke er muligt. Løsningen på dette er at tilbyde brugerinteraktion muligheder.
For eksempel kan taleinterfacet sige noget i retning af "Jeg kan hjælpe dig med at købe" eller "Jeg kan give dig information om produkter".
Under alle omstændigheder skal brugerne også have en nem vej ud af en funktion, herunder 'exit' som en af deres muligheder.
I de grafiske grænseflader kan brugerne se, i hvilket afsnit de er, mens brugerne i stemmebrugergrænsefladerne skal vide, hvilken funktionalitet de bruger.
Brugere kan hurtigt blive forvirrede over, hvor de er i samtalen, eller de kan aktivere funktionalitet ved en fejltagelse, og derfor har de uden mere vejledning end det auditive behov for flere detaljer.
Grænsefladen skal besvare et spørgsmål om et produkt med en hel sætning som "Bilen til mærke X og model X er prissat til $ 20.000 og er garanteret i 2 år."
Dette giver brugerne mulighed for at vide, hvilken funktionalitet de bruger, og hvad taleren taler om.
Når folk taler, udtrykker de ofte ikke deres fulde intentioner, mange gange fordi de bruger slang, muffins, forkorte ord osv.
Blandt mennesker forstår vi hinanden, men stemmegrænseflader har brug for, at mennesket skal udtrykke sig korrekt for at forstå sine intentioner.
Desuden, jo mere information om deres intentioner inkluderer en bruger i en sætning, jo bedre.
En bruger kan spørge: "Giv mig oplysninger om de tilgængelige biler, prisen på X-modellen, vær venlig" og få de oplysninger, de ønsker, med det samme, i stedet for først at sige: "Jeg vil have oplysninger om de tilgængelige biler" og derefter bede om modellen .
Brugere er ikke klar over denne måde at betjene på, så du skal bruge så mange eksempler på interaktion som muligt.
Når brugere gennemser visuelt indhold eller lister, kan de vende tilbage til de oplysninger, de overså eller glemte.
Det er ikke tilfældet med verbalt indhold. Med verbalt indhold skal sætninger holdes korte.
Det anbefales, at mere end tre forskellige indstillinger bruges til en interaktion.
Brug en form for enkel feedback, så brugeren ved, at systemet lytter.
Du skal bruge nogle visuelle oplysninger, så brugerne ved, at stemmebrugergrænsefladen lytter, brugeren straks kan se, at det, han siger, bliver optaget (svarer til når vi taler med andre mennesker, og ved ikke-verbal kommunikation kan du se, at de lytter ).
Inden der kan oprettes en strøm af dialog, skal designere først forstå anatomi af en stemmekommando. En brugers stemmekommando består af tre nøglefaktorer: intention, deklaration og plads. Lad os analysere følgende anmodning: "Spil afslappende musik i søvn".
Intention repræsenterer det bredere mål med en brugers stemmekommando. I eksemplet anmodning er intentionen klar, brugeren ønsker at lytte til musik.
Hvordan brugeren formulerer kommandoen, det vil sige udsagnet. I det anvendte eksempel ved vi, at brugeren ønsker at spille afslappende musik takket være ordet "play", men dette er ikke den eneste måde at sige det på. Brugeren kan også sige "Jeg vil lytte til musik".
Samtaledesignere skal tage hensyn til alle variationer af udtrykket.
Undertiden er en intention alene ikke nok, og der kræves flere brugeroplysninger for at imødekomme anmodningen.
Dette kaldes en "kontekst", og disse kan, som i visuelle grænseflader, være valgfri eller kræves for at afslutte en applikation.
I dette tilfælde kan ordet "afslappende" bruge konteksten "afspille musik" for at vide, at du anmoder om at afspille afslappende musik.
For at designe fremragende stemmebrugergrænseflader, skal du finde en elegant måde at give brugerne relevant information uden at overvælde dem.
Stemmebrugerinteraktion kan udgøre flere udfordringer i nogle aspekter end et visuelt system, men der er ingen tvivl om, at det er en interaktionstilstand, der i stigende grad vil blive brugt.