Det finns fler och fler röststyrda enheter som Apple HomePod, Google Home och Amazon Echo. Detta beror på att röstgränssnitt förbättrar användarupplevelsen, comScore (ett marknadsföringsföretag) tror faktiskt att röst kommer att utföra 50% av alla sökningar till 2020.
De fem största teknikföretagen, Microsoft, Google, Amazon, Apple och Facebook, har utvecklat (eller utvecklar för närvarande) röstaktiverade AI-assistenter.
Oavsett om vi talar om VUI (Voice User Interfaces) för webbapplikationer eller smarta hemhögtalare, är röstinteraktioner allt vanligare i dagens teknik, särskilt eftersom många människor upplever trötthet från att vara många timmar framför en skärm.
Så låt oss se hur man utformar röstanvändargränssnitt och vilka anatomi röstkommandon bör ha.
Om du läser recensioner på hemmaplan på nätet kommer du att märka att vissa människor bildar en nära länk till sin högtalare på ett sätt som ser mer ut som ett husdjur än en produkt.
Du kan verkligen inte uppfylla alla kundernas förväntningar med program som fortfarande pågår, men du kan följa några riktlinjer som utgångspunkt.
Ett grafiskt användargränssnitt visar användarna allt de kan göra. Ett röstgränssnitt har inget sätt att visa användaren vilka alternativ som är möjliga, och nya användare baserar sina förväntningar på sin upplevelse med mänskliga samtal.
Därför kan de börja med att be om något som inte är vettigt för systemet eller som inte är möjligt. Lösningen på detta är att erbjuda interaktionsalternativ för användare.
Röstgränssnittet kan till exempel säga något som "Jag kan hjälpa dig att köpa" eller "Jag kan ge dig information om produkter".
I alla fall bör användare också ha en enkel väg ut ur en funktion, inklusive "exit" som ett av deras alternativ.
I de grafiska gränssnitten kan användarna se i vilket avsnitt de är, medan de i röstanvändargränssnitten måste användare veta vilken funktionalitet de använder.
Användare kan snabbt bli förvirrade över var de befinner sig i konversationen eller kan aktivera funktionalitet av misstag, därför behöver de utan mer vägledning än hörseln mer information.
Gränssnittet måste svara på en fråga om en produkt med en hel fras som "Bilen till märket X och modell X är priset till 20 000 dollar och garanteras i två år."
Detta låter användare veta vilken funktionalitet de använder och vad talaren talar om.
När människor talar uttrycker de ofta inte sina fulla avsikter, många gånger för att de använder slang, muffins, förkortar ord etc.
Bland människor förstår vi varandra, men röstgränssnitt behöver människan för att uttrycka sig korrekt för att förstå sina avsikter.
Ju mer information om deras avsikter inkluderar en användare i en mening, desto bättre.
En användare kan fråga: "Ge mig information om tillgängliga bilar, priset på X-modellen snälla" och få informationen de vill ha omedelbart, istället för att säga först: "Jag vill ha information om tillgängliga bilar" och sedan be om modellen .
Användare kanske inte inser det här sättet att använda, så du bör använda så många exempel på interaktioner som möjligt.
När användare bläddrar i visuellt innehåll eller listor kan de återgå till den information de har förbises eller glömt.
Det är inte fallet med verbalt innehåll. Med verbalt innehåll bör meningarna hållas korta.
Det rekommenderas att mer än tre olika alternativ används för en interaktion.
Använd någon form av enkel feedback så att användaren vet att systemet lyssnar.
Du bör använda viss visuell information så att användare vet att röstanvändargränssnittet lyssnar, användaren kan omedelbart se att det han säger spelas in (liknande när vi pratar med andra människor och genom icke-verbal kommunikation kan du se att de lyssnar ).
Innan ett flöde av dialog kan skapas, måste designers först förstå anatomin för ett röstkommando. En användares röstkommando består av tre viktiga faktorer: avsikt, deklaration och utrymme. Låt oss analysera följande begäran: "Spela avslappnande musik att sova".
Avsikt representerar det bredare målet för en användares röstkommando. I exempelförfrågan är avsikten klar, användaren vill lyssna på musik.
Hur användaren formulerar kommandot, det vill säga uttalandet. I exemplet som används vet vi att användaren vill spela avslappnande musik tack vare ordet "spela", men detta är inte det enda sättet att säga det. Användaren kan också säga "Jag vill lyssna på musik".
Konversationsdesigners måste ta hänsyn till alla variationer av uttrycket.
Ibland räcker inte en avsikt ensam och mer användarinformation krävs för att uppfylla begäran.
Detta kallas ett "sammanhang" och dessa, som i visuella gränssnitt, kan vara valfria eller krävs för att slutföra en applikation.
I det här fallet kan ordet "avkopplande" använda sammanhanget "spela musik" för att veta att du begär att spela avkopplande musik.
För att utforma utmärkta röstanvändargränssnitt måste du hitta ett elegant sätt att ge användarna relevant information utan att överväldiga dem.
Röstanvändarinteraktion kan innebära fler utmaningar i vissa aspekter än ett visuellt system, men det råder ingen tvekan om att det är ett interaktionssätt som kommer att användas allt mer.