Er zijn steeds meer spraakgestuurde apparaten, zoals Apple HomePod, Google Home en Amazon Echo. Dit komt omdat spraakinterfaces de gebruikerservaring verbeteren. ComScore (een marketingonderzoeksbureau) gelooft zelfs dat spraak 50% van alle zoekopdrachten tegen 2020 zal uitvoeren.
De vijf grootste technologiebedrijven, Microsoft, Google, Amazon, Apple en Facebook, hebben spraakgestuurde AI-assistenten ontwikkeld (of ontwikkelen deze momenteel).
Of we het nu hebben over VUI (Voice User Interfaces) voor webapplicaties of smart home speakers, spraakinteracties komen steeds vaker voor in de hedendaagse technologie, vooral omdat veel mensen vermoeidheid ervaren doordat ze vele uren voor een scherm staan.
Laten we dus kijken hoe spraakgebruikersinterfaces kunnen worden ontworpen en welke anatomische spraakopdrachten moeten hebben.
Als u online recensies van luidsprekers voor thuis leest, zult u merken dat sommige mensen een nauwe band met hun spreker vormen op een manier die meer op een huisdier dan op een product lijkt.
U kunt zeker niet aan alle verwachtingen van de klant voldoen met programma's die nog in volle gang zijn, maar u kunt enkele richtlijnen als uitgangspunt volgen.
Een grafische gebruikersinterface toont gebruikers alles wat ze kunnen doen. Een spraakinterface kan de gebruiker niet laten zien welke opties mogelijk zijn en nieuwe gebruikers baseren hun verwachtingen op hun ervaring met menselijke gesprekken.
Daarom kunnen ze beginnen met het vragen om iets dat voor het systeem niet logisch is of dat niet mogelijk is. De oplossing hiervoor is om de gebruikersinteractie-opties aan te bieden.
De spraakinterface kan bijvoorbeeld iets zeggen als "Ik kan u helpen kopen" of "Ik kan u informatie over producten geven".
Gebruikers moeten in elk geval ook een gemakkelijke uitweg krijgen voor een functie, inclusief 'exit' als een van hun opties.
In de grafische interfaces kunnen gebruikers zien in welke sectie ze zich bevinden, terwijl gebruikers in de spraakgebruikersinterface moeten weten welke functionaliteit ze gebruiken.
Gebruikers kunnen snel in de war raken over waar ze in het gesprek zijn of kunnen per ongeluk functionaliteit activeren, daarom hebben ze zonder meer begeleiding dan de auditieve meer details nodig.
De interface moet een vraag over een product beantwoorden met een hele zin als "De auto van merk X en model X kost $ 20.000 en heeft een garantie van 2 jaar."
Hierdoor kunnen gebruikers weten welke functionaliteit ze gebruiken en waar de spreker over spreekt.
Wanneer mensen spreken, drukken ze vaak niet hun volledige bedoelingen uit, vaak omdat ze jargon, muffins gebruiken, woorden verkorten, enz.
Onder mensen begrijpen we elkaar, maar steminterfaces hebben de mens nodig om zichzelf correct uit te drukken om zijn bedoelingen te begrijpen.
Hoe meer informatie over hun bedoelingen een gebruiker in een zin bevat, hoe beter.
Een gebruiker kan vragen: "Geef me alsjeblieft informatie over de beschikbare auto's, de prijs van het X-model" en ontvang meteen de informatie die ze willen, in plaats van eerst te zeggen: "Ik wil informatie over de beschikbare auto's" en dan om het model te vragen .
Gebruikers realiseren zich deze manier van werken mogelijk niet, dus u moet zoveel mogelijk voorbeelden van interacties gebruiken.
Wanneer gebruikers door visuele inhoud of lijsten bladeren, kunnen ze terugkeren naar de informatie die ze over het hoofd hebben gezien of vergeten.
Dat is niet het geval met verbale inhoud. Bij verbale inhoud moeten zinnen kort worden gehouden.
Het wordt aanbevolen om meer dan drie verschillende opties te gebruiken voor een interactie.
Gebruik een vorm van eenvoudige feedback zodat de gebruiker weet dat het systeem luistert.
U moet wat visuele informatie gebruiken zodat gebruikers weten dat de spraakgebruikersinterface luistert, de gebruiker onmiddellijk kan zien dat wat hij zegt wordt opgenomen (vergelijkbaar met wanneer we met andere mensen praten en door non-verbale communicatie kunt u zien dat ze luisteren ).
Voordat een stroom van dialoog kan worden gecreƫerd, moeten ontwerpers eerst de anatomie van een spraakopdracht begrijpen. Het spraakcommando van een gebruiker bestaat uit drie sleutelfactoren: intentie, verklaring en spatie. Laten we het volgende verzoek analyseren: "Speel ontspannende muziek om te slapen".
Intentie vertegenwoordigt het bredere doel van de spraakopdracht van een gebruiker. In het voorbeeldverzoek is de bedoeling duidelijk, de gebruiker wil naar muziek luisteren.
Hoe de gebruiker de opdracht formuleert, dat wil zeggen de instructie. In het gebruikte voorbeeld weten we dat de gebruiker ontspannende muziek wil spelen dankzij het woord 'spelen', maar dit is niet de enige manier om het te zeggen. De gebruiker kan ook zeggen: "Ik wil naar muziek luisteren".
Conversatieontwerpers moeten rekening houden met alle variaties van de uitdrukking.
Soms is een intentie alleen niet voldoende en is meer gebruikersinformatie vereist om aan het verzoek te voldoen.
Dit wordt een "context" genoemd en deze kunnen, net als in visuele interfaces, optioneel of vereist zijn om een toepassing te voltooien.
In dit geval kan het woord "ontspannen" de context "muziek afspelen" gebruiken om te weten dat u een verzoek indient om ontspannende muziek te spelen.
Om uitstekende spraakgebruikersinterfaces te ontwerpen, moet u een elegante manier vinden om gebruikers relevante informatie te bieden zonder ze te overweldigen.
Stemgebruikerinteractie kan in sommige aspecten meer uitdagingen opleveren dan een visueel systeem, maar er bestaat geen twijfel over dat het een manier van interactie is die in toenemende mate zal worden gebruikt.