Es gibt immer mehr sprachgesteuerte Geräte wie Apple HomePod, Google Home und Amazon Echo. Dies liegt daran, dass Sprachschnittstellen die Benutzererfahrung verbessern. ComScore (ein Marktforschungsunternehmen) geht davon aus, dass Sprache bis 2020 50% aller Suchvorgänge ausführen wird.
Die fünf größten Technologieunternehmen, Microsoft, Google, Amazon, Apple und Facebook, haben sprachgesteuerte KI-Assistenten entwickelt (oder entwickeln sie derzeit).
Unabhängig davon, ob es sich um VUI (Voice User Interfaces) für Webanwendungen oder Smart-Home-Lautsprecher handelt, werden Sprachinteraktionen in der heutigen Technologie immer häufiger eingesetzt, zumal viele Menschen müde werden, wenn sie viele Stunden vor einem Bildschirm sitzen.
Schauen wir uns also an, wie Sprachbenutzeroberflächen entworfen werden und welche Anatomie-Sprachbefehle vorhanden sein sollten.
Wenn Sie Online-Bewertungen von Heimlautsprechern lesen, werden Sie feststellen, dass einige Personen eine enge Verbindung zu ihrem Lautsprecher herstellen, die eher einem Haustier als einem Produkt ähnelt.
Sie können sicherlich nicht alle Kundenerwartungen mit Programmen erfüllen, die noch in vollem Gange sind, aber Sie können einige Richtlinien als Ausgangspunkt befolgen.
Eine grafische Benutzeroberfläche zeigt den Benutzern alles, was sie tun können. Eine Sprachschnittstelle kann dem Benutzer nicht zeigen, welche Optionen möglich sind, und neue Benutzer stützen ihre Erwartungen auf ihre Erfahrungen mit menschlichen Gesprächen.
Daher können sie zunächst nach etwas fragen, das für das System keinen Sinn ergibt oder das nicht möglich ist. Die Lösung hierfür besteht darin, den Benutzern Interaktionsoptionen anzubieten.
Auf der Sprachschnittstelle kann beispielsweise "Ich kann Ihnen beim Kauf helfen" oder "Ich kann Ihnen Informationen zu Produkten geben" angezeigt werden.
In jedem Fall sollte den Benutzern auch ein einfacher Ausweg aus einer Funktion geboten werden, einschließlich "Beenden" als eine ihrer Optionen.
In den grafischen Oberflächen können Benutzer sehen, in welchem Bereich sie sich befinden, während in den Sprachbenutzeroberflächen Benutzer wissen müssen, welche Funktionen sie verwenden.
Benutzer können schnell verwirrt sein, wo sie sich in der Konversation befinden, oder können versehentlich Funktionen aktivieren. Daher benötigen sie ohne weitere Anleitung als das Auditorium mehr Details.
Die Benutzeroberfläche muss eine Frage zu einem Produkt mit einem vollständigen Satz wie "Das Auto der Marke X und des Modells X kostet 20.000 US-Dollar und hat eine Garantie von 2 Jahren" beantworten.
Auf diese Weise können Benutzer wissen, welche Funktionen sie verwenden und worüber der Sprecher spricht.
Wenn Menschen sprechen, drücken sie oft nicht ihre vollen Absichten aus, oft weil sie Slang, Muffins, Kurzwörter usw. verwenden.
Unter Menschen verstehen wir uns, aber Sprachschnittstellen erfordern, dass sich der Mensch richtig ausdrückt, um seine Absichten zu verstehen.
Je mehr Informationen über ihre Absichten einen Benutzer in einen Satz aufnehmen, desto besser.
Ein Benutzer kann fragen: "Geben Sie mir Informationen über die verfügbaren Autos, bitte den Preis des X-Modells" und sofort die gewünschten Informationen erhalten, anstatt zuerst zu sagen: "Ich möchte Informationen über die verfügbaren Autos" und dann nach dem Modell zu fragen .
Benutzer erkennen diese Funktionsweise möglicherweise nicht. Daher sollten Sie so viele Beispiele für Interaktionen wie möglich verwenden.
Wenn Benutzer visuelle Inhalte oder Listen durchsuchen, können sie zu den Informationen zurückkehren, die sie übersehen oder vergessen haben.
Dies ist bei mündlichen Inhalten nicht der Fall. Bei verbalem Inhalt sollten Sätze kurz gehalten werden.
Es wird empfohlen, mehr als drei verschiedene Optionen für eine Interaktion zu verwenden.
Verwenden Sie eine Form von einfachem Feedback, damit der Benutzer weiß, dass das System zuhört.
Sie sollten einige visuelle Informationen verwenden, damit Benutzer wissen, dass die Sprachbenutzeroberfläche zuhört. Der Benutzer kann sofort sehen, dass das, was er sagt, aufgezeichnet wird (ähnlich wie wenn wir mit anderen Personen sprechen, und durch nonverbale Kommunikation können Sie sehen, dass sie zuhören ).
Bevor ein Dialogfluss erstellt werden kann, müssen Designer zunächst die Anatomie eines Sprachbefehls verstehen. Der Sprachbefehl eines Benutzers besteht aus drei Schlüsselfaktoren: Absicht, Deklaration und Leerzeichen. Lassen Sie uns die folgende Anfrage analysieren: "Spielen Sie entspannende Musik, um zu schlafen".
Absicht ist das umfassendere Ziel des Sprachbefehls eines Benutzers. In der Beispielanforderung ist die Absicht klar, der Benutzer möchte Musik hören.
Wie der Benutzer den Befehl formuliert, dh die Anweisung. Im verwendeten Beispiel wissen wir, dass der Benutzer dank des Wortes "Spielen" entspannende Musik spielen möchte, aber dies ist nicht die einzige Möglichkeit, dies zu sagen. Der Benutzer kann auch sagen "Ich möchte Musik hören".
Konversationsdesigner müssen alle Variationen des Ausdrucks berücksichtigen.
Manchmal reicht eine Absicht allein nicht aus und es sind mehr Benutzerinformationen erforderlich, um die Anforderung zu erfüllen.
Dies wird als "Kontext" bezeichnet, und diese können, wie bei visuellen Schnittstellen, optional sein oder zum Ausfüllen einer Anwendung erforderlich sein.
In diesem Fall könnte das Wort "entspannend" den Kontext "Musik abspielen" verwenden, um zu wissen, dass Sie anfordern, entspannende Musik abzuspielen.
Um hervorragende Sprachbenutzeroberflächen zu entwerfen, müssen Sie eine elegante Möglichkeit finden, Benutzern relevante Informationen bereitzustellen, ohne sie zu überfordern.
Die Interaktion mit Sprachbenutzern kann in einigen Aspekten mehr Herausforderungen darstellen als ein visuelles System. Es besteht jedoch kein Zweifel daran, dass es sich um einen Interaktionsmodus handelt, der zunehmend verwendet wird.