音声ユーザーインターフェイスの設計方法

Apple HomePod、Google Home、Amazon Echoなど、音声制御デバイスが増えています。これは、音声インターフェイスがユーザーエクスペリエンスを向上させるためです。実際、comScore(マーケティング調査会社)は、2020年までに音声がすべての検索の50%を実行すると考えています。

マイクロソフト、グーグル、アマゾン、アップル、フェイスブックの5大テクノロジー企業は、音声対応AIアシスタントを開発しています(または現在開発中です)。

WebアプリケーションまたはスマートホームスピーカーのVUI(音声ユーザーインターフェイス)について話しているかどうかにかかわらず、特に多くの人々が画面の前で何時間も疲れているため、音声対話は今日の技術でますます一般的になっています。

それでは、音声ユーザーインターフェイスの設計方法と、音声コマンドに必要な解剖学を見てみましょう。

音声インターフェースの設計方法

ホームスピーカーのオンラインレビューを読むと、製品よりもペットのように見える方法でスピーカーと密接なリンクを形成している人がいることに気付くでしょう。

まだ完全に進行中のプログラムですべての顧客の期待に応えることはできませんが、出発点としていくつかのガイドラインに従うことができます。

ユーザーにできることに関する情報を提供する

グラフィカルユーザーインターフェイスは、ユーザーにできることをすべて表示します。音声インターフェイスには、どのようなオプションが可能なのかをユーザーに示す方法がありません。また、新しいユーザーは、人間の会話の経験に期待を基づいています。

したがって、システムにとって意味をなさないものまたは不可能なものを要求することから始めることができます。これに対する解決策は、ユーザー操作オプションを提供することです。

たとえば、音声インターフェイスでは、「購入をサポートできます」または「製品に関する情報を提供できます」などのように発声できます。

いずれの場合でも、ユーザーは、オプションの1つとして「終了」を含む、機能から抜け出す簡単な方法を提供される必要があります。

完全な情報で回答を提供する

グラフィカルインターフェイスでは、ユーザーはどのセクションにいるかを確認できますが、音声ユーザーインターフェイスでは、使用している機能を知る必要があります。

ユーザーは会話中の場所についてすぐに混乱したり、誤って機能を有効にしたりする可能性があるため、聴覚よりも多くのガイダンスがなくても、詳細が必要になります。

インターフェースは、「ブランドXおよびモデルXの車の価格は20,000ドルで、2年間保証されています」などのフレーズ全体で製品に関する質問に答える必要があります。

これにより、ユーザーは使用している機能、およびスピーカーが話していることを知ることができます。

できるだけ多くの例を使用してください

人々は話すとき、スラング、マフィン、単語の短縮などを使用するため、多くの場合、完全な意図を表明しません。

人間の間ではお互いを理解していますが、音声インターフェースは人間が自分の意図を理解するために自分自身を正しく表現する必要があります。

さらに、ユーザーの意図に関する情報が多いほど、文章にユーザーが含まれるほど、より効果的です。

ユーザーは、「利用可能な車に関する情報、Xモデルの価格を教えてください」と尋ねると、最初に「利用可能な車に関する情報が必要です」と言ってからモデルを求めるのではなく、すぐに必要な情報を取得できます。

ユーザーはこの操作方法を理解していない可能性があるため、できるだけ多くの相互作用の例を使用する必要があります。

オプションの量を制限する

ユーザーが視覚的なコンテンツやリストを閲覧すると、見落としていたり忘れていた情報に戻ることができます。

口頭でのコンテンツの場合はそうではありません。言葉による内容では、文章を短くする必要があります。

対話には3つ以上の異なるオプションを使用することをお勧めします。

聞いていることをユーザーに通知します

システムがリッスンしていることをユーザーが認識できるように、何らかの形式の単純なフィードバックを使用します。

音声ユーザーインターフェイスがリッスンしていることをユーザーが知っているように、視覚情報を使用する必要があります。ユーザーは、自分の発言が録音されていることをすぐに見ることができます)。

音声コマンドの構造

対話の流れを作成する前に、設計者は最初に音声コマンドの構造を理解する必要があります。ユーザーの音声コマンドは、意図、宣言、スペースという3つの重要な要素で構成されています。次のリクエストを分析してみましょう。「リラックスして音楽を再生して眠る」。

意図

意図は、ユーザーの音声コマンドのより広い目的を表します。リクエストの例では、意図は明確であり、ユーザーは音楽を聴きたいと考えています。

ステートメント

ユーザーがコマンド、つまりステートメントを定式化する方法。使用した例では、「play」という言葉のおかげでユーザーがリラックスした音楽を再生したいことを知っていますが、これが唯一の言い方ではありません。ユーザーは「音楽を聴きたい」と言うこともできます。

会話の設計者は、表現のすべてのバリエーションを考慮する必要があります。

環境

意図だけでは不十分な場合があり、要求を満たすためにより多くのユーザー情報が必要になる場合があります。

これは「コンテキスト」と呼ばれます。これらは、ビジュアルインターフェイスの場合と同様に、オプションであるか、アプリケーションを完了するために必要な場合があります。

この場合、「リラックス」という言葉は、「音楽を再生する」というコンテキストを使用して、リラックスした音楽を再生するよう要求していることを知ることができます。

優れた音声ユーザーインターフェイスを設計するには、ユーザーを圧倒することなく関連情報を提供するエレガントな方法を見つける必要があります。

音声ユーザーインタラクションは、ビジュアルシステムよりもいくつかの側面でより多くの課題をもたらす可能性がありますが、ますます使用されるインタラクションのモードであることは間違いありません。

もっと知りたいですか?

詳細情報を入手する