Meet Musio

音声対話システム?!

論文を引用して、音声対話システムについてご説明します!

 

この論文では、音声言語システムや対話型エージェントとして知られている

音声対話システムの基本構造について説明します。

これらのシステムは自動電話システムで飛行機の便を予約したり、

スポーツや天気などについて自然に会話できるような典型的なプログラムシステムです。

これらのシステムの研究は、我々人間の会話や対話と深く関係しています。

 

効率的で自然な且つタスク成功率の高い音声対話システムを構築するためには

達成しなければならないことがいくつかあります。

それは自動音声認識 (ASR)、自然言語理解(NLU)、対話管理、自然言語生成、

そして音声合成の5つの要素が考慮されます。

ASRはユーザー入力から解釈し、それをプログラムされた言語モデルに従って応答を形成します。

一般的に意味論上の文法に依拠するNLUは、会話の話題に関して解析された情報を含む

音声対話システムの一部です。

入力に応答する方法を検討する際に、対話管理は基本的に会話の構造を決定します。

自然言語生成はユーザー入力を計量し、会話の適切性を維持するために

独自の応答と一緒にこれらを大切にすることにより、応答を形成します。

最後に、音声合成は関連する音声に変換し、ユーザーに対して音声で応答します。

 

この5つの要素は比較的簡単と思われる一方で、人間の音声や会話にはもっと複雑な様々な要因があります。

この様々な要因に対処するために、いくつかの異なる対話管理のモデルがつくられます。

有限状態やフレームベースマネージャーは決まったタスクでは稼働しますが、

前述した自動電話システムのような他のタスクではうまくはいきません。

また、特定のモデルは単離された会話ではうまく機能するかもしれませんが、

会話が複雑になるにつれて、効果的に人間と機械の自然な会話を生成するために

そのようなモデルやアーキテクチャを実装しなければなりません。

 

最終的には、会話のとぎれ、含み、根拠、韻律などの人間の会話のニュアンスは

より効果的に音声対話システムに統合される必要があります。

 

 

引用

Jurafsky、ダニエル、そしてジェームズ・H.マーティン。第19章対話と会話エージェント。

音声言語処理:自然言語処理、計算言語学、および音声認識の紹介。

アッパーサドルリバー、ニュージャージー州:プレンティスホール、2009年印刷。

コメントを残す