AI/Data Technology Map

AI Shift｜AI Messenger Voicebot

AI Worker VoiceAgentは企業における電話業務の自動化を実現するプロダクトです。
音声認識・言語理解・対話戦略・音声合成を組み合わせた電話音声自動応答サービスで、予約業務や夜間受付、あふれ呼応答など様々なシーンや多くの業種で利用されています。
自然言語処理や音声処理、LLMなどの技術を用いて柔軟かつ頑健なタスク指向対話の実現を目指しています。自然言語処理や音声処理などの技術を用いて柔軟かつ頑健で、ストレスフリーなタスク指向対話の実現を目指しています。

Member

ML Engineer : CX向上のためにデータ分析、技術選定、研究開発、産学連携などを担当。
Software Engineer : VoiceAgentのアプリケーション、管理画面の開発を行う。
Customer Sucess : 既存顧客の成果最大化に責任を持つ。
Designer : シナリオの設計、運用、コミュニケーション設計を担当。

使用している主な技術

自然言語処理, 音声言語理解、音声認識, 音声合成, タスク指向対話, GKE, BigQuery, Firestore, LLM, golang, Typescript, React, Vite, twilio, Python

生成AI

Voicebotの要素技術

解決したい課題/ ユースケース

VoiceAgentは音声認識・対話戦略・音声合成の技術を組み合わせた音声対話システムです。”音声認識”では、ユーザーの話した言葉をテキスト情報に変換し、対話戦略への入力として使用します。また、ユーザーが話している区間を判定する発話区間検出および終話判定や、ターンの制御を行うターンテイキングを行います。”対話戦略”ではユーザーが話した言葉を元に意図理解を行い、VoiceAgentが返す応答文の内容を決定します。ユーザの状況に応じてVoiceAgentがどのように伝えるかが対話全体の成功率(タスク完了率)に大きく影響を与えることが実験的にわかっています。現在は従来型のシナリオベースではなくAgent(LLM)に自律的に対話行動を行うための研究開発を行っています。”音声合成”では応答文のテキストを音声に変換します。音声合成ではイントネーションの制御、話す速度,高低,大小の制御を行います。音声合成の質が会話開始率の向上に寄与することもA/Bテストによりわかっています。

生成AI

音声認識と意図理解

解決したい課題/ ユースケース

Voicebotが扱う「タスク指向対話」で最も重要になるのが、ユーザの話した内容を理解することです。Voicebotが予約したい場所を尋ねた際に、ユーザーが「豊洲です」という発話をした際に、Voicebotは {“”場所””: “”豊洲 “”}という内容でエンティティの抽出を行う必要があります。
通常このエンティティの理解を行うためには、音声認識 (Automatic Speech Recognition; ASR)→エンティティ認識 (Named　Entity Recognition; NER)→エンティティ紐付け (Entity Linking; EL) の順で行いますが、このようなパイプライン処理では音声認識を誤ると後続の処理に大きな影響を与えます。この問題に対処するためには、音声信号からエンティティ紐付けまでの一連の処理を End-to-Endで行う方法や、音声認識の結果のテキストに加えて、音響的な特徴も後続の処理に使う方法、音声認識にシーンに合わせたモデルを適用するなどの方法があります。AI Shiftでは精度高く意図理解を行うための研究開発や産学連携を行っており、学会にも継続的にアウトプットをしています。