業務効率UP!Google Cloud Speech-to-Text × GAS でIVRをスムーズに

目次
はじめに
業務中にかかってくる営業電話への対応は、業務効率を低下させる要因の一つです。
これを解決するために、以前の記事「電話対応から解放! Twilio × Slack で IVR(自動音声応答)システムを作ってみた」では、TwilioとSlackを活用したIVRシステムの構築について紹介しました。
本システムではGoogle Cloud Speech-to-Text を活用することで、音声データをテキストに変換し、内容の可視化や検索が可能になります。
また、Google Apps Script (GAS) を用いることで、各APIと連携し、音声認識のプロセスを自動化しています。
本記事では、以前のIVRシステムにおける Google Cloud Speech-to-Text の活用に焦点を当て、その仕組みや活用方法について詳しく解説します。
使用したシステム
データ管理・自動化
Google Apps Script (GAS) は、Googleの提供するJavaScriptベースのスクリプト環境で、Google Workspace(例: Gmail, スプレッドシート, ドライブ)の機能を拡張・自動化できます。
手軽にスクリプトを実行して業務効率化が可能で、ウェブアプリとしての公開も簡単です。
今回は、 スクリプトを使用してAPIリクエストやデータの管理を行います。
Google Driveは、Google が提供する クラウドストレージサービス です。
ファイルを オンラインで保存、共有、同期 でき、様々なデバイスからブラウザや専用アプリを通じてアクセス可能です。
今回は、 GASを使用して音声データの保存・管理を行います。
音声処理
Google Cloud Text-to-Speech は、Google Cloud が提供する 音声合成 サービスです。
テキストを入力すると、機械学習モデルを用いて自然な音声 に変換し、さまざまな用途で利用できます。
今回は、 IVRが音声で発信者に応答するために使用します。
Google Cloud Speech-to-Text は、Google Cloud が提供する 音声認識(自動文字起こし) サービスです。
音声データをテキストに変換でき、さまざまな用途に利用できます。
今回は、 GASを使用して取得した音声データをテキストに変換します。
通信・通知
Twilioは、開発者がアプリケーションに電話、SMS、ビデオ、チャットなどのコミュニケーション機能を組み込むためのAPIプラットフォームです。
処理フローを視覚的に組み立てることができ、少ないコードでシステム構築できる点が魅力です。
今回は、 電話の着信処理と音声データの取得を担当します。
Slackは、企業やチームがコミュニケーションを効率的に行うためのプラットフォームです。
弊社では以前からSlackを導入しており、社内の連絡事項共有や、社員同士のコミュニケーションに活用していました。
今回は、着信情報や音声認識結果を通知します。
システムの仕組み
おおまかな流れとしては、以下の6つのステップで構築しました。
①Google Cloud Text-to-Speechで生成したメッセージを再生
②発信者がTwilioに音声入力
③Google Driveにデータを保存
➃Google Cloud Speech-to-Textが音声をテキスト化
⑤Google Cloud Text-to-Speechが生成したメッセージを再生
⑥Slackに通知
①Google Cloud Text-to-Speechで生成したメッセージを再生
発信者が電話をかけると、Google Cloud Text-to-Speechを使用して生成した最初の案内メッセージをTwilioが再生します。
②発信者がTwilioに音声入力
発信者が要件を音声で伝えます。
録音ありの場合 :Twilioが音声データを録音し、③の処理へ進みます。
録音なしの場合 :⑥ の処理へ進みます。
③Google Driveにデータを保存
Google Driveに音声データを保存します。
Google Driveを採用した理由は以下の通りです。
- TwilioのURLから直接アクセスできるが、認証が必要
TwilioのURLから録音データにアクセスする際に認証が必要となるため手間がかかります。
音声データの文字起こし結果のみを通知する場合はGoogle Driveへの保存は必要ありませんが、録音データのURLも通知しているため、簡単にアクセスできる仕組みが求められます。
- Google Cloud Storageの従量課金制によるコストの考慮
Google Cloud Storageを利用すると利便性が向上しますが、従量課金制のため使用量によっては料金が膨らむ可能性があります。
一方で、Google Driveは比較的安価に運用できるため採用しました。
- GASとの親和性が高く、スクリプトから扱いやすい
GASは、Googleの各種サービスとスムーズに連携できます。
Google Cloud Storageは料金が膨らむ可能性も踏まえ、同じGoogleのサービスであるGoogle Driveを採用しました。
➃Google Cloud Speech-to-Textが音声をテキスト化
録音した音声データをAPIに送信し、テキストに変換します。
音声データをテキストに変換する部分のコードは以下のとおりです。

⑤Google Cloud Text-to-Speechが生成したメッセージを再生
Google Cloud Text-to-Speechを使用して生成したエンドメッセージをTwilioが再生します。
⑥Slackに通知
録音の有無にかかわらず、着信履歴をSlackに通知します。
録音ありの場合は、変換されたテキストと音声データも含めて通知します。


ちなみに、以前音声案内にはVOICEVOXという無料のテキスト読み上げソフトウェアを使用していました。
GoogleのAPIに統一するために、現在は Google Cloud Text-to-Speech を採用しています。
導入効果
Google Cloud Speech-to-Textを導入したことで、以下の効果が得られました。
業務効率の向上:営業電話の自動フィルタリングにより、不要な対応が削減されました。
情報の可視化:音声データがテキスト化されることで、内容の検索や分析が容易になり、どこにいても複数人で内容を把握できるようになりました。
迅速な対応:重要な電話に対して、迅速に適切な対応が可能となりました。

まとめ
Google Cloud Speech-to-Textを活用したIVRシステムの構築により、業務効率の改善に寄与しました。
今後も、さらなる機能追加や最適化を検討し、業務の効率化を推進してまいります。
弊社では、このようなシステム構築のご提案や導入支援を行っております。
ご興味のある方は、ぜひお気軽にお問い合わせください。