自動音声認識 (ASR) はかなり前から存在しているにもかかわらず、進歩し続けています。 1961 年に最初の ASR デバイスが誕生しました。 私たちの家がテクノロジーを通じてつながることができるようになったのはつい最近のことです。

Apple のアシスタントである Siri のおかげで、多くの人が自動サービス ロボットと何らかの個人的なやり取りを行ったことがあるでしょう。 IVR や一部のチャットボットを含む多くのカスタマー サービス ソリューションは、最新のコンタクト センターでその可能性を活用しています。

ASR はどのように機能し、その目的は何ですか?

  1. 自動音声認識の概要: それは何ですか?

自動音声認識の主な目的は、話された音声をテキストに変換することです。 「音声をテキストに変換」。 人間の音声を文字形式で読み取るか理解するかについて、可能な限り翻訳しようとします。 現時点では、Cortana や Siri などの仮想アシスタントが、このテクノロジーの最も広く使用されている形式の 1 つです。 ASR は、モバイル デバイスまたはホーム ハブを「Hey, Siri」コマンドでアクティブ化するときに機能するシステムです。

基本的な ASR フォームは音声録音の単純なテキスト トランスクリプトを生成しますが、より複雑なフォームは自然言語処理 (NLP) や感情分析などのテクノロジに依存して、より複雑なトランスクリプトを作成します。 NLP などの AI テクノロジーと組み合わせると、ASR は会話型 AI、つまり人間であるかのように通信できるマシンやシステムの重要なコンポーネントとして機能します。

私たちは人間と機械の会話を区別できない段階には達していないかもしれませんが、AI テクノロジーの急速な発展は、私たちがそこまで遠くないことを示しています。

  1. 現代のテクノロジーにおける ASR の役割は何ですか?

モバイル革命は、ASR を可能にし、望ましいものにする重要な発展の 1 つです。 当社の冷蔵庫、自動車、照明、ヒーター、その他の製品はすべて、音声テキスト変換機能の追加により技術的に進歩しています。

自動音声認識を可能にするために、Microsoft Azure は、そのような機能をアプリにシームレスに統合するためのツールとサービスを提供します。 ほとんどの人が Azure Cognitive Services が最高のクラウドベース サービスであると考える理由の 1 つは、それが提供する柔軟性です。

B2B の世界では、柔軟性と信頼性の高いパフォーマンスが必然的に生産性の向上につながります。

Speech to Text テクノロジーにはさまざまな導入方法があります。 例として:

メッセージング アプリ – テキスト メッセージは ASR によって音声録音から書き起こされます。

検索エンジン – ASR を使用して検索を実行できます。

車載システム – ASR は、ドライバーがナビゲーションやエンターテイメント システムをハンズフリーで操作できるようにすることで、ドライバーが道路に集中できるようにしながら安全性を向上させます。

仮想アシスタント – 仮想アシスタントを使用すると、話すだけで情報を検索したり、予定を立てたり、基本的なタスクを実行したりできます。

カスタマーサービスにもこのテクノロジーが使用されています。 このテクノロジーの現在の用途は次の 3 つです。

従来のキーパッド入力の代替として、IVR – ASR は発信者にさまざまな選択肢を提供します。 応答を音声化することで、ユーザーはプロンプトで画面上の特定の番号を押す必要がなくなります。

チャットボット – ほとんどのチャットボットはテキストを介してユーザーと通信しますが、一部には音声の側面が組み込まれています。 ASR がより普及するにつれて、チャットボットは音声ベースの対話を通じて顧客との関わりがますます増えていくでしょう。

音声分析 – AI テクノロジーのパフォーマンスを向上させるために音声録音をレビューする組織もあります。

  1. ASR をより深く理解するために ASR を詳しく見る

ASR が正確であるためには多くのハードルを克服する必要があるため、ASR がどのように機能するかを分析するときは、それらが何であるかを調べる必要があります。

5 つの異なる質問がこの情報を要約しています。

トランスクリプト – 何が議論されましたか?

講演者の特定 – 各講演者はいつ話しましたか?

講演者の認識 – 誰が何を言ったか?

話し言葉の理解 – 議論のテーマは何でしたか?

話し手の感情を分析する – 話し手はどう感じていますか? 彼はどのような感情を伝えようとしているのでしょうか?

ASR システムを確実に成功させるには、これらの質問すべてに対処する必要があるわけではないことに注意することが重要です。 機能が限られた ASR ツールは最初の質問にしか応答できませんが、高度な機能を備えたシステムは音声内の感情や意図を解釈できます。 ASR が回答できるこれらの質問の数が増加するにつれて、ASR の複雑さと機能は増加します。

  1. 機械が音声をどのように認識するかを分析する

コンピューターは単語を解釈する際に、いくつかの異なる方法を使用します。 言語の解釈は、解釈を構築するために使用する基本的な構成要素に基づいて異なります。

機械は、以下にリストされている構成要素のいずれかを使用して単語を解釈できます。

音素 – 言語の基本的な音の単位。 英語の 44 音素はそれぞれ、異なる音を生成します。

形態素 – 意味はあるが、意味を失わずにさらに分解することはできない単語の部分 (例: 不健康は、単語に「un」と「health」を追加することで作成されます)。

音声の一部 – 文法的なグループに基づいて音声の意味を解釈できます。 名詞、動詞、単数か複数かなどは、文中での役割に応じて考慮されます。

意味 – 単語は、その意味に基づいて機械によって解釈されます。 多くの単語には多面的な性質があり、文脈によって意味が変わる可能性があるため、これを行うのは困難です。

音素は言語の基本単位であり、ASR システムは音声言語を音素の組み合わせに基づいて単位に分割しようとします。

その仕組みは次のとおりです。

  • 録音ソフトウェアは、デバイスに向かって話すユーザーの声をキャプチャします。
  • Wave ファイルはオーディオ録音から作成されます。 その後、この Wave ファイルから不要なバックグラウンド ノイズが除去されます。
  • Wave ファイルは音素に従ってセグメント化されます。
  • 音素の連鎖の分析は ASR ソフトウェアによって行われます。 統計分析を使用して、特定の音素の組み合わせの確率を分析し、単語全体を決定します。
  • 統計分析は、転写された文、段落、およびテキストの重要な部分であり続けます。

Microsoft Azure による LUIS (Language Understanding) と呼ばれる人工知能サービスは、機械学習インテリジェンスを会話テキストに適用し、意味を予測し、テキストに基づいて詳細な情報を提供します。 LUIS は、カスタム ポータル、API、SDK クライアント ライブラリを通じて、そのサービスへのアクセスを提供します。

LUIS が提供するもの

簡略化: LUIS を使用すると、機械学習の知識や社内の AI 専門知識の要件が不要になります。 独自の会話型 AI アプリケーションの作成は、ボタンをいくつかクリックするだけで簡単に行えます。 クイックスタートを使用するか、事前に構築されたドメイン アプリを使用して、カスタム アプリケーションを構築できます。

安全、プライベート、コンプライアンス。: Azure インフラストラクチャのおかげで、LUIS はエンタープライズ グレードのコンプライアンス、セキュリティ、プライバシーを提供します。 すべてのデータはあなたのものであり、いつでも削除できます。 データがストレージに保存されるとき、データは暗号化されます。

組み込み: Microsoft Bot フレームワーク、QnA Maker、および Speech サービスを使用すると、LUIS アプリを他の Microsoft サービスと簡単に統合できます。

Azure Cognitive Services の一部である LUIS は、音声テキスト変換、テキスト音声変換、音声翻訳、音声アシスタント、話者認識などの多くの機能を提供します。

結論

AI は ASR の開発を驚くべきペースで加速しており、大量のデータを使って「自ら学習する」テクノロジーの能力を通じて、起業家にテクノロジーの無限の使用法を生み出すよう促しています。

ASR が最も恩恵を受ける分野の 1 つは顧客サービスです。 顧客サービスの品質に悪影響を与えることなくコストを削減できる Microsoft コグニティブ サービス テクノロジには、大きな需要があります。 この点で、ASR は、限られた予算で顧客サービスの向上を目指すコンタクト センターにとって非常に貴重なツールです。

Write A Comment