音声認識システムの仕組み・主要サービス5選

「音声認識システムはどんな仕組みなのだろう」、「音声認識システムを自社でも活用したいな」

そんな疑問や考えをお持ちではないですか？

音声認識は、音声アシスタントやスマートスピーカーといった日常生活での活用に加えて、ビジネス業界での活用も増加しています。理由として、近年進化してきているai技術を音声認識に活用することで、その精度が飛躍的に向上しているためです。

ビジネス業界に音声認識を活用することで、手作業でのミス軽減や時間の削減ができ、業務効率や生産性の向上が期待できます。

今回は、音声認識システムの概要や仕組み、実際に活用されているサービスを紹介します。

ぜひ最後までお読みください。

1. 音声認識システムとは
2. 音声認識システムの仕組み
3. 業界を支える「音声認識」の活用事例
4. まとめ
- - - 4.5.0.1. この記事の執筆・監修者

音声認識システムとは

音声認識システムとは、人間の音声をコンピューターに認識させ、テキストに変換するものです。人間の手による文字起こしを、コンピューターが自動で文字起こしするシステムとイメージすると分かりやすいでしょう。

音声認識システムの仕組み

音声認識システムは、

音響分析で音声をデジタル化
音響モデルで音素を抽出
パターンマッチで単語へ変換
言語モデルで文章化

という階層構造で処理するものです。

ここでは、それぞれの仕組みの概要とai技術の一つであるディープラーニングとの関わりを紹介します。

音響分析・音声のデジタル化

音響分析は、アナログ信号である音声データの音の周波数や時系列、音と音の間隔、強弱など特徴が数値化された特徴量を抽出して、コンピューターが認識できるように音声データをデジタル化する作業です。
この際、ノイズなどの不必要なデータも除去します。

音響モデル：音素を抽出

音響モデルは、音響分析で抽出した特徴量が、どの音素にどれだけ近いのかを抽出する作業です。時間の経過で変化する特徴量をモデル化した「隠れマルコフモデル」という手法がよく利用されます。

音素とは音声の最小単位で、言語によって異なりますが、日本語では母音（アイウエオ）や撥音（ン）、子音（23種類）の3つで構成されています。例えば「おはよう」と音声入力した場合、アルファベットの「O-H-A-Y-O-U」が音素になります。

しかし、「O-H-A-Y-O-U」ではアルファベットの羅列だけなので、日本語の「おはよう」に変換するには次のパターンマッチの処理が必要です。

パターンマッチ

パターンマッチは、音響モデルで抽出した音素を発音辞書とマッチングさせ、アルファベットの羅列だけだった音素を日本語に変換する作業です。発音辞書とは、音素と単語がセットで登録されたデータベースであり、先述の「O-H-A-Y-O-U」の音素の単語は「おはよう」と登録されています。

音素を先頭から当てはめていくと「O-H-A-Y-O-U」が一致し、対応する単語の「おはよう」と変換できるようになります。しかし、パターンマッチでは単語ごとでしか変換できませんので、文章の組み立てを行う場合は、次の言語モデルの処理が必要です。

言語モデル：文章の組み立て

言語モデルは、音響モデルで抽出した音素を、パターンマッチで単語として変換し、その単語同士をつなげて文章を組み立てる作業です。「おはよう」「きょうは」「あついですね」のような単語群を、可能性の高い組み合わせ例を利用して「おはよう。今日は暑いですね。」という文章に組み立てます。

言語モデルでは、文字列中にN個の文字または単語の組み合わせが、どの程度出現するかをモデル化した「N-gramモデル」という手法がよく利用されます。

ディープラーニングの取り入れ方

ai技術の一つであるディープラーニングを音声認識システムに取り入れることによって、その精度が飛躍的に向上しました。従来の音声認識システムでは統計データが利用されてきましたが、ディープラーニングを取り入れることにより、aiが大量のデータを予測や分析、処理をして、自ら学習することができるようになったためです。

最近では、従来の「DNN-HMMモデル」の音響モデルからパターンマッチ、言語モデルまでの3つのプロセスを、1つのニュートラルネットワークで処理する「End-to-Endモデル」も登場し、注目されています。

このように音声認識システムにディープラーニングを取り入れることにより、ai導入前よりも精度が向上し、ビジネス業界への活用も増加したのです。

業界を支える「音声認識」の活用事例

音声認識システムは、様々なビジネス業界での活用が増加しています。ここでは、5つの活用事例を紹介します。

コールセンター

コールセンターでは、従来、顧客との応対履歴をオペレーターが手入力していたため、後処理時間がかかり、入力ミスもありました。音声認識システムの活用により、顧客との会話内容がリアルタイムでテキスト化されるため、後処理時間が大幅に短縮されました。

その他、

オペレーターへの効率的な教育や指導、離職防止
クレーム対応の効率化
NGワード発言などのコンプライアンス違反対策の効率化
上司による通話内容モニタリングの効率化

などの効果が出ているそうです。

電子カルテ

医療現場では、電子カルテへの入力に音声認識システムが活用されています。パソコン操作に不慣れな医師でも話すだけで簡単に情報入力ができます。さらには、医療辞書が搭載された音声認識システムでは、これまで難しいとされていた医療用語の変換も可能です。

その他、紹介状などの文書作成や在宅医療といったパソコンでの電子カルテへの入力が困難な現場にも活用されています。

自動車製造ライン

自動車製造ラインでは、車両や部品の測定業務の際、測定するたびに作業台まで歩き、手書きでチェックシートに値を記入し、後から改めてパソコンにデータ入力していたため時間がかかり、入力ミスもありました。

音声認識システムの活用により、100ヶ所以上ある測定結果をハンズフリーで音声入力でき、車両とチェックシートの往復も無くなり、時間の削減だけでなく身体的負担も軽減されました。他にも、

視線を逸らすことなく音声入力可能なアイズフリー
検品時などの複数人での読み合わせ作業の廃止
作業手順やレベルの平準化

などの効果が出ているそうです。

議事録

議事録の作成では、従来、録音データを担当者が手入力で文字起こししていため、時間がかかり、聞き間違いなどのミスもありました。音声認識システムの活用により、会議などでの発言をリアルタイムでテキスト化されるため、担当者の負担が大幅に軽減されました。

コインパーキング

コインパーキングでは、現地で管理業務などを行い、帰社した後に報告書を作成していたため時間がかかり、残業増加の要因となっていました。音声認識システムの活用により、現地での作業後にスマートフォンを用いて社内システムに音声入力で報告し、帰社した後に報告書の内容を確認するだけで業務が完了するので残業の削減につながりました。

スマートフォン操作に不慣れでも、話すだけで作業報告ができます。

まとめ

今回は音声認識システムの概要や仕組み、実際に活用されているサービスを紹介しました。近年、ディープラーニングによって音声認識システムの精度は飛躍的に向上しました。

しかし、現状、

標準語以外の音声認識
複数人により音声の聞き分け
が困難という課題もあります。

それでも、音声認識システムの活用で業務効率や生産性の向上をもたらしていることから、ビジネス業界への活用が増加しています。今後も研究が進み、課題を克服した精度の高い音声認識が可能になることが期待されています。

ぜひ、今回の内容を参考に、自社への活用を検討してみてはいかがでしょうか。

この記事の執筆・監修者

Aidiot編集部
「BtoB領域の脳と心臓になる」をビジョンに、データを活用したアルゴリズムやソフトウェアの提供を行う株式会社アイディオットの編集部。AI・データを扱うエンジニアや日本を代表する大手企業担当者をカウンターパートにするビジネスサイドのスタッフが記事を執筆・監修。近年、活用が進んでいるAIやDX、カーボンニュートラルなどのトピックを分かりやすく解説します。