最近では「Google Home」や「Amazon Echo」など、AIスピーカーがたくさん登場しています。「今日の天気はどうなる?」や「今のタイミングにピッタリな曲をかけて」などと音声で命令するだけで、自動でユーザーの音声を処理して適切な答えを返してくれます。このときに使われているのが音声認識の技術です。
音声認識を利用して議事録を自動化するなど、音声認識を利用したサービスは私たちの日常の至るところで目にします。例えば「Android」のスマホを持っている場合は、「Google音声検索」を活用している方も多いのではないでしょうか。しかしさまざまな音声認識サービスを手軽に利用できるにもかかわらず、音声認識の仕組みについてはよく知らない、という方も多くいらっしゃるのではないでしょうか?
そこで今回は音声認識の仕組みやAIを活用した音声認識で実現できることなど、音声認識についてさまざまな観点から解説を行います。
▼この記事でわかる!
- 音声認識の仕組み
- 音声認識とAIで実現できること
- 音声認識の身近な活用事例
音声認識の仕組みとは
音声認識とはコンピューターに人間の音声などを認識させる技術のこと。音声を認識させた上で発音者を特定したり、音声の内容をテキストで出力したりと、色々な作業が可能です。
本格的な音声認識の研究が始まったのは1971年アメリカ。軍事に関する研究を行うアメリカ政府機関「国防高等研究計画局」が音声認識に関する研究に着手しました。
そして1975年にはITサービス大手の「IBM」が、民間初の音声認識技術開発を行いました。一般に音声認識が広まるきっかけになったのが「Microsoft」が「Windows95」にスピーチツールを搭載したことです。そしてスマホでは2011年に「iPhone4S」に音声アシスタント「Siri」が搭載され、高精度の音声認識技術で話題となりました。
そして2017年にはGoogleがGoogle Homeを、AmazonがAmazon Echoを発売。日本でも同年に「LINE」が「Clova WAVE」を発売開始しました。さらに他メーカーもGoogle Homeに搭載されている「Googleアシスタント」やAmazon Echoに搭載されている「Alexa」など、音声認識プラットフォームを搭載したAIスピーカーを続々発売。値段も手ごろだったことから、売れ行きも好調でした。2017年はAIスピーカー元年とも呼ばれ、音声認識技術に注目が集まりました。
音声認識では、ユーザーがまず認識させたい音声をコンピューターに入力します。そして不要な音声部分(ノイズ)を取り払い、処理できる形にデータを加工します。その際人間が発する音声は「アナログ信号(波の形状をした信号)」のようになっているので、これをコンピューターが認識できる「デジタル信号(0か1か、2パターンで表現された信号)」に変換します。
次に取得したデジタル信号からコンピューターが「音素」を特定します。音素とは人間が発する音声の最小の単位で、以下で構成されます。
例えば「Hello」とユーザーが発音したときは、「H-e-l-l-o」とコンピューターの方で音素単位に区切ります。
発音を音素に区切った後は、音素の並び順番をあらかじめ用意されている音声データベースと照合します。音声データベースは「H-e-l-l-o→Hello」というように、音素の並びとそれに対応する単語が関連付けられて収納されています。また音声データベースでは「Hello」、「He」など、最初が同じ音素の並びは同じグループとして格納されています。
そしてユーザーが入力した音声に合ったパターンを特定し、単語の並びを作ります。最後に単語の並びを文に変換してテキストなどで出力を行います。
従来の音声認識は人間が音声データを加工し、音声データベースを作っていました。しかし莫大なパターンがある音声パターンを、一から人間の手でノイズを取り除き適切な形に変換したりと作業するのはかなりの時間がかかります。また音声データベースの元になるデータの量自体も不足していました。
しかし最近では「ディープラーニング」技術を活用したAIが登場。ディープラーニング技術を使えば、従来一から人間の手で行っていた音声データベースの作成が簡単になります。またインターネット普及により、大量のデータを簡単に取得できるようになりました。
結果音声認識技術の精度も向上し、変換精度が100%に近付きつつあります。
音声認識とAIで実現できること
音声認識とディープラーニングを行ったAIを組み合わせれば、次のようなことができるようになります。
- 音声だけで命令を出せる
- 精度の高い音の聞き分け
- 業務効率化やミス軽減などによる信頼性向上
音声だけで命令を出せる
従来パソコンを操作して命令を出すためには、キーボードやマウスなどを利用する必要がありました。しかしキーボードは人それぞれで入力速度が違い、タイピングにより手や腕に負担がかかる弱点があります。またマウスもドラッグ&ドロップなど直感的な操作は可能ですが、こちらも手を使わないと操作できないデメリットがあります。
AIを利用した音声認識では、今までの音声認識では不可能だったさまざまな操作が可能になります。例えば基本的な文字の入力からアプリケーションの起動や終了まで、音声認識1つでできます。
またプログラミング言語の1つである「Python」のカンファレンスでは、講演者の発音に応じて音声認識したAIがプログラミングコードを書くなど、高度な操作も音声認識で可能になりつつあります。将来はキーボードもマウスも必要ない、音声だけですべてのデバイスの操作が完了する時代になるかもしれません。
精度の高い音の聞き分け
例えば大声で話す人が周囲にいる混雑した駅のターミナルにいる場合、その中から友達の会話を正確に聞き取って、正確な対応を返すのは難しいところがあるでしょう。AIを活用した音声認識ならば、こういった人間が音を聞き分けにくい状況にあっても、正確な音の聞き取りが可能になります。
日本の事例では、通信事業大手の「NTT」が雑音と人間の発音を正確に聞き取るAIを開発しています。このAIはノイズキャンセリングイヤホンのようにノイズを低減させ、必要な音だけを効率よく聞き取れるようになっています。ノイズを無理に除去しようとすると聞き取る必要がある音のデータまでが一部削除されてしまう弱点もありましたが、この弱点を解消した形です。
また複数人が同時に発音した場合も、それぞれの発音を適切に聞き分けられます。
業務効率化やミス軽減などによる信頼性向上
事務でのデータ入力や電話応対など、仕事では時間がかかりがちな業務がたくさん発生します。またデータ入力はミスが多い作業であり、効率化できるならばぜひ対策を行いたいところです。
AIを活用した音声認識技術を利用すれば、データ入力も自動化可能で、電話への応対もAIが自動で行ってくれます。そして仕事で自動化できる部分が増えるので業務効率化にもつながり、人間の手が入らないことによりミスも軽減されます。
議事録が自動に?日常で活きる音声認識サービス
音声認識技術は、私たちの日常でも身近なものになりました。そこでここからは、日常で活用されている音声認識サービスを3つご紹介していきます。
議事録
仕事において、議事録の作成は正確性とスピード性が求められます。しかし議事録担当作成者が会議の内容を正確に理解し、適切な内容をスピーディーに筆記するのは難しい面もあります。
最近ではAI音声認識により議事録の作成を自動化できるツールも登場しています。このツールは実際の議事録の会話や録音データなどの発音を、自動処理してテキスト化してくれます。また息継ぎの「え~」など、会話中の無駄な発音は省く機能など、議事録をテキスト変換するのに適した各機能が備わっています。
議事録をAI音声認識ツールで記録すれば面倒な記録の手間が減り、内容の正確性もアップさせられます。AI音声認識ツールは議事録だけでなく、講演会やセミナーなどでも活用されています。
AIスピーカー
AIスピーカーは、2017年を皮切りに大人気になりました。AIスピーカーの中に搭載されているのは、GoogleアシスタントやAlexaなどの音声入力プラットフォームです。
各音声入力プラットフォームでは、各メーカーが開発した「アルゴリズム(基本のプログラム体系)」を利用した精度の高い翻訳が可能です。またユーザーが発音すればするほど賢くなり、ユーザーの好みの曲を自動で流したりできるようになります。
音声入力プラットフォームの精度は日々改善が続いており、今後はさらにユーザーにパーソナライズしたAIスピーカーが登場するでしょう。
翻訳機
翻訳機の事例で有名なのは「ポケトーク」です。ポケトークは「ソースネクスト」が発売する音声入力型の翻訳機で、最新版の「ポケトークW」が現在発売されています。
ポケトークWではGoogleといった各検索エンジンなどに接続してユーザーが発音した内容を調査。適切な会話を返せるように工夫されています。アメリカ英語やカナダ英語など、細かい言語の違いにまで対応しており、人気の翻訳機となっています。
音声認識技術の最新事例
音声認識技術は、AIなどの活用で日々進歩を遂げています。最近話題になったのがGoogleがオフラインの音声認識システムを開発したことです。
今までのAIを活用した音声認識システムは、クラウドサーバーなど外部の機器に接続して情報を処理するパターンが一般的でした。しかしインターネットに接続して処理を行う手間がかかる分、ユーザーに応答を返すまでに時間がかかっていました。
Googleでは音声認識システムのデータ量をコンパクトにしてスマホの中にも入れられるサイズにまで圧縮。高い音声認識精度を持ちながら搭載機器の中で処理が完結するため、応答速度の向上も見込めます。
他にもモスバーガーが横浜市内の店舗で音声認識などを活用したAIセルフレジの導入実験を行ったりと、日本でも音声認識技術に関する面白い取り組みが行われています。
音声認識を体感できるアプリ3選
ここからは、手軽に音声認識を体感できるアプリを3つご紹介します。
Googleアプリ
(画像引用:App Store
https://itunes.apple.com/jp/app/google-%E3%82%A2%E3%82%B7%E3%82%B9%E3%82%BF%E3%83%B3%E3%83%88/id1220976145?mt=8)
「Googleアプリ」は、Androidのスマホならば最初からインストールされています。通常の文字入力検索もできますが、便利なのは「Googleアシスタント」による音声検索などが使えるところ。Googleアシスタントは「Google Map」などGoogleの他アプリでも利用可能で、「Googleアシスタントアプリ」を入れれば「iPhone」でも利用可能になります。
ちなみに「Googleドキュメントアプリ」ではGoogleアシスタントを利用して音声入力を行えば、自動で音声の文字起こしを行えます。手が離せないときに音声でメモを取っておくなど、色々な用途で使えます。
Speechnotes
(画像引用:Google Play
https://play.google.com/store/apps/details?id=co.speechnotes.speechnotes&hl=ja)
「Speechnotes」は、音声のテキスト変換に特化したアプリ。日本語、英語を始めとして、さまざまな言語に対応しています。
使いやすさに優れており、Bluetooth接続のマイクからでも音声を入力できたりと、状況に応じた使い方ができます。また音声入力アプリの中には録音を途中で中断してしまうものもありますが、Speechnotesでは長文になる音声入力時も中断せずにそのまま音声をテキスト変換してくれます。他にもボイスコマンドだけで句読点入力ができたりと、何かと使いやすいアプリに仕上がっています。
音声検索アプリ
(画像引用:App Store
https://itunes.apple.com/jp/app/%E9%9F%B3%E5%A3%B0%E6%A4%9C%E7%B4%A2/id422792803?mt=8)
「音声検索アプリ」は「Yahoo!Japan」が提供している音声入力アプリ。Yahoo!Japanが開発した「YJVOICE」を利用して音声認識を行います。このアプリはiPhone専用ですが、他にもAndroidで使える「音声アシスト」など、Yahoo!Japanが提供する他のアプリにもYJVOICEが搭載されています。
YJVOICEにはディープラーニングを行ったAIが活用されており、音声認識精度の高さが特徴です。長いワードでも楽々音声認識して検索結果を出してくれます。また多少声がこもっていてもしっかり音声認識してくれたりと、普段の検索をより便利にしてくれる音声入力アプリです。