iedge
  • iedge
スマートホーム(スマートハウス)の記事
2019.07.10
2019.11.26

音声認識の仕組みとは?AI活用のメリットと音声認識技術の最新事例【テクノロジー・AI 入門編】

記事ライター:iedge編集部

最近では「Google Home」や「Amazon Echo」など、AIスピーカーがたくさん登場しています。「今日の天気はどうなる?」や「今のタイミングにピッタリな曲をかけて」などと音声で命令するだけで、自動でユーザーの音声を処理して適切な答えを返してくれます。このときに使われているのが音声認識の技術です。

音声認識を利用して議事録を自動化するなど、音声認識を利用したサービスは私たちの日常の至るところで目にします。例えば「Android」のスマホを持っている場合は、「Google音声検索」を活用している方も多いのではないでしょうか。しかしさまざまな音声認識サービスを手軽に利用できるにもかかわらず、音声認識の仕組みについてはよく知らない、という方も多くいらっしゃるのではないでしょうか?

そこで今回は音声認識の仕組みやAIを活用した音声認識で実現できることなど、音声認識についてさまざまな観点から解説を行います。

▼この記事でわかる!

  • 音声認識の仕組み
  • 音声認識とAIで実現できること
  • 音声認識の身近な活用事例

 

音声認識の仕組みとは

音声入力のイメージ画像

音声認識とはコンピューターに人間の音声などを認識させる技術のこと。音声を認識させた上で発音者を特定したり、音声の内容をテキストで出力したりと、色々な作業が可能です。

本格的な音声認識の研究が始まったのは1971年アメリカ。軍事に関する研究を行うアメリカ政府機関「国防高等研究計画局」が音声認識に関する研究に着手しました。

そして1975年にはITサービス大手の「IBM」が、民間初の音声認識技術開発を行いました。一般に音声認識が広まるきっかけになったのが「Microsoft」が「Windows95」にスピーチツールを搭載したことです。そしてスマホでは2011年に「iPhone4S」に音声アシスタント「Siri」が搭載され、高精度の音声認識技術で話題となりました。

そして2017年にはGoogleがGoogle Homeを、AmazonがAmazon Echoを発売。日本でも同年に「LINE」が「Clova WAVE」を発売開始しました。さらに他メーカーもGoogle Homeに搭載されている「Googleアシスタント」やAmazon Echoに搭載されている「Alexa」など、音声認識プラットフォームを搭載したAIスピーカーを続々発売。値段も手ごろだったことから、売れ行きも好調でした。2017年はAIスピーカー元年とも呼ばれ、音声認識技術に注目が集まりました。

 
音声認識では、ユーザーがまず認識させたい音声をコンピューターに入力します。そして不要な音声部分(ノイズ)を取り払い、処理できる形にデータを加工します。その際人間が発する音声は「アナログ信号(波の形状をした信号)」のようになっているので、これをコンピューターが認識できる「デジタル信号(0か1か、2パターンで表現された信号)」に変換します。

次に取得したデジタル信号からコンピューターが「音素」を特定します。音素とは人間が発する音声の最小の単位で、以下で構成されます。

  • 母音
  • 子音
  • 撥音

 
例えば「Hello」とユーザーが発音したときは、「H-e-l-l-o」とコンピューターの方で音素単位に区切ります。

発音を音素に区切った後は、音素の並び順番をあらかじめ用意されている音声データベースと照合します。音声データベースは「H-e-l-l-o→Hello」というように、音素の並びとそれに対応する単語が関連付けられて収納されています。また音声データベースでは「Hello」、「He」など、最初が同じ音素の並びは同じグループとして格納されています。

そしてユーザーが入力した音声に合ったパターンを特定し、単語の並びを作ります。最後に単語の並びを文に変換してテキストなどで出力を行います。

従来の音声認識は人間が音声データを加工し、音声データベースを作っていました。しかし莫大なパターンがある音声パターンを、一から人間の手でノイズを取り除き適切な形に変換したりと作業するのはかなりの時間がかかります。また音声データベースの元になるデータの量自体も不足していました。

しかし最近では「ディープラーニング」技術を活用したAIが登場。ディープラーニング技術を使えば、従来一から人間の手で行っていた音声データベースの作成が簡単になります。またインターネット普及により、大量のデータを簡単に取得できるようになりました。

結果音声認識技術の精度も向上し、変換精度が100%に近付きつつあります。

 次ページ >
音声認識とAIで実現できること

 

音声認識とAIで実現できること

AIと音声認識が連携するイメージ画像

音声認識とディープラーニングを行ったAIを組み合わせれば、次のようなことができるようになります。

  • 音声だけで命令を出せる
  • 精度の高い音の聞き分け
  • 業務効率化やミス軽減などによる信頼性向上

音声だけで命令を出せる

従来パソコンを操作して命令を出すためには、キーボードやマウスなどを利用する必要がありました。しかしキーボードは人それぞれで入力速度が違い、タイピングにより手や腕に負担がかかる弱点があります。またマウスもドラッグ&ドロップなど直感的な操作は可能ですが、こちらも手を使わないと操作できないデメリットがあります。

AIを利用した音声認識では、今までの音声認識では不可能だったさまざまな操作が可能になります。例えば基本的な文字の入力からアプリケーションの起動や終了まで、音声認識1つでできます。

またプログラミング言語の1つである「Python」のカンファレンスでは、講演者の発音に応じて音声認識したAIがプログラミングコードを書くなど、高度な操作も音声認識で可能になりつつあります。将来はキーボードもマウスも必要ない、音声だけですべてのデバイスの操作が完了する時代になるかもしれません。

精度の高い音の聞き分け

例えば大声で話す人が周囲にいる混雑した駅のターミナルにいる場合、その中から友達の会話を正確に聞き取って、正確な対応を返すのは難しいところがあるでしょう。AIを活用した音声認識ならば、こういった人間が音を聞き分けにくい状況にあっても、正確な音の聞き取りが可能になります。

日本の事例では、通信事業大手の「NTT」が雑音と人間の発音を正確に聞き取るAIを開発しています。このAIはノイズキャンセリングイヤホンのようにノイズを低減させ、必要な音だけを効率よく聞き取れるようになっています。ノイズを無理に除去しようとすると聞き取る必要がある音のデータまでが一部削除されてしまう弱点もありましたが、この弱点を解消した形です。

また複数人が同時に発音した場合も、それぞれの発音を適切に聞き分けられます。

業務効率化やミス軽減などによる信頼性向上

事務でのデータ入力や電話応対など、仕事では時間がかかりがちな業務がたくさん発生します。またデータ入力はミスが多い作業であり、効率化できるならばぜひ対策を行いたいところです。

AIを活用した音声認識技術を利用すれば、データ入力も自動化可能で、電話への応対もAIが自動で行ってくれます。そして仕事で自動化できる部分が増えるので業務効率化にもつながり、人間の手が入らないことによりミスも軽減されます。

 次ページ >
日常で活きる音声認識サービスとアプリ

関連記事

未来の住まいがここに!スマホや声で家電を操作できる 大阪の最新スマートホームショールームに行ってきた

  大阪に新たなスマートホームの体験拠点が誕生した。 株式会社アクセルラボ(本社:東京都新宿区)は、ハウスメーカーやディベロッパー、管理会社などの不動産事業者向けスマートホームサービス「Sp ...

続きを見る
スマートホーム(スマートハウス)の記事 2024.05.14

Roborock S8 Pro Ultraにロボット掃除機の未来を見た

ロボット掃除機を買い替えた  2023年10月、コロナ禍で少しだけ流行った地方移住ブームに乗り切れなかった私は、今更になって都内から地方都市への移住を果たした。東京都の地区40年-14平米ワンルームマ ...

続きを見る
スマートホーム(スマートハウス)の記事 2023.12.04

着実な広がりを見せるスマートホーム市場〜最新の動向についてアクセルラボが発表〜

 スマートホームサービス「SpaceCore」(スペース・コア)などを手がけるアクセルラボが、消費者と不動産事業者を対象に「スマートホームに関する調査報告会」を行った。  同調査は、全国の18~69歳 ...

続きを見る
スマートホーム(スマートハウス)の記事 2023.09.05

Qrio Smart Lockなら、鍵をシェアすることができて、スマホで解錠できる!

Qrio Smart Lockなら、まるで鍵を開けるかのようにスマホを操作するだけ Qrio Smart Lockは、スマートロックサービスです。 鍵をドアに設置する際の工事も不要です。鍵につけさえす ...

続きを見る
スマートホーム(スマートハウス)の記事 2019.11.28

これからのスマートホームには欠かせないAIについて知っておこう!

そもそもAIって何? AI(Artificial Intelligence=人口知能)は、人間が行う様々な作業や活動をコンピューターなどで模倣し、人間と同じような知能の実現を目的としたソフトウェアおよ ...

続きを見る
スマートホーム(スマートハウス)の記事 2019.11.28

人の感情に共感する次世代のAIロボット「JIBO」とは?

多くの可能性を秘めた新型AIロボット「JIBO」 JIBOは、アメリカのMIT(マサチューセッツ工科大学)のシンシア・ブリジール准教授により開発されました。 その後、2014年にIndiegogoのク ...

続きを見る
スマートホーム(スマートハウス)の記事 2019.12.03

Copyright© iedge , 2024 AllRights Reserved.