スマートスピーカーは、音通信？

スマートスピーカーは、「音通信」ではないんです

最近、音通信の話をすると、「スマートスピーカーのようなものですか？」と言われることが増えました。スマートスピーカーは最近のトレンドなので、ある意味仕方がないのですが、音通信を説明するのが以前より少し難しくなってしまいました。確かに広い意味では、スマートスピーカーも音声を使って人と音通信していると言えなくもないのですが、一般的にはスマートスピーカーは音通信というよりは、音声認識のための音声の入出力機器です。音声認識自体は、以前からパソコンやスマートフォンでも同じことが出来るので、特に新しくはありませんが、家電と繋がってTVや照明をコントール出来たりするところが、少しだけ新しいので注目されているのだと思います。
このスマートスピーカー、実際に使って見ると意外と使えないですよね（笑）。ほとんどの場合、文章が長くなると理解してくれないし、会話の流れも考慮してくれません。それを考えると、Amazon Echo（アマゾンエコー）のCMはよく出来ていると思います。あのCMの中では、Alexa（アレクサ）は何でも応えてくれるように見えますが、あれがAlexaの精一杯で、あれ以上は多分無理だと思います。スマートスピーカーの数少ない出来ることを、ストーリー仕立てにして見せることで、少し前のSFの世界を感じさせるあのCMは凄いと思います。
当然、スマートスピーカーが駄目だと言っているわけではなく、今は期待が先行していて、実際に使って見るとがっかりすることが多いというだけで、あのCMを超える世界は、そんなに遠い将来ではないはずです。

ではあらためて、音通信とは？

話がわき道にそれましたので、音通信の話に戻ります。ところで、音通信とは何でしょうか。辞典にもWikipdiaにもありませんし、Googleで検索しても出てきませんので、ここで定義してしまいます。
SSLでは音通信を"音波を使った機器間のデーター通信"の意味で使用しています。そのままと言えばそのままなのですが、意外と直ぐには理解してもらえないことが多いです。音波は声や音楽も含め、人が出すことも聞くこともできる身近な存在であるがゆえに、音波を使った通信というとスマートスピーカーと混同されてしまうことが多々あります。むしろ電波を使ったWi-FiやBluetoothのような無線通信のほうが理解しやすいのかもしれません。

まず、音通信とはどんな技術なのかという質問があります。音なので何か特別なことをやっているように思われがちなのですが、音通信に使われている通信技術は、電波を使用しているWi-FiやBluetoothなどの無線通信の技術と大きな違いはありません。音波も電波も同じ波です。波の特性を使って通信する音通信の技術は、Wi-FiやBluetoothなどの通信技術と基本的には同じと考えてもらっていいと思います。

ちなみに超音波とも、ちょっと違います

また、音通信に超音波を含むかどうかという質問もよくあります。SSLで定義している音通信には超音波は含まないというのがその回答です。音波は周波数20Hz〜20,000Hzのものであり、超音波は文字通り、音波の周波数を超える20,000Hz以上のものを指します。超音波を含まない理由は、音波≠超音波、という言葉の定義もありますが、それ以上に音通信の用途によるところが大きいです。
音通信は、スマートフォンのマイクとスピーカーを使って通信できることが大きな特徴です。特別なデバイスを追加する必要がありません。当然スマートフォンのマイクとスピーカーは、電話をしたり音楽を聞いたりするためのものなので、人が聞くことができる周波数帯域、つまり20Hz〜20,000Hzの周波数に対応しています。この周波数帯域であれば通信可能です。
逆にスマートフォンは超音波には対応する必要がないので、超音波を使った通信をスマートフォンのマイクやスピーカーで行うことは出来ません。このように音通信の用途からも超音波は含めていません。

音通信のスペックは？（SSTの場合）

さらに音通信の通信速度についてもよく聞かれます。音通信は機器間での通信であるため、言葉を使う必要がありません。スマートスピーカーの場合は、人とコミュニケーションを取る必要があるので、言葉を入出力に使う必要があります。日本語の場合、早口でも１秒間で発音できるのはおそらく８音程度です。日本語の50音は6bitで表現できるので、日本語では人が声で送れるデーター量はせいぜい1秒間に50bit程度の情報量です。しかもこれはかなり頑張った場合の数字です。しかし音通信の場合は機器間で送受信できればいいので、言葉を使う必要はなく、より速くデーターを送ることが可能です。例えばSSTで開発している音通信技術のSSTouchを例にすると、比較的うるさい環境でも、1秒間に300bit程度のデーターを安定して送受信できます。これは例えば16桁の会員番号を送信する場合、0.2秒程度で送信でき、決済などにも利用可能な技術となっているのです。

兎にも角にも、スマートスピーカーの登場で、"音"に対する注目度は上がりました。音声認識と音通信という違いはあるにせよ、"音"を使って人や機器が繋がることは出来て当然の事として認識されるようになり、ストレスなく使えるレベルになりました。そして今は意外と使えないスマートスピーカーも、AIの進歩に合わせて今後どんどん進化していくでしょう。現状ではまだまだのスマートスピーカーも、あっと言う間に便利なものになり、一家に一台どころか一部屋に一台の時代が来るのは時間の問題のような気がします。そして水道や電気のように、無くてはならないものになり、数年後には家族の一員として、「君がいないと困る」存在になっているかもしれません。
未来はそんなスマートスピーカーと、スマートフォンを使って内緒話をするために、音通信が使われているかもしれません。スマートスピーカーにはマイクとスピーカーが必ずありますからね。

本記事やSmart Sound Labに関するお問い合わせはこちらの「CONTACTフォーム」からお願いいたします。

Smart Sound Lab
（スマートサウンドラボ）
URL: https://smartsoundlab.com
所長：安田寛　Hiroshi Yasuda

スマートスピーカーは、音通信？

スマートスピーカーは、「音通信」ではないんです

ではあらためて、音通信とは？

ちなみに超音波とも、ちょっと違います

音通信のスペックは？（SSTの場合）

こちらの記事もどうぞ:

「人の声」のつくりかた：「声に聞こえる音」の合成

音で「見えない文字」を書く？？スペクトログラムを使ったチャットスクリプトを作ってみた

「人の声」のつくりかた：声を「目で見て」みよう！（後編）

ABOUT