前回のレポート では、スペクトログラムリーディングのポイントについて紹介し、最後につぎのようなクイズを出してみました。
図1のスペクトログラムから発話内容を推測し、5つの選択肢のなかから答えをあててみてください。
1.かしつ
2.かすてら
3.べっさつ
4.まっしろ
5.かせき
図1 スペクトログラムリーディングの問題
じつは、言語聴覚士の国家試験では、こうしたスペクトログラムリーディングの問題が毎年のように出題されているのですが、この問題はそのなかからピックアップしたものになっています。この問題は、破裂音と摩擦音の読み取りが手がかりになっており、答えは「2.かすてら」でした。
さて、本当にそのとおりなのか、スペクトログラムを音声に変換して確認してみようというのが、今回のレポートのテーマです。実際に耳で聞いてみれば、答えは一目瞭然でしょう。
スペクトログラムを音声に変換する試みは、1940年代、米国ハスキンス研究所で考案されたパターンプレイバックにさかのぼることができます。図2に示すように、パターンプレイバックは、スペクトログラムを光学的に読み取り、音声を再生する装置でした。
図2 パターンプレイバック(https://www2.ling.su.se/staff/hartmut/kemplne.htm )
こうしたアイデアを現代に蘇らせたものが、ディジタルパターンプレイバックです。スペクトログラムを音声に変換するしくみが高度なものになっていけば、たとえば、黎明期の音声学の教科書に残されているスペクトログラムから、本当に人間がしゃべっているような音声を再生することもできるようになり、言ってみれば、過去の音声を復元するという音の考古学の発展にもおおいに貢献する可能性が期待できます。
パターンプレイバックの原理になっているのはソース・フィルタ理論です。声帯音源をソース信号とし、フォルマントによって特徴づけられる声道フィルタを通過させることで音声の生成を説明するのが、ソース・フィルタ理論にほかなりません。
こうしたしくみをコンピュータで実現するには、DFTフィルタリングがひとつのアプローチになります。図3に示すように、DFTフィルタリングは、時間領域におけるたたみ込みは周波数領域における乗算に等しいことを利用してフィルタ処理を行います。ここで、x(n)を声帯音源、b(m)を声道フィルタとすると、これらのたたみ込みによって生成されるy(n)が音声になります。なお、声道フィルタは周波数領域ではB(k)と表されますが、これがスペクトログラムにほかなりません。
図3 DFTフィルタリング
実際に、DFTフィルタリングを利用して、図1のスペクトログラムを音声に変換してみます。ここでは、ソース信号として基本周波数100Hzのパルス列を用意してみました。voiced.wavが生成された音声です。ロボットボイスのように聞こえるものの、「カステラ」としゃべっていることがおわかりいただけるでしょうか。
図5に示すように、この音声のスペクトログラムを観察してみると、倍音構造が見られず、これがささやき声のように聞こえる理由になっています。ただし、/su/のような無声区間では、こちらの音声のほうが、本来の人間の音声に近いことがおわかりいただけるのではないでしょうか。
図5 白色雑音をソース信号として復元した「カステラ」のスペクトログラム
以上のような実験からもわかるように、パターンプレイバックによって復元された音声の聞き取りやすさを改善し、本当に人間がしゃべっているような音声に変換するには、有声区間と無声区間ごとにソース信号を切り替えることが重要なポイントになります。スペクトログラムから有声無声判定を行うことは、そのための技術として不可欠といえるでしょう。
それはさておき、パルス列をソース信号として生成したブザー音の音声と、白色雑音をソース信号として生成したささやき声の音声は、音としてはまったく異なるものになっているにも関わらず、発話内容についてはどちらも同じものであると聞き取れてしまうことに、ちょっと不思議に思われた方もいらっしゃるのではないでしょうか。
じつは、さまざまな加工をほどこして変化させても、発話内容を正しく聞き取れることが、そのほかの音とは異なる音声ならではの特徴になっています。こうしたしくみは、音声を知覚する能力を人間が特異的に進化させてきた結果であり、裏を返せば、人間という生物にとって最も重要な音は音声であるということを示唆する証拠といえるのかもしれません。
なお、任天堂Wiiには、加工された音声を聞いて発話内容をあてる「キキトリック」というゲームがありますが、こうした人間の聴覚の能力にあらためて気づき、驚いてもらうことが、このゲームの趣旨になっています。