ニューラルネットワークで音声認識

音声認識の言語モデルについて纏めようかとも思ったけど、トライグラム（3-gram）とかを使いますの一言で終わってしまう。細かな活用手法とかはまた文献を漁ることにしよう。

N-gramについては、

Google Japan Blog: 大規模日本語 n-gram データの公開

が分かりやすいし、データも実際に配布されているので覗いてみると面白いかも。

というわけで本題。

ニューラルネットワークを音声認識に活用しよう

いきなりニューラルネットワーク（NN）に入力を与えていい結果が出たわけでもないらしい。ニューラルネットを応用する試みの中で最も古いものの一つに時間遅れニューラルネットワーク（TDNN）が存在する。

TDNNについて

TDNNは入力に音声特徴のセグメントを与えて、そのセグメントに含まれる音素を示すベクトルを出力する。TDNNの特徴としては、畳込みニューラルネットワーク（CNN）に近い構造を持っていることだろうか。

畳み込み層は画像処理の分野でよく使用されているイメージ。ここで深く説明すると長くなる上にテーマから逸れてしまうので、簡単に纏めると、

何かしらの入力画像を与える
入力画像より小さいフィルタを複数用意して、少しずつずらしながらフィルタをかけていく

これで終わり。初期値のフィルタはなんか微妙な値にしか反応しないが、2の過程を繰り返して行うことにより学習し、特徴をとらえた値に反応するすごいフィルタが出来上がるという優れものである。というより初学者の僕はこれくらいの印象しか持っていない。お勉強します。

実際にところ、これを音声に当てはめて考えるというのもいまいち理解ができていない。音声特徴のセグメントに、何らかのフィルタをかけて特徴抽出しやすくする、ということなのだろうが細かなアルゴリズムはよく分からない。うーむ……

ci.nii.ac.jp

CiNiiで貴重な日本語の論文を見つけたものの、僕のレベルが低くてとても倒せる代物ではなかった。レベルが上がったら再度挑戦してみよう。

ただ、TDNNの欠点としてはあくまで出力として出るのは音素の出現を表すスコアなので、入力された断片はどうもこの音素っぽいぞ、ということしか分からない。つまり単語とか文章には対応出来ていないので、別途辞書と組み合わせて解析するシステムが必要となる。したがってTDNNを改良して得られたのが次に紹介するハイブリッド方式である。