松尾さんの講演を聴いて@情報処理学会全国大会（2016）

帰りの新幹線の中でちゃんと書いてたのにうっかり変にページ遷移をしてしまったおかげで記事全部が吹っ飛んでしまい萎えていましたが、もう一度書くことを決意した所存です。

講演者の松尾豊さんは東京大学准教授のかたで、日本の深層学習のトップランナーとも言うべきお方。講演内容はがっつりとしたテクニカルなものではなく、どちらかといえば一般向け、メディア向けの内容だった。

以下講演内容の要旨。

松尾さんの講演『Deep LearningとこれからのAI研究』

世間の注目っぷり

近年、人工知能が注目されている。この注目のされっぷりというのは、人工知能第三次ブームとも言うべきものだ。では、なぜ最近再度注目されているのかといえば、原因はこの「Deep Learning」にある。Deep Learningはとりわけ画像処理の分野で躍進を見せており、提示されている画像が何を示しているかを判定するタスクではすでに人間を超えた能力を身につけている。つい数年前では考えられない性能をどうやって叩きだすのか。それは、それぞれのタスクに適合した特徴量の設計を計算機が行ってしまうというところにイノベーションがある。

特徴量とは

いままでは、特徴量の設計というものは人間がヒューリスティックに設計していた。特徴量とは、その名の通り、物の特徴を表すパラメータであり、どのようにパラメータを与えて強化学習を行うかで性能が変わっていた。特徴量を計算機が自ら獲得するということは、計算機が「認知する」能力を獲得したことと同義である。どこのメディアもあまりここの箇所を強く書かないが、私自身は近年の人工知能の成果は「認知」が根底にあると思っている。

画像処理の性能の高さ

Deep Learningの画像処理の高さは本当に驚くものがある。先ほどの例でも上げたが、すでに一部のタスクでは人間を超える性能を示しており、その強さは今世間を騒がせている「アルファ碁」からも見てとれる。「アルファ碁」は画像処理のタスクを処理するDNNで構成されている。元来、囲碁の世界では計算機が人間に勝つのは当分未来の話だと言われていた。それは、チェスや将棋に比べて有効な手段が非常に多いためである。つまり、それだけ最適な特徴量の設計が難しい。だからこそ囲碁で機械が人間に勝つのは当分未来だと考えられていた。ところが、Deep Learningの登場で状況が一変した。最適な特徴量を勝手に抽出してくれるためである。

どのように特徴量を抽出するのか

画像処理を扱うDNNではAuto-encoderというものが使用されている。これは入力層のノード数に対して隠れ層のノード数が少なくなっており、出力層では再度ノード数の数が増え、入力層とおなじ数となる。どのようなものかといえば、5というものが書かれた画像を与えれば、全く同じものを出力するDNNである。一見意味が内容に見えるが、隠れ層のノード数が少ないところがポイントである。隠れ層のノード数が少ないため、今持っているより少ない情報量しか伝播することができない。少ない情報量から画像を復元するには有効な情報を残すしかない。したがって、層が深くなるにつれて有効な情報のみが取得できるというわけだ。この有効な情報が特徴量に相当する。

Deep Learningの今後の展望

画像処理でここまでの成果を残した以上、他の分野でも活用しないわけにはいかないだろう。今後進展が望まれる自然言語処理の範囲でも、言語から画像、画像から言語といったように、言語と画像が相互に変換可能な深層ネットワークを構築するのがよいのではないのだろうか。私自身も、それが王道の手法であるように感じる。

終わりに

Deep Learningは革命的だが、これまでの蓄積があったことも忘れてはならない。今までの人工知能の分野の蓄積があったからこそ、Deep Learingの手法が出てきてから急速に性能を伸ばすことが出来た。既存のテクノロジーとの組み合わせも大いに重要である。また、ソフトウェア面では、日本が海外に遅れを取っていると言わざるを得ない。GoogleやFacebookはデータ量も豊富でノウハウも持っている。ここに追いつくのは非常に困難であり、今後のロボット産業でもこのあたりの企業が決勝リーグに進むのは確約されているようなものだ。それではハード面はどうかというと、まだまだこれといった企業や国は決まっておらず狙い目と言ってもよいだろう。日本は土木・機械産業は優秀だ。ハードウェアでは日本が勝てる希望が残っている。率先して研究開発を行うとよいのではないか。すでに世界は動き出している。

だいたいこんな内容だった。数日経っている上に筆者が解釈した上で書いているところもあるので、多少のバイアスがかかってしまっていることはご了承願いたい。

というわけで筆者の感想ね。

個人的に一つ気になったのが、自然言語処理の分野でも画像がキーとなる、といった発言だ。自然言語処理は音声認識、対話戦略、音声合成といったように、簡単に分けても３つの分野に分かれており、その全てにおいて画像というものとは縁がない。どのように適応させるのか、もう少し具体的な内容を聴いてみたかった。可能性があるとすれば、スペクトルを画像として入力し、そのスペクトルが表すテキスト画像に変換して出力するDNN（かなり無理がある）や、発話テキストを画像として与え、その返答としておかしくないテキスト画像を出力するDNN（まだましかな？）や、テキスト画像からスペクトル画像を出力するDNN（無理がある）といったところだろうか。無論既存技術との組み合わせが重要なことは違いないが、そこまでDNNを神格化する必要があるのかは疑問に残った。

熱しやすく冷めやすい、というのは流行の性格で、もっと人工知能ブームが続くことを祈った松尾さんの計らいなのかもしれない。

備忘録的な何か

研究内容とかプログラミング関連とか趣味（オーディオなど）とかそのへんのことを書いていければいいな