備忘録的な何か

研究内容とかプログラミング関連とか趣味(オーディオなど)とかそのへんのことを書いていければいいな

情報処理学会全国大会(2016)一日目(2R)

ホテルのロビーに着いた。ので執筆。

さて、タイトルについて少し説明しておこうかな。

先の記事の1Rとか本記事の2Rとかの説明ね。R会場は自然言語処理関連の会場で、それの今日(3/10)の最初のセクションが1Rで、2つ目のセクションが2R。3Rは明日の午前中。のはず。

それだけ。

それでは本題。

2Rの発表!!

構成要素に着目した顔文字の意味分析

さて、誰しも一度くらいは使ったことのある顔文字。顔文字の意味を解析し、機械にクラスタリングをさせようというタスクについての研究は色々とある。ようだ。

本研究では三好らの研究と黒崎らの研究が先行研究として紹介されており、それぞれのクラスタリングの精度は89%と75%でどちらもかなりの高さである。ただ、それぞれに欠点があり、三好らの手法では人手によるラベル付けの作業が必要であり、さらに新出の顔文字には対応しにくいといった欠点がある、というようなことを発表者の方はおっしゃっていたような気がする。正直記憶は曖昧なので各自ソースを確認されたい。

黒崎らの手法の欠点についても述べられていたような気がするが、忘れた。

ということで本研究ではWord2Vecを用いた手法が提案されている

Word2Vecの詳細はWebで検索してもらえばいくらでも詳しい資料は出てくると思うので、ここでは概要にとどめておく。世の中にはたくさんの言葉があり、それらの類似度を図るのは難しい。そこで、言葉を200次元程度のベクトル空間に射影していく。類似度の近い言葉ほどベクトルが近くなるというイメージ。

これを顔文字に応用しようというのだ。次の2つの顔文字を比べて欲しい。

(T▽T)

(TωT)

どちらもどことなく悲しみを表していると感じないだろうか。この2つの顔文字で共通しているのは「T」である。つまり「T」は悲しみのベクトルを持っているといえよう。

顔文字で良く使われる文字に関して、パーツごとにベクトル上に射影し、それらのベクトルの和を取れば、なんとなくその顔文字を表すベクトルが描けそうではないだろうか。まとめると、

  1. 顔文字を分割して構成要素単位で分析(目、口など)
  2. 構成要素ごとにベクトル空間上へ写像
  3. 各要素のベクトルにそれぞれの重みを掛けあわせたものの総和がその顔文字のベクトルとする

このような感じだろうか。

というわけで次がこれでクラスタリングを行った結果である。

実験結果

日本語ツイート約1500万件のうちに含まれていた、文集合中の352種の顔文字を分析対象に行った結果、ランダムに行うよりも性能は高かったが、先行研究を超えることは出来なかった、という結果に落ち着いていた。

結果として考えられるのは、正解ラベルとして与えたのが少数のアノテータによって行われているため偏りが生じているとか、同様の理由で各パーツに与えたラベル(パーツに与えたのはパラメータなのかな?)に偏りが生じていたとか、そのあたりだろうか。

個人的な感想としては、提案手法を聞いた時にはもっと高い性能がでそうだと感じたので拍子抜けといったところが強い。なかなか興味深い研究でした。

 

次!!

 

Random Forestを用いた財務業績に影響を与えるCSRの具体的内容

タイトルひょっとしたら少し違うかもしれないCSRの後が自信ない。

かなり実務的な内容で、結構こんがらがりながらメモしたので読みづらいかも。堪忍ね。

ええと、近年CSRが注目を浴びている。らしい。というのもこの研究で初めてCSRという言葉を聞いた。CSRとは企業が社会に対して責任を果たし、社会とともに発展していくための活動のこと。企業はCSRよってステークホルダーから信頼を得ることができる。それにより収益が増加する可能性がある。先行研究でも、CSRと企業業績は正の相関があると言った報告が多数あるらしい。

ならば、どのCSRが業績向上に最も貢献しているか、といった情報がほしいよね、といったところで情報学の出番である。で、提案されていた手法は次のようなものである。

  1. CSRデータから特徴量を抽出
  2. 財務データからクラスを作成
  3. ランダムフォレストによる学習

うん、さっぱりしてるね。いかにメモが足りていないかがバレちゃうね。

CSRデータから特徴量を抽出する際には少し処理がいるようだ。CSRデータの中でも、アンケート形式による質問に対し、それに対する解答であったCSR活動37項目を特徴量とし、抽出するデータはアンケートの解答番号とする(すいませんそのように受け取りました。違うよ、という人がいればご指摘ください)。

使用する財務指標はCSRの特徴より、長期的視点によらなければならないため、それに見合った指標を用いる必要があるとのこと。その指標の名前は聞き逃した。

というわけで

実験結果

NPO-NGOとの連携が重要。内部告発窓口は重要度が低い。

簡素でごめんね……。学部三年生では10分程度の説明でこの程度の理解が限度だったよ……

 

#会場でのコメントで気になったのが、相関関係があることは示されているが、CSRを行っているから業績が上がったというのは論理の飛躍がある、という趣旨のものだ。冒頭で先行研究によって相関があるという報告を受けた上での結論だったと思うが、それではまだ足りないらしい。実験の考察の難しさを感じました。

 

ほい次!!

というか最後!

深層学習を用いた画像を生成する文生成手法の一考察

これ聞いててめっちゃ興味深かった。なにかと考えさせられたし、研究室の人間ともあれはどうだったんだろ、とか色々話せる良いネタだったと思います。

え、メモ?

とってないよ?

いやだって話聞くので精一杯だったし。

覚えている範囲でいい??

仕方ない……

本研究は、ある画像を見ている時の脳の観測データ画像から、見ている画像を説明する文章を自動生成しようというタスクをDNNを使用して解決しようというお話。

Chainerとか、自己符号化器とか色々使ってましたよ。

このくらいで許してください……。続きは論文で!!

 

 

そろそろチェックインしてきます…