表形式データにニューラルネットを用いる研究について

昔からある話ですが、Google CloudからAutoML Tablesが発表される等、表形式データにニューラルネットを用いることの障壁は日々低くなっているように感じられます。 LightGBM開発者によるDeepGBMが話題になる等、研究においても特に決定木を意識したアプローチが(局所的に)盛り上がっているようなのでリンク集を作ってみました。

論文リスト

CTR予測にNNを用いる研究は数多くあるので、次のような特徴を持つものに限定します。

  1. 表形式データに対して、FCNでは精度が出しにくい一方でGBDTが実績を挙げているというモチベーション
  2. ヘヴィサイド関数的なもの(tanhが多そう)で分岐を表現する
  3. 2を積むことで決定木らしい形にする
  4. ショートカットを導入することで加法木らしい性質を持たせる
  5. Higgs等で数値実験をする

以下に挙げているようにICLR 2020へ3本ほどこのような分野の研究が投稿されています。*1

細かい差異は理解できていませんが、蒸留を利用しているDeepGBM以外は似たようなアプローチをしているように見えます。

それらしいタイトルだが趣の異なるもの

画像が主眼

SGDの代替

所感

AutoMLの文脈もあり、GBDTと比べてインプットに自由が効いて特徴抽出で手を抜けるNNを検討したくなる気持ちは理解できます。

ただ、NNの表現力が必要なだけであればNNとGBDTのアンサンブルで十分であり、DeepGBM論文でもアンサンブルと比べたときの提案手法の明確なメリットはオンライン学習だけと述べられています。(現地での質疑応答はどんな感じだったでしょうか?アンカレッジ組でご存知の方がいらっしゃったら教えて欲しいです。)

OpenReviewでも指摘されているようにGBDTで精度が出しやすいのであればGBDTを使えば良く、提案されている手法のご利益の小ささは気になりますし、研究分野としては厳しい感じがします。

AutoML Tablesはどうだ?

さて、AutoML Tablesは上に挙げたような表形式データ用のネットワークを用意しているのでしょうか。 現時点でAutoML Tablesについての詳細な情報は見当たりませんでしたが、公開情報を基に考えてみます。

Google Developers Japan: Google の AutoML が KaggleDays での表形式データのコンペで第 2 位に

AutoML Tables の特徴と機能

これらから読み取れるのは

  • learning-to-learn のアプローチを適用している
  • TensorFlowモデルが出力される
  • KaggleDaysではNNとTFBTを使った
  • リニアモデルも候補になっている

という点で、更にブログで名前の挙がっているGoogle Brainの方の研究は転移学習が多いことも伺えます。

TensorFlowにはBoosted trees Estimatorもあるので、AutoML NLP等で使っているNNの後段部分にGBDTを選べるようにしてメタ学習でゴリ押ししているというのが私の見立てです。*2*3

(実際AutoML Tablesが何をしているのか知る由もありませんが)NN1本で頑張るよりは、実績のある道具を組み合わせてメタ学習する方が筋が良いように思えます。

まとめ

メタ学習は脅威。

G社やA社やM社であれば表形式データにおけるある種の学習済みモデルを獲得してしまうかもしれないという考えが頭をよぎりましたが、表形式データは画像と違って列の並びや数値のスケールで自由度が高いので流石にそれは厳しいですかね。

追記

以下の資料のように、DeepGBM的なものもAutoML TablesもNNの自由度の高いインプットを活かせていないのが現状ですが将来的には小慣れてくるんではないかと考えています。

speakerdeck.com

*1:厳しいコメントが付いているので採択されるか分かりませんが

*2:間違ってたらすみません。

*3:ユーザーとしては中身を知っておきたいので、探りを入れるのは許してください。