読者です 読者をやめる 読者になる 読者になる

勾配ブースティング落穂拾い - マルチクラス分類について

勾配ブースティングに特有の問題という訳ではないですが、それはマルチクラス分類をone-vs-allで解いていることに留意しましょうというのが今回の記事です。 2017/04/02追記 LightGBMではマルチクラス分類の際にsoftmaxとone-vs-allのどちらで解くか選択でき…

勾配ブースティング落穂拾い - 木の構築について

このシリーズについて XGBoost芸人を自称してちょこちょこ活動をしてきたのですが、最近になって自分の理解の甘さを痛感するようになりました。 気になった箇所を散発的に復習しているのですが、その成果を備忘録として残しておこうと思います。 今のところ…

4教科で珍しく良い点取った生徒のカンニングを疑ってはいけない、「竜王を弁護する」について

はじめに 将棋ソフト不正疑惑に関する事件について新たな記事が出ていたので、また計算機を叩いてみました。 三浦九段不正疑惑について、渡辺明竜王を弁護する 2017/02/27追記 当該記事は削除されてしまっています。一時、ハフィントンポストが全文を掲載し…

MXNetを中心としたCustom Loss functionの話

これはDeepLearning Advent Calendar 2016の12月24日分の記事です。 Deep Learning一般の内容ではないので申し訳ないですが、来年はMXNet Advent Calendarやりたいですねという願いもあり、空き枠に滑り込みました。 TensorFlowとChainerが強くてMXNetは肩身…

LightGBMのPythonパッケージ触ってみた

DMLCひとりアドベントカレンダー0日目の記事です。 強い競合が現れたということで、DMLCとは直接関係ないですがLightGBMについて紹介します。 LightGBMとは 勾配ブースティング木の高速な実装としてXGBoostが有名ですが、Microsoftの開発した更に高速な実装…

ピュアオーディオ的な解像度で語る乱数のコク

周回遅れも甚だしいですが、「乱数のコク」について思う所があったので計算をしてみました。 オリジナル 一様乱数と比べて、5つの一様乱数の平均の方がコクがあるとのことです。 シミュレーションで得たヒストグラムは以下のようになりました。 def rand_kok…

一致率90%以上はどれくらいあり得るのか計算してみる(ガバガバ設定)

将棋界で大騒ぎになっている疑惑について、連盟公式掲示板でのレスバトルをするための材料として手元で計算をしてみました。 計算の前提となっているパラメータがガバガバなので、白か黒かの材料にはなりようがないですが、とりあえず今出ている数字を使って…

MXNetでmulti-input/multi-output

皆さんMXNet使っていますか? 年度初に著名データサイエンティストの記事が相次いで盛り上がった感がありましたが、もうChainerなりTensorFlowなりに移ってしまったのでしょうか… MXNetはDeep Learningフレームワークの比較でドキュメントが弱いことをよく指…

分類性能とMAE

名刺お疲れ様でした。 終盤はGPUメモリ足りないとイライラしていましたが、足りないのは創意工夫でした。 私はMXNetを使って取り組んでました。multi-inputとかmulti-outputのやり方を泣きながら調べたのも良い思い出です。 その話はまた時間があればまとめ…

XGBoostにDart boosterを追加しました

はじめに XGBoostにBoosterを追加しました。 以下のようなIssueを見つけ、興味があったので実装してみたものです。 github.com 今のところ、Dart boosterの仕様について私以外の誰も把握していないはずなので、皆さんに使って頂きたく解説記事を書きます。*1…

XGBoostのRNGをMTに置換える

背景 オプトDSLで開催された「ユーザー離脱予想」のコンペで入賞しました。 結構丁寧に検収をして頂くのですが、オプトの方とこちらとでどうしても結果が一致せずに困り果てていました。 Twitterでつぶやいた所、有益情報をゲットします。 xgboostは、Window…

Rからパラメータ付きCypherクエリを投げる

KaggleやCrowdSolvingでレコメンのコンペが開催されたときに使いたいなぁと思ってNeo4jの勉強を始めたのですが、グラフDBに適した問題がなかなか出てきません。 今回はNeo4j 2.0がリリースされた記念に記事を書いてみました。 目標 RからCypherクエリを投げ…