CatBoost
CatBoost [2]は、 Yandexが開発したオープンソースのソフトウェアライブラリ。勾配ブースティングフレームワークを提供する。従来のアルゴリズムと比較して、順列駆動型の手段によりカテゴリカル変数の処理を改良している[6]。Linux 、 Windows 、 macOSで動作し、 Python と R で利用できる[7] [8]。構築されたモデルは、C++、Java 、C#、Rust、Core ML、ONNX、PMML で実装できる[9]。ソースコードは Apache License でライセンスされており、GitHub で入手できる[2]。
![]() | |
作者 | Andrey Gulin:[1] / Yandex |
---|---|
開発元 | Yandex and CatBoost Contributors[2] |
初版 | 2017年7月18日[3][4] |
最新版 | 1.2.2[5] / 2023年9月20日 |
プログラミング 言語 | Python, R, C++, Java |
対応OS | Linux, macOS, Windows |
種別 | 機械学習 |
ライセンス | Apache License 2.0 |
公式サイト | catboost |
2017年、InfoWorld 誌は、TensorFlow、 PyTorch、 XGBoost、その他 8 つのライブラリとともに「The best machine learning tools」として表彰した[10] 。
Kaggleは、CatBoost を世界で最も頻繁に使用されている機械学習フレームワークの 1 つとして挙げている。 2020年の調査では第8位[11] 、2021年の調査では第7位であった[12]。
2022年4月現在、CatBoost はPyPIリポジトリから 1 日あたり約 10 万回インストールされている[13]。
特徴
歴史
2009年、Andrey Gulin が MatrixNet を開発した。MatrixNet は Yandex で検索結果のランク付けに使用された独自の勾配ブースティング・ライブラリであり、推奨システムや天気予報など、Yandex のさまざまなプロジェクトで使用されてきた。
2014〜2015年、Andrey Gulin は研究者チームと共に、「カテゴリカルデータの処理方法」の問題を解決することを目的とした Tensornet と呼ばれるプロジェクトを開始した。その結果、カテゴリデータを処理するためのさまざまなアプローチを持つ独自の勾配ブースティングライブラリが作成された。
2016年、Anna Dorogush が率いる Machine Learning Infrastructure チームは、Matrixnet や Tensornet を含む、Yandex での勾配ブースティングに取り組み始めた。彼らは CatBoost と呼ばれる勾配ブースティング ライブラリの次のバージョンを実装し、オープンソース化した。これは、カテゴリカルデータとテキストデータ、GPU トレーニング、モデル分析、視覚化ツールをサポートしていた。
CatBoost は 2017年7月にオープンソース化され、Yandex とオープンソースコミュニティで活発に開発されている。
応用例
- JetBrainsはコード補完に CatBoostを使用している[17]
- Cloudflare はボット検出に CatBoost を使用している[18]
- Careem は目的地予測に CatBoost を使用している[19]
関連項目
脚注
外部リンク
- CatBoost
- catboost/catboost - GitHub
- CatBoost - Yandex