LightGBM入門｜高速GBDTで回すAI創薬の予測モデル活用ガイド

前回の記事では、記述子QSAR（分子の構造を数値化して活性を予測する手法）の定番モデルとしてXGBoostを取り上げました。今回はその「もう一つの有力な選択肢」であるLightGBMを紹介します。XGBoostと同じ勾配ブースティング決定木（Gradient Boosting Decision Tree：GBDT、決定木を逐次的に積み重ねる手法）の実装でありながら、LightGBMは特に大規模データでの学習速度の速さを強みとしています。

本記事では、LightGBMの高速化を支える2つの技術、ADMETや毒性予測での実績、フィンガープリントとの組み合わせ、そしてXGBoostとの使い分けまでを、step-by-stepで解説します。なお、LightGBMはAI創薬専用ツールではなく汎用のGBDTライブラリであり、予測はあくまで研究の意思決定を支援するもので、実験的検証や専門家の判断を置き換えるものではない点を最初におさえておきましょう。

2. LightGBMとは？高速化を支えるGOSSとEFB

LightGBM（Light Gradient Boosting Machine）は、Microsoftの研究チーム（Ke ら）が論文「LightGBM: A Highly Efficient Gradient Boosting Decision Tree」（NeurIPS 2017）で発表したGBDTの高性能実装です。従来のGBDT実装に対して、ほぼ同等の精度を保ちながら学習を高速化できる点が大きな特徴で、百万行規模のデータで10〜20倍、最大では20倍以上の高速化が報告されています。

2.1 GOSS：勾配の大きいデータを優先する

1つ目の技術がGOSS（Gradient-based One-Side Sampling：勾配ベースの片側サンプリング）です。学習がまだ不十分なデータは「勾配（予測誤差に相当する量）」が大きくなります。GOSSは、勾配の小さいデータの大部分を間引き、勾配の大きいデータを優先的に残すことで、精度をほぼ保ったまま計算量を減らします。

2.2 EFB：疎な特徴量をまとめる

2つ目がEFB（Exclusive Feature Bundling：排他的特徴量バンドリング）です。これは、同時に非ゼロの値をとることがほとんどない特徴量どうしを1つにまとめ、特徴量の数を減らす手法です。多くのビットが0となる分子フィンガープリント（部分構造の有無を0と1で表す特徴量）のような疎なデータに、特に効果を発揮します。

2.3 Leaf-wiseの木成長とXGBoostとの違い

木の成長戦略にも違いがあります。XGBoostが各階層を均等に広げるLevel-wiseであるのに対し、LightGBMは誤差を最も減らせる葉から優先的に深くするLeaf-wiseを採用します。これにより少ない分割回数で精度を高めやすい一方、データが少ないと過学習（学習データに適合しすぎて未知データで精度が落ちる現象）に注意が必要です。

3. ADMET・毒性予測での実績

3.1 Tox21・変異原性データセットでの評価

Zhangらの研究（Journal of Chemical Information and Modeling、2019年）では、毒性予測の代表的ベンチマークであるTox21および変異原性データセットで、LightGBMを深層ニューラルネットワーク（DNN）・ランダムフォレスト・サポートベクターマシン（SVM）・XGBoostと比較しました。

ベイズ最適化を組み込んだ入れ子の10分割交差検証という厳密な評価のもと、LightGBMは最も高い予測性能を、最も短い計算時間で達成したと報告されています。著者らは、大規模な安全性評価やケモインフォマティクス（化学情報学）への応用にLightGBMを推奨しています。

3.2 血液脳関門透過性予測：LightBBB

中枢神経系の薬を設計するうえで、薬物が血液脳関門（BBB）を通過できるかの予測は重要です。LightBBB（Bioinformatics、2021年）は、LightGBMを用いたBBB透過性予測モデルです。

文献から集めた7,162化合物（透過する化合物5,453、透過しない化合物1,709）を用い、10分割交差検証で正解率89%・AUC（予測性能の指標、1に近いほど良い）0.93を達成しました。さらに、独立した74化合物での外部検証では正解率90%を示し、過去のBBB透過性予測モデルを上回ったと報告されています。

4. 分子フィンガープリントとの組み合わせが深層学習を上回る場面

近年は分子をグラフとして扱うグラフニューラルネットワーク（GNN）が注目されていますが、シンプルなフィンガープリントとLightGBMの組み合わせが、それらを上回る場面も報告されています。

2025年に公開された研究「Molecular Fingerprints Are Strong Models for Peptide Function Prediction」（arXiv:2501.17901）では、ペプチドの機能予測を対象に、LRGBを含む132のデータセットで評価を行いました。カウントベースのECFP・Topological Torsion・RDKitフィンガープリントとLightGBMの組み合わせが、GNNやTransformerベースのモデルをハイパーパラメータ調整なしでも上回り、最先端（SOTA）の精度を達成したと報告されています。

この結果は「複雑なモデルが常に最良とは限らない」ことを示す好例です。ただし、これはペプチド機能予測という特定のタスクでの結果であり、対象データセット・特徴量・評価方法に依存します。「SOTA」「深層学習を上回る」といった評価は、こうした条件のもとで成り立つものとして読み、すべての分子・課題に一般化できるわけではない点に注意が必要です。

5. バーチャルスクリーニングと分子生成での活用

5.1 ランキング学習による化合物スクリーニング

バーチャルスクリーニング（計算機上で候補化合物を絞り込む作業）では、活性値を正確に当てること以上に、活性の高い化合物を上位に並べることが重要になる場面があります。LightGBMはlambdarankというランキング学習用の損失関数を備えており、活性順位の予測に活用できます。計算量が訓練データ数の3乗に比例して増えるRankSVMと比べ、GBDTベースの手法は大規模データでも実用的とされています。

5.2 分子生成ツールChemTSv2との組み合わせ

ChemTSv2は、深層学習とモンテカルロ木探索（MCTS）を組み合わせたde novo分子設計（ゼロから新規分子を生成する手法）のツールです。ChemTSv2自体にLightGBMが標準搭載されているわけではありませんが、これを用いた応用例では、生成した分子の阻害活性・薬物動態・急性毒性などを評価する報酬関数の一部として、LightGBMの予測モデルが利用された例があります。軽量で高速なため、Webアプリケーションとして手軽に予測値を返せる点が採用理由の一つとされています。

6. 実装のポイントとXGBoostとの使い分け

LightGBMを使う際の実務的なポイントを整理します。

num_leaves（葉の数）：精度と過学習のバランスを決める最重要パラメータ。大きすぎると過学習しやすい
learning_rate（学習率）：小さくして決定木の本数を増やすと精度が安定しやすい
min_data_in_leaf：葉に必要な最小データ数。小規模データでは大きめにして過学習を抑える
クラス重み付け：活性・不活性が偏った不均衡データでは、少数クラスの重みを調整する

XGBoostとの使い分けの目安は次の通りです。予測精度を重視し、データが中小規模であればXGBoost、10万化合物を超えるような大規模データで学習速度を重視するならLightGBM、というのが一つの基準になります。とはいえ、最良の手法はデータの規模・化学空間・評価方法によって変わるため、両者を比較対象に入れて自分のデータで検証することをおすすめします。

なお、QSARやADMET予測では、評価方法そのものが結論を左右します。化合物をランダムに分割すると似た構造が訓練・テストの両方に入り、性能を過大評価しがちです。実務では、骨格（スキャフォールド）単位で分割するスキャフォールド分割や、独立データでの外部検証を行い、モデルが信頼できる化学空間の範囲（適用範囲：applicability domain）を確認することが重要です。さらに、入力データの品質や活性値の測定条件のばらつきも予測の信頼性を大きく左右します。

7. まとめ：高速性と精度を両立する有力なベースライン

LightGBMは、GOSSとEFBという2つの技術によって高速化を実現したGBDT実装です。Tox21などの毒性予測やBBB透過性予測で高い性能を示し、フィンガープリントと組み合わせれば深層学習を上回る場面もあります。軽量さゆえにWebサービス化やランキング学習、分子生成との連携もしやすく、創薬の幅広い場面で「まず比較対象に入れるべき有力なベースライン」として活用できます。

一方で、LightGBMが常に最良というわけではありません。小規模データではLeaf-wiseの過学習に注意が必要で、課題によってはXGBoostやGNNが適することもあります。そして、ここで紹介した予測はいずれも候補化合物の優先順位付けや仮説生成を支援するものであり、実験的検証・専門家の判断・データ品質の確認を置き換えるものではない点を、最後に改めて強調しておきます。

参考リンク

LightGBM 公式リポジトリ（2026年3月にlightgbm-org組織へ移行）：https://github.com/lightgbm-org/LightGBM
Ke et al.「LightGBM: A Highly Efficient Gradient Boosting Decision Tree」（NeurIPS 2017）：https://proceedings.neurips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf
Zhang et al.「LightGBM: An Effective and Scalable Algorithm for Prediction of Chemical Toxicity」（JCIM 2019）：https://pubs.acs.org/doi/10.1021/acs.jcim.9b00633
Shaker et al.「LightBBB」（Bioinformatics 2021, 37(8):1135）：https://academic.oup.com/bioinformatics/article/37/8/1135/5942084
「Molecular Fingerprints Are Strong Models for Peptide Function Prediction」（arXiv:2501.17901）：https://arxiv.org/abs/2501.17901
ChemTSv2 GitHub：https://github.com/molecule-generator-collection/ChemTSv2

免責事項

本記事は、LightGBMおよびQSAR・AI創薬に関する情報提供を目的として作成されたものです。記事の内容は、公開時点で入手可能な文献・情報に基づいていますが、技術の進歩や新たな知見により、情報が変更される場合があります。記事に記載されたソフトウェアの使用結果や、それに基づく研究成果について、筆者および本ブログは一切の責任を負わないものとします。実際の創薬研究や臨床応用にあたっては、必ず最新の文献・公式ドキュメントを確認し、専門家の助言を得てください。

本記事は生成AIを活用して作成しています。内容については十分に精査しておりますが、誤りが含まれる可能性があります。お気づきの点がございましたら、コメントにてご指摘いただけますと幸いです。なお、本記事の内容に基づいて生じたいかなる損害についても、当サイトは責任を負いかねます。

関連YouTubeリンク

1. はじめに：高速GBDT「LightGBM」がAI創薬で広がる理由