AI創薬におけるBoltz-2の革新的なアプローチを図解したイメージ。分子構造、結合親和性予測、そして大規模スクリーニングの概念が視覚的に表現されています。
2025年、AI創薬の分野に激震が走りました。マサチューセッツ工科大学(MIT)とリカーション(Recursion)による次世代生物分子基盤モデル「Boltz-2」の登場です。オープンソースとして公開されたこのモデルは、AlphaFold3が示した構造予測の可能性をさらに押し進め、長年の悲願であった「高精度な結合親和性予測」を、驚異的な速度で実現したとされています。その公開は、アカデミアから産業界まで爆発的な速度で普及し、多くの創薬研究者にとって「待ち望んだ未来」の到来を告げるものでした。
Boltz-2 GitHub – jwohlwend/boltz: Official repository for the Boltz biomolecular interaction models
しかし、この革新的なツールを現場で使いこなす私たち専門家は、その輝かしい成果と同時に、実用化に向けた現実的な課題にも直面しています。Boltz-2は本当に「魔法の弾丸」なのでしょうか? それとも、過度な期待が先行しているのでしょうか? 本記事では、AI創薬の専門家の視点から、Boltz-2の真の革新性とその技術的背景、そして私たちが向き合うべき限界について、ステップバイステップで深く掘り下げていきます。
まず、Boltz-2の立ち位置を明確にしましょう。Boltz-2は、タンパク質やリガンド(薬剤候補化合物)などの生体分子の3次元構造と、それらがどれほど強く結合するか(=結合親和性)を、単一のモデルで同時に予測する深層学習基盤モデルです。先行するBoltz-1や、大きな注目を集めたAlphaFold3が主に「構造予測」に焦点を当てていたのに対し、Boltz-2は「構造」と「親和性」という創薬の二大要素を統合的に扱える点で一線を画しています。
この統合がなぜ重要かというと、従来の創薬プロセスが分断されていたためです。まずドッキングシミュレーションなどで「結合ポーズ(構造)」を予測し、その後に別の手法(スコアリング関数や物理ベース計算)で「結合強度(親和性)」を評価するのが一般的でした。Boltz-2は、この時間のかかる多段階プロセスをワンステップで実行できる可能性を示しました。特に、その予測精度が、従来の物理ベース計算のゴールドスタンダードであるFEP(自由エネルギー摂動)法に匹敵すると報告されたことが、業界に衝撃を与えた最大の理由です。
Boltz-2の最大の技術的突破は、その「精度」と「速度」のバランスにあります。創薬の初期段階であるヒット探索では、何百万、何億という化合物ライブラリから有望な候補を選び出す必要があります。ここで求められるのが、高精度な結合親和性予測です。従来、最も信頼性が高かったのはFEP法ですが、1化合物あたりに膨大な計算時間(数時間~数日)がかかるため、大規模なスクリーニングには不向きでした。
Boltz-2は、このジレンマを解消しました。公開されているFEP+ベンチマークにおいて、平均ピアソン相関係数0.62という、専門家であれば誰もが驚く数値を叩き出しました。これは、計算コストが桁違いに大きいOpenFEなどの物理ベースの手法とほぼ同等の精度です。さらに衝撃的なのは、その計算速度です。FEP比で1000倍以上高速であると報告されており、これまで非現実的であった「FEP級の精度での大規模仮想スクリーニング」が、初めて現実的な選択肢として浮上したのです。
この速度と精度の両立は、創薬の初期フェーズ(ヒット探索からリード最適化)を劇的に加速させる可能性を秘めています。従来は数ヶ月かかっていた有望なヒット化合物の絞り込みが、数日単位で完了する未来さえ想像させます。また、MF-PCBAベンチマーク(大規模な実験データセット)においても、従来の機械学習手法やドッキング法を圧倒し、平均精度をほぼ2倍に向上させたという報告は、その実力の高さを裏付けています。
Boltz-2は、なぜこれほど高精度な予測が可能になったのでしょうか? その秘密は、AlphaFold3のアーキテクチャをさらに発展させた、新しい親和性モジュールにあると考えられています。このモジュールは、タンパク質とリガンド間の相互作用だけでなく、リガンド内部の相互作用(コンフォメーション変化に伴うエネルギー)にも特化して学習されています。具体的には、PairFormerと呼ばれる機構と、2つの異なる出力ヘッド(結合可能性の分類と、連続的な親和性値の回帰)を組み合わせているとされます。
従来のAIモデルの多くは、タンパク質とリガンドの「既知の」3D構造(X線結晶構造など)を入力として親和性を予測するものが主流でした。しかし、Boltz-2は、構造が未知の場合(あるいは構造が柔軟に変化する場合)でも、ポーズ予測と親和性予測を同時に最適化します。これは、AIが「どのような形で結合するか」と「どれほど強く結合するか」を、物理化学的な一連のプロセスとして学習していることを意味します。この「構造とエネルギーの同時最適化」こそが、従来のスコアリング関数が超えられなかった壁を突破した鍵であると、私たちは分析しています。
さらに、Boltz-2は低分子リガンドだけでなく、DNA-タンパク質複合体、RNA構造、さらには抗体-抗原相互作用といった、より複雑で困難なモダリティ(創薬対象の種類)においても、顕著な改善を示しています。AlphaFlowやBioEmuといった分子動力学(MD)シミュレーションの軌跡を学習する専門モデルと同等の性能で、分子の動的な性質(RMSF:残基のゆらぎ)を予測できるという報告もあり、その応用範囲の広さにも注目が集まっています。
さて、ここまではBoltz-2の輝かしい側面を見てきましたが、私たち専門家は、このツールを「万能の魔法の弾丸」として扱ってはいけないことも知っています。Boltz-2が直面している最大の技術的課題の一つが、「インデューストフィット(誘起適合)」現象への対応です。これは、リガンドが結合する際に、標的タンパク質側がそれに合わせて大きく構造を変化させる現象を指します。
Boltz-2は、結合していない状態(アポ体)のタンパク質構造からでも結合ポーズを予測できますが、タンパク質側が「大きく」変形する必要がある場合、その構造再配置を正確に予測できないケースが報告されています。例えば、PI3KやcGAS、WRNヘリカーゼといった、ポケットが柔軟に動く、あるいはアロステリックな(結合部位とは異なる場所で制御される)標的に対しては、既知のアポ体のコンフォメーションに引きずられ、リガンドを誤った位置に配置したり、化学的に不自然なポーズを強制したりする傾向が見られます。
これは、Boltz-2の学習データ(PDB:タンパク質構造データバンク)の多くが、比較的変化の小さい、あるいはリガンドが結合した状態(ホロ体)の構造に基づいていることに起因する可能性があります。リガンド結合に伴う**タンパク質のダイナミクス(動的挙動)**を真に予測することは、依然としてAI創薬における最も困難なフロンティアの一つであり、Boltz-2もまだこの壁を完全に克服するには至っていないのが現状です。
Boltz-2を実用的なスクリーニングツールとして導入する際、私たちが直面するもう一つの深刻な問題が「偽陽性率(False Positive Rate)」の高さです。ある報告によれば、Boltz-2が有望な「ヒット」(結合する化合物)としてフラグを立てた候補のうち、実際に実験で検証すると約40%が効果のない偽陽性であったとされています。10個の候補のうち4個が空振りであるという現実は、創薬の現場コストを考えると決して無視できない数字です。
さらに経験豊富な計算化学者の間では、Boltz-2の驚異的なベンチマークスコアに対する懐疑的な見方も存在します。それは「データリーク(情報の漏洩)」に関する懸念です。Boltz-2のトレーニングには、PDBbindやChEMBLといった広範な公開データベースが使用されています。しかし、性能評価に使われる独立したベンチマークセットと、このトレーニングコーパスとの間に、意図せずとも密接なオーバーラップ(類似した化合物や標的が含まれること)が存在する可能性が指摘されています。
この懸念を裏付けるように、製薬企業が保有する私的な内部データセット(公開されていない、全く新しい標的やケモタイプを含むデータ)でBoltz-2の性能を評価すると、公開ベンチマークで示されたほどの輝かしい結果が出ず、性能が著しく悪化するという報告が相次いでいます。これは、Boltz-2が「未知の化学空間」や「未知の標的」に対する一般化能力に、まだ課題を抱えていることを示唆しています。
Boltz-2はFEP級の精度と謳われていますが、物理化学的な詳細度において、依然として物理ベースの手法に軍配が上がる領域が存在します。その代表例が「埋没水分子」の扱いです。タンパク質とリガンドの結合部位には、しばしば水分子が介在し、それらが水素結合ネットワークを形成することで、結合の強さや特異性を担保しているケースが多々あります。
現在のBoltz-2のアーキテクチャは、これらの「構造的に重要な」水分子を陽に(明確に)考慮することができません。結果として、水分子が重要な役割を果たすターゲットにおいては、結合親和性の予測精度が低下する傾向があります。この点においては、水分子の挙動を精密にシミュレートできるFEP法が依然として決定的な優位性を持っており、専門家の間では「FEPの最後の要塞」とも呼ばれています。
また、絶対的な結合親和性($ΔG$)の予測精度についても、冷静な評価が必要です。PL-REXデータセットなどでの詳細な分析では、Boltz-2は確かに既存の機械学習モデルより優れていますが、その改善幅は「革命的」というよりは「漸進的」(5~7%程度の改善)であるという見方もあります。特に、実験値が広い範囲に分布している場合でも、Boltz-2の予測値は平均値の近くに集まる「中心への回帰」傾向が見られ、極端に強い結合や弱い結合を正確に予測するのは苦手としているようです。
では、私たち専門家は、このBoltz-2とどう向き合っていくべきでしょうか? Boltz-2は、2025年11月現在、間違いなくAI創薬の新しい基準を打ち立てた画期的なツールです。その登場からわずか数ヶ月で急速に業界に普及し、多くのプラットフォームに統合された事実は、その実用性への高い期待を示しています。
しかし、本記事で見てきたように、Boltz-2は万能ではありません。重要なのは、Boltz-2が従来のFEP法や実験を「代替する(置き換える)」ものではなく、「補完する」ものであると理解することです。
私たち専門家が提案すべき「Boltz-2の正しい使い方」は、段階的な「親和性ファネリング(絞り込み)」ワークフローへの統合です。まず、Boltz-2の圧倒的な速度を活かして、数億規模のライブラリから有望な候補群を数千~数万オーダーまで高速に絞り込みます。そして、この絞り込まれた候補群に対してのみ、インデューストフィットや水分子の影響をより詳細に評価できる物理ベースの手法(FEPなど)や、最終的な実験的検証(HTSやSPRなど)を適用するのです。
Boltz-2は、創薬という長い旅路において、私たちが進むべき「有望な道」をかつてない速さで照らし出してくれる強力なサーチライトです。しかし、その光が届かない暗がり(インデューストフィットや水分子)には、依然として私たち専門家の深い洞察力と、物理ベースの計算、そして精密な実験検証が不可欠です。Boltz-2の限界を正確に理解し、その強みを最大限に活かすことこそが、AI創薬を真に加速させる鍵となることを肝に銘じておくことが重要だと思います。
本記事は生成AIを活用して作成しています。内容については十分に精査しておりますが、誤りが含まれる可能性があります。お気づきの点がございましたら、コメントにてご指摘いただけますと幸いです。
Amazonでこの関連書籍「AI創薬の反逆者: Google AlphaFold3 対 ByteDance Protenix オープンソースAIウォーズ」を見る