AI創薬の標準ベンチマークESOL(Delaney)データセットの概要、主要記述子、LogSの範囲、利用時の注意点を示した図

ESOL(Delaney)データセットとは?AI創薬における水溶解度予測ベンチマークを解説

1.はじめに:水溶性予測がAI創薬で果たす役割

創薬研究において、化合物の水溶性(aqueous solubility)は最も重要な物性のひとつです。経口投与される薬物は、まず消化管液に溶解しなければ吸収されません。難溶性の化合物は、いかに標的タンパク質との結合親和性が高くても、ヒトでの薬物動態が安定せず、開発初期で脱落するリスクが高くなります。

そのため、化合物ライブラリから候補を絞り込む段階で、構造情報から水溶性を高速かつ正確に予測する技術が長年求められてきました。その分野で標準ベンチマークとして使われてきたのが、本記事で取り上げるESOL(Delaney)データセットです。AI創薬・ケモインフォマティクスの論文で頻繁に登場するため、研究者であれば一度は目にしたことがあるはずです。

本記事では、ESOLデータセットの概要、原論文、内容、機械学習モデルでの性能、取得方法、そして実務上の注意点を、AI創薬研究者向けに整理します。

2.ESOL(Delaney)データセットとは

ESOL(Estimated SOLubility)データセットは、John S. Delaney氏が2004年に発表した、水溶性予測のための回帰用データセットです。1,128個の有機化合物について、SMILES(分子構造の文字列表現)と、実測された水溶解度(LogS)が対応づけられています。

LogSは、水に対する溶解度をモル濃度(mol/L)の対数で表した値で、値が大きいほど水に溶けやすいことを意味します。例えばLogS = 0は1 mol/L、LogS = -3 は1 mmol/Lに相当します。

ESOLは、その手軽さと適度なサイズから、MoleculeNetをはじめとする多くのベンチマーク群に組み込まれ、機械学習モデルの性能評価における事実上の標準として広く使われています。

3.原論文:Delaney 2004

原論文は、John S. Delaney(当時Syngenta所属)による以下の研究です。

  • タイトル:ESOL: Estimating Aqueous Solubility Directly from Molecular Structure
  • 掲載誌:Journal of Chemical Information and Computer Sciences, 2004, 44(3), 1000-1005
    ※Journal of Chemical Information and Computer Sciences は、後に Journal of Chemical Information and Modeling として継続されています。
  • DOI:10.1021/ci034243x

論文では、2,874化合物の実測水溶解度データから複数の分子特性を候補として線形回帰モデルを構築し、実用的なESOL式では以下の4つを主要な記述子として用いました。

  • calculated logP(オクタノール/水分配係数の計算値、cLogP)
  • 分子量(Molecular Weight)
  • 芳香族原子の割合(Proportion of heavy atoms in aromatic systems)
  • 回転可能結合数(Number of rotatable bonds)

これらは、化合物の水溶解度を大まかに見積もる際に古典的に重要とされる指標でもあります。

このモデルは、3つの検証セットに対して測定値の5〜8倍の範囲内で水溶性を予測でき、医薬・農薬サイズの分子に対しては、当時の標準モデルであるGeneral Solubility Equationと競合可能な性能を示しました。

4.データセットの内容と構造

ESOLデータセットは、以下の特徴を持ちます。

  • 分子数:1,128
  • 分子表現:SMILES文字列
  • 目的変数:実測水溶解度 LogS[log10(mol/L)](mol/Lで表した溶解度の常用対数値)
  • 分布:LogS は概ね −11.6 〜 +1.6 の範囲
  • 形式:CSVファイル(カラム:化合物名、SMILES、測定LogS、予測LogS、関連物性値)

収載されている化合物は、医薬品、農薬、一般的な有機化合物など多様で、分子量や構造の幅も比較的広く分布しています。一方で、約1,000化合物というサイズは現代の深層学習にはやや小規模であり、後述する分割方法の選定が性能評価に大きな影響を与えます。

5.MoleculeNetでの位置づけと標準ベンチマーク性能

ESOLは、MoleculeNet(深層学習による分子物性予測の標準ベンチマーク群)における物理化学的物性カテゴリの一部として組み込まれています。

MoleculeNetの公式評価で報告されたグラフ系モデルの性能を比較すると、Message Passing Neural Network(MPNN)が予測精度(RMSE)0.58で最も良く、WEAVEやGraphConvより優れた成績を示しました。これはランダム分割条件での結果で、scaffold split(化合物骨格に基づく分割)にすると一般により高いRMSEとなり、汎化性能の評価がより厳しくなります。

【重要な注意:データ分割法の不一致】 MoleculeNet論文(Wu et al., 2018)で報告された代表的なESOL性能値はランダム分割条件に基づくものが多い一方、DeepChemの現行ローダー実装(dc.molnet.load_delaney())では scaffold split がデフォルトに設定されており、公式ドキュメントでも「Scaffold splitting is recommended for this dataset」と説明されています。論文間でRMSEを比較する際は、必ずどの分割法が用いられているかを確認してください。

近年は、AttentiveFP、Chemprop、Graph Attention Network(GAT)、Transformerベースのモデル、さらにグラフと言語モデルを融合させた手法など、より洗練されたアーキテクチャがESOL上で評価され続けています。最新の比較研究では、データセットキュレーションを工夫することで、同じモデルでもRMSEを0.03程度改善できることも報告されています。

6.データセットの取得方法

ESOLは複数の経路で取得できます。研究目的でよく使われる主要な3つを紹介します。

① DeepChemから取得

DeepChem(ケモインフォマティクス向けPythonライブラリ)には、MoleculeNetの一部としてESOLが組み込まれており、数行のコードで読み込めます。dc.molnet.load_delaney()のような関数が用意されています。

② Therapeutics Data Commons(TDC)から取得

TDC(https://tdcommons.ai)は、ハーバード大学を中心とした創薬AIのためのオープンデータベース・ツール群です。TDCではESOLそのものではなく、より大規模な水溶解度データセットであるSolubility_AqSolDB(約9,982化合物)がADMETタスクとして提供されています。AqSolDBはDelaney由来データを含む複数の公開水溶解度データを統合・キュレーションしたデータセットであり、ESOLそのものとは別物ですが、ESOLの代替・拡張的な比較対象として広く参照されます。

③ Hugging Face Datasets・GitHubから取得

Hugging Face DatasetsにもDelaneyデータセットとしてミラーされており、zpn/delaneyなどのリポジトリから取得できます。また、PatWaltersらが公開しているGitHubリポジトリでは、RDKit(Pythonのケモインフォマティクスライブラリ)を用いた元のDelaneyモデルの実装例が公開されています。

7.ESOL利用時の注意点と限界

ESOLは便利な標準ベンチマークですが、実務応用にあたっては次の点に留意が必要です。

  • データ規模が小さい:1,128化合物は現代の深層学習には小規模で、過学習しやすい
  • 古い測定データを含む:原論文は2004年であり、近年の標準的な測定プロトコルとは異なる可能性がある
  • 分割方法の影響が大きい:ランダム分割とscaffold splitで性能が大きく変わるため、論文間で報告値を比較する際は分割条件の確認が必須
  • カバーする化学空間が限定的:主に低分子有機化合物を対象とした古典的データセットであり、中分子、PROTAC、ペプチド様化合物などへの外挿には不向き
  • より大規模なAqSolDB等の併用推奨:実務用途では、より大規模で多様なデータセットとの併用が望ましい

8.まとめ:ESOLはAI創薬の入口であり、ベンチマークの基準点

ESOL(Delaney)データセットは、2004年の発表以来、水溶性予測における事実上の標準ベンチマークとして使われ続けています。1,128化合物という適度なサイズと、SMILESとLogSのシンプルな対応関係は、ケモインフォマティクスや機械学習の教育・初期検証に最適です。

一方で、実務での予測モデル開発を考えるなら、ESOLだけでなくAqSolDBなどのより大規模なデータセットや、scaffold splitなどの厳密な評価プロトコルを組み合わせることが推奨されます。AI創薬・薬物動態研究において、まず触れるべき「入口のデータセット」であり、同時にモデル選定の参考基準点として今後も活用されていくことでしょう。

参考文献・関連リンク

  • Delaney JS. ESOL: Estimating Aqueous Solubility Directly from Molecular Structure. J Chem Inf Comput Sci. 2004;44(3):1000-1005. DOI: 10.1021/ci034243x
  • Wu Z, et al. MoleculeNet: a benchmark for molecular machine learning. Chem Sci. 2018;9(2):513-530. DOI: 10.1039/c7sc02664a
  • MoleculeNet(DeepChem公式ドキュメント):https://deepchem.readthedocs.io/en/latest/api_reference/moleculenet.html
  • Therapeutics Data Commons:https://tdcommons.ai/
  • Hugging Face Datasets(Delaney):https://huggingface.co/datasets/zpn/delaney
  • PatWalters/solubility(RDKit実装例):https://github.com/PatWalters/solubility
  • Sorkun MC, et al. AqSolDB: a curated reference set of aqueous solubility. Sci Data. 2019;6:143.
免責事項

本記事は、ESOL(Delaney)データセットおよび関連する機械学習モデルに関する情報提供を目的として作成されたものです。記事の内容は、公開時点で入手可能な文献・情報に基づいていますが、技術の進歩や新たな知見により、情報が変更される場合があります。記事に記載されたソフトウェアやデータセットの使用結果、それに基づく研究成果について、筆者および本ブログは一切の責任を負わないものとします。実際の創薬研究や臨床応用にあたっては、必ず最新の文献・公式ドキュメントを確認し、専門家の助言を得てください。

本記事は生成AIを活用して作成しています。内容については十分に精査しておりますが、誤りが含まれる可能性があります。お気づきの点がございましたら、コメントにてご指摘いただけますと幸いです。

本記事に関連するおすすめ書籍をご紹介します。

 Amazonでこの関連書籍「難水溶性薬物の物性評価と製剤設計の新展開」を見る

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


上部へスクロール