TDCはAI創薬のデファクトスタンダード。66データセット×22タスク×29リーダーボードが世界中の研究を支えます。
AI創薬の進歩が加速するなか、「どのAIモデルが本当に優れているのか」を公平に比較できる標準的なものさしが不可欠になっています。そのものさしとして世界中で利用されているのが、TDC(Therapeutics Data Commons)です。
本記事では、ハーバード大学発のオープンサイエンス基盤であるTDCの全体像、収録データセットの構成、TDC-2およびPyTDCへの進化、そしてGoogle DeepMindのTxGemmaや日本発のSG4D10Bといった最先端プロジェクトでの活用事例までを、医療関係者の皆さまに向けて体系的にまとめます。
TDCは「Therapeutics Data Commons(治療学データコモンズ)」の略称で、ハーバード医学部のMarinka Zitnik氏率いるZitnik Labを中心に開発された、創薬向けAI・機械学習手法の評価・開発を支援するオープンサイエンス基盤です。公式サイト(tdcommons.ai)から誰でも無料でアクセスできます。
従来、創薬分野のAI研究では各チームが独自のデータと評価方法を用いていたため、手法間の公平な比較が困難でした。TDCはこの課題を解決するため、AI解析に適した形式(AI-ready)のデータ、標準化されたタスク、そして公開リーダーボードを一元的に提供しています。
創薬は世界でも最もコストと時間がかかる研究開発領域のひとつで、1つの新薬の上市には平均で13〜15年の歳月と20〜30億ドル規模の費用がかかるといわれています。この非効率を解消する切り札として、AI・機械学習への期待が急速に高まっています。
ところが実際には、生物学・化学データの多くは論文の付録や各研究室のサーバに散在し、AI解析に耐える形式に整備されていませんでした。TDCはまさにこの「データのサイロ化」を打破するためのコモンズ(共有財産)として設計されています。
生化学・生物医学の研究者と、機械学習の専門家をつなぐ「ミーティングポイント」を作り、両者の協働でAI創薬を前進させることがTDCの最大の使命です。
TDCは現在、66個のAI-readyデータセットと22種類の機械学習タスクを提供しており、合計で約1,600万件のデータポイントを収録しています。さらに、33種類のデータ処理関数、17種類の分子生成用オラクル、29の公開リーダーボードといった周辺ツールも整備されています。
・低分子化合物向け:15タスク(小分子の設計・評価)
・高分子向け:8タスク(抗体、ペプチド、タンパク質など)
・細胞・遺伝子治療向け:2タスク(細胞株、ガイドRNAなど)
創薬プロセス別にも、標的探索から活性モデリング、薬効・安全性評価、製造まで幅広くカバーしており、モダリティと工程を横断した比較評価を可能にしています。
TDCのタスクは「単一予測」「複合予測」「生成」の三系統に大別され、創薬現場でよく用いられる代表的な課題がそろっています。
ADMETとは、吸収(Absorption)、分布(Distribution)、代謝(Metabolism)、排泄(Excretion)、毒性(Toxicity)の頭文字で、薬が体内でどう振る舞うかを示す重要指標です。TDCには、hERG阻害、CYP酵素による代謝、血液脳関門(BBB)透過性など、各種ADMETエンドポイント(評価項目)が網羅的に収録されています。
DTI(Drug-Target Interaction)タスクでは、化合物とタンパク質の結合親和性をAIで予測します。また、複数薬物の組み合わせ効果(DDI:薬物相互作用)予測もサポートされており、併用療法設計や副作用リスク評価への応用が期待されています。
de novo分子設計(新規化合物のゼロからの設計)を扱う生成タスクでは、17種類のオラクル関数を利用し、望ましい物性を持つ新規化合物を生成AIで提案できます。多目的最適化やドッキングベースの分子設計もカバーされています。
2024年6月、Zitnik Labは大幅アップデート版である「TDC-2」を発表しました。TDC-2では1,000を超えるマルチモーダルデータセット、約8,500万個の細胞を含む単一細胞データ、5種類の最先端シングルセルモデルによる事前計算済み埋め込み、そして大規模な生物医学ナレッジグラフが新たに組み込まれました。
さらに2025年5月には、Velez-Arce氏とZitnik氏による後継基盤「PyTDC」がICML 2025(機械学習のトップ国際会議)で発表されました。PyTDCはAPIファースト設計を採用し、モデルサーバ経由で最新の基盤モデル重みや推論エンドポイントに統一アクセスできる点が大きな特徴です。
これらの進化により、TDCは「単一タスクのベンチマーク集」から「マルチモーダルAI創薬基盤」へと大きくスコープを広げています。
TDCは研究コミュニティのみならず、産業界でも標準ベンチマークとして広く採用されています。代表的な事例を三つ紹介します。
2025年4月、Google DeepMindは創薬特化型の大規模言語モデル「TxGemma」を公開しました。2B・9B・27Bの3サイズが提供され、Gemma 2をベースに、TDC由来の約700万件の指示チューニングデータでファインチューニングされています。最大モデル(TxGemma-27B-Predict)は、TDCの66タスクのうち64タスクで既存SOTA(最先端水準)と同等以上、45タスクで上回る性能を達成しました。
日本のSyntheticGestalt社は、NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)と経済産業省のGENIACプロジェクト支援のもと、世界最大級の分子特化型基盤AIモデル「SG4D10B」を開発しました。100億件規模の化合物データを学習し、毒性・透過性・安定性の3指標でTDCベンチマークの世界1位を獲得しています。
経済産業省・NEDOが主導するGENIAC(生成AI等の基盤的な技術を活用したイノベーション創出事業)では、TDCの主要23タスクすべてで世界トップ3を目指すという具体的な数値目標が掲げられています。国家戦略レベルでTDCが参照指標として採用されていることが分かります。
PyTDCはPythonパッケージとして公開されており、pip install pytdc の一行で導入可能です。数行のコードで任意のタスクのデータを取得でき、スキャフォールド分割、時間的分割、コールドスタート分割など5種類の標準化された分割戦略で、学習と評価を一貫して行えます。
リポジトリURL:https://github.com/mims-harvard/TDC
公式サイト:https://tdcommons.ai/
ドキュメントにはチュートリアルとリーダーボード投稿手順が充実しており、自社モデルのベンチマーク検証や論文発表時の比較実験にも活用できます。
TDC(Therapeutics Data Commons)は、66種類のAI-readyデータセットと22のタスク、29の公開リーダーボードを中心に、AI創薬の研究・評価・産業応用をつなぐデファクトスタンダード基盤へと成長しました。2024年のTDC-2、2025年のPyTDCへの進化によってマルチモーダル化も加速し、Google DeepMindや日本のSyntheticGestaltなど国内外のフロンティアプロジェクトで標準評価系として採用されています。
AI創薬に関わる研究者・薬剤師・医療従事者の皆さまにとって、TDCは「良いAIモデルとは何か」を判断するものさしとして、今後ますます不可欠な存在となっていくでしょう。
本記事は、AI創薬におけるTDC(Therapeutics Data Commons)に関する情報提供を目的として作成されたものです。記事の内容は、公開時点で入手可能な文献・情報に基づいていますが、技術の進歩や新たな知見により、情報が変更される場合があります。記事に記載されたソフトウェアやデータセットの使用結果や、それに基づく研究成果について、筆者および本ブログは一切の責任を負わないものとします。実際の創薬研究や臨床応用にあたっては、必ず最新の文献・公式ドキュメントを確認し、専門家の助言を得てください。
本記事は生成AIを活用して作成しています。内容については十分に精査しておりますが、誤りが含まれる可能性があります。お気づきの点がございましたら、コメントにてご指摘いただけますと幸いです。
Amazonでこの関連書籍「インシリコ創薬: 計算創薬の基礎から実例まで」を見る