新規性が高いけれど合成が難しい部分構造に今後どのように向き合っていくか

 遅くなりましたが創薬 (wet) Advent Calendar 201920日目の記事です。とりとめのない雑文になってしまってますがご容赦下さい。

f:id:rkakamilan:20191219232604p:plain
文献2より

 医薬品開発において、化合物の新規性は非常に重要なトピックです。メディシナルケミストは創薬プロジェクトの中で主活性、選択性、薬物動態、等々複数のパラメータを最適化しつつ、さらに特許性を考えながら構造最適化を進めていかなければなりません。

 新規性獲得のためのシンプルなアイデアの一つは、珍しい骨格を導入したリガンドを合成することです。では、医薬品においていわゆる"環(ring system)", "骨格 (scaffold)"はどの程度知られているのでしょうか。ここに着目してシステマティックな解析を報告した論文が2009年にPittらによって報告されました (文献1)。この論文ではバーチャルにヒュッケル則を満たす約2.5万のヘテロ環を発生させ、合成可能性の評価、SciFinder/Beilsteinといったデータベースでのチェックを経て、新規性の高い有望なヘテロ環として22種まで絞り込んでます。(なお、文献1にて発生させた約2.5万のヘテロ環はChEMBLからvirtual exploratory heterocyclic library 'VEHICLe'としてダウンロード可能 )

 この論文はその後度々リファーされてきましたが、それから10年を経て、改めてこの22種のヘテロ環がどこまで実際に人類によって合成されてきたのかを振り返る論文が発表されました (文献2)。

 下図がPittらによって選抜された22のヘテロ環です。この中で9種 (P1, P5–P9, P12, P13, P18)についてこの10年間で実際に合成され、一部は創薬の中で中間体として、あるいは最終検体として利用されました。

f:id:rkakamilan:20191221101207p:plain
文献2より

 文献2では個々の合成例にフォーカスして紹介されています。実際のところ、個別に見ると、誘導化可能な合成経路でない場合も多く、実際に創薬へ利活用するにはまだまだなものも多いのは事実です。しかし、論文で指摘されている通り、Pittらが未踏の骨格を解析・提案したことが医薬/有機合成化学界の興味を惹起したと言う意味で意義深い報告であり、その事後解析であると思います。

 では、未だ合成されていないヘテロ環は今後も合成されていくのでしょうか。ケミストはこれらの骨格が新規性が高いことを頭に入れ、積極的に取り組んでいくべきでしょうか。生産性が極めて強く求められている時代です。「そもそも既存の骨格だけでも十分にデザインできる。こんな素性の知れないものをわざわざ合成しようとは思わない」なんて意見もあるでしょうし、それはたしかにその通りだと思います。しかし、新たなヘテロ環を実際に合成・評価することで、新たな知見が得られてきたのも事実です。

 もしかしたら、「AIが人の思いつかないような構造をいい感じに出してくれるはずだから、人は出てきた構造を評価・合成すれば良い」と言う意見もあるかもしれません。しかし、以下の観点から、現時点ではその期待通りに事が進むのは難しいのではないかと思うのです。

  • 深層生成モデルベース/ルールベースの構造生成の手法は、いずれも基本的には既知の化合物やその部分構造を元にモデル/ルールを作成する方法が多く、今回のような未知のヘテロ環を生成しにくい(と個人的に思ってる)
  • 生成したバーチャル構造の評価/スコアリングに「合成難易度」を取り入れていることが多く、今回のような未知のヘテロ環のように合成例が少ない/無い部分構造は低く評価されやすい。
  • 新規性が高い部分構造を有する分子の評価を機械学習手法のみで正しく予測することは難しい
  • そもそも今の構造生成手法では、いわゆる「特許性」を考慮できていない

 2つ目について少し評価してみます。RDKitには合成難易度を評価するSAスコアと言う手法が実装されています。詳細は日本語の紹介記事があるのでそちらを挙げるに留めますが、既知化合物を元にした部分構造の出現頻度と、分子の複雑度を元に評価する手法です。このSAスコアは簡単に計算できるため、深層生成モデルで生成した化合物のスコアリングにも頻出しています。(文献3(a))

 比較対象として簡単な分子のスコアも載せます (スコアは1(易)->10(難))。ベンゼンインドールアスピリンなどは1-2の範囲です。

f:id:rkakamilan:20191223010939p:plain
比較対象分子のSAスコア

 一方、P1-P22のスコアは(当然ですが) 2.5-4.5程度と上記よりも高くなっています。

f:id:rkakamilan:20191223010645p:plain
P1-P22のSAスコア

 実例も紹介します。Merckが2008年に報告したDAAO阻害剤では単環/2環を有する種々のヘテロ環を有するカルボン酸の変換が検討されており、その中でヘテロ環P13が導入されています (文献4, 構造式はChEMBLより取得)。  上段が文献中のリガンドで最もSAスコアが高い4化合物(SA=3.185-3.083)、下段が最もSAスコアが低い4化合物 (SA=2.384-1.786)です。P13は上段の3番目に入っており、必ずしも他のヘテロ環誘導体よりも抜きん出てはないものの、高いスコアを示す傾向にあることは見て取れます。

f:id:rkakamilan:20191223012815p:plain
文献4より(1)

f:id:rkakamilan:20191223014423p:plain
文献4より(2)

 SAスコア自体は、大まかな合成難易度の傾向を見る場合には良いものの細かな優先順位付けに使うには注意が必要な手法です。大量の分子を発生させる構造生成手法においてブラックボックス的に用いられると、意図せずに有望な候補分子の優先度を落としてしまうことになりかねません。

 今回は部分構造に着目した論文を、簡単な計算と一緒に紹介しました。前述のように、生産性への期待と圧力が高まる昨今では、難しい合成となるデザインをわざわざ考え、チャレンジするのは大変かもしれません。デザインの部分を構造生成技術に頼るとしても、技術の特徴をしっかり把握して活用しなければ期待とは異なる結果に繋がり得ます。生産性ばかりを目指し、新しい化学の裾野を広げていかなければ創薬の土台も広がりません。生産性向上の先に、困難な合成化学に取り組む時間やアイデアを生み出すことにも繋げていければと思うところです。

  1. Heteroaromatic Rings of the Future. Pitt, W. R.; Parry, D. M.; Perry, B. G.; Groom, C. R. J. Med. Chem. 2009, 52, 2952.; ブログでも紹介されている (まだ手つかずの残されたヘテロ環)

  2. ‘Heteroaromatic Rings of the Future’: Exploration of Unconquered Chemical Space. Passador, K.; Thorimbert, S.; Botuha, C. Synthesis 2019; 51(02): 384.

  3. (a) RDKitで合成難易度を評価して化合物をスクリーニング; (b)構造生成手法の評価手法全般については Molecular Sets (MOSES): A Benchmarking Platform for Molecular Generation Models.などを参照

  4. The discovery of fused pyrrole carboxylic acids as novel, potent d-amino acid oxidase (DAO) inhibitors. Sparey, T. et al. Bioorg. Med. Chem. Lett. 2008, 18, 3386.