2020年02月前半 kwh_rd100の注目論文BEST3

計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2020年 02月前半の注目論文 BEST3 を紹介させて頂きます。

1)Development of Natural Compound Molecular Fingerprint (NC-MFP) with the Dictionary 
of Natural Products (DNP) for natural product-based drug development
(天然物ベースの医薬品開発のための天然物辞書(DNP)を使用した天然化合物分子指紋(NC-MFP)の開発)
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-0410-3

2)Combining Cloud-Based Free Energy Calculations, Synthetically Aware Enumerations 
and Goal-Directed Generative Machine Learning for RapidLarge-Scale Chemical Exploration 
and Optimization
(クラウドベースの自由エネルギー計算、合成を考慮した列挙、および目標指向の生成的機械学習を組み合わせて、迅速で大規模な化学探査と最適化を実現)
https://doi.org/10.26434/chemrxiv.11825679.v1

3)Hierarchical Generation of Molecular Graphs using Structural Motifs
(構造モチーフを使用した分子グラフの階層的生成)
https://arxiv.org/abs/2002.03230

202002-前半 注目論文①

1)Development of Natural Compound Molecular Fingerprint (NC-MFP) with the Dictionary
 of Natural Products (DNP) for natural product-based drug development
(天然物ベースの医薬品開発のための天然物辞書(DNP)を使用した天然化合物分子指紋(NC-MFP)の開発)
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-0410-3

[エグゼクティブサマリー] 
 天然物(NC)の構造特性に基づいた分子フィンガープリント(NC-MFP)は、16クラスの天然物辞書(DNP)の分類システムを利用して(DNPカバレッジ率は100%近く)、その骨格は Bemis and Murko(BM) メソッドで生成させて、天然物化合物(NC)の構造的特徴と多様性を反映した。このフィンガープリント (NC-MFP) は、生物学的活性を持つ天然物(NC)構造の仮想スクリーニング向け記述子でもあるから、新薬開発にも有用な方法である。RDKit pythonパッケージを使用した NC-MFP アルゴリズムの python コード、バイナリ分類タスクモデルおよびデータセットは論文の additional file で提供。

[kwh_rd100のコメント] 
 開発された分子フィンガープリント (NC-MFP) は、天然物 (NC) 構造を記述し、天然物 (NC) 構造と標的タンパク質の生物活性との相関関係の説明性に優れた分子フィンガープリントである。特に高精度が重要視される創薬分野で強力なツールとなり得る。NC-MFP アルゴリズムの python コード、バイナリ分類タスクモデルおよびデータセットが公開されているので、追試も容易。ただし、パフォーマンス比較がバイナリ分類 (2種類) であって、回帰問題での性能は不明。

202002-前半 注目論文②

2)Combining Cloud-Based Free Energy Calculations, Synthetically Aware Enumerations 
and Goal-Directed Generative Machine Learning for RapidLarge-Scale Chemical Exploration
and Optimization
(クラウドベースの自由エネルギー計算、合成を考慮した列挙、および目標指向の生成的機械学習を組み合わせて、迅速で大規模な化学探査と最適化を実現)
https://doi.org/10.26434/chemrxiv.11825679.v1

[エグゼクティブサマリー]
 PathFinderルールベースの列挙から生成機械学習用の分子分布を構築し、加重合計QSARベースのマルチパラメーター最適化関数を最適化して、大規模な列挙とクラウドベースの自由エネルギー計算プロファイリングを目標指向の生成型機械学習と組み合わせを実現した。この新しいワークフローを用いたサイクリン依存性キナーゼ2 (CDK2) の阻害剤設計では、10 nM 未満の化合物の識別において、ランダム選択より 6.4 倍、従来法より 1.5 倍の効率化がなされ、市販試薬の範囲外の化学空間探索も迅速であった。

[kwh_rd100のコメント]
 この新しいワークフローは、論文著者らの前報(J. Chem. Inf. Model. 2019, 59, 3782.3793) における3つの不具合、すなわち、第1に、生成された多数のリガンドは、市販の試薬によって制限されており、化学空間全体のごく一部にすぎないこと、第2にリガンドは、PathFinderでエンコードされた合成化学と互換性のある特定の官能基を含むビルディングブロックを使用して生成されるため、ターゲットの効力やその他の特性がリガンド生成中に明示的に考慮されないこと、第3に、数千以上の仮想化合物を生成できるものの、これらの仮想データセットが、次の発想の構造活性相関 (SAR) トレンドを引き出すのに十分な説明性がないため、最適な化合物に到達するためのテストサイクル数が却って増える可能性が残っていること、 全てを解消している。ただし、市販試薬の範囲外の化学空間探索にかかる汎用性は不明。

202002-前半 注目論文③

3)Hierarchical Generation of Molecular Graphs using Structural Motifs
(構造モチーフを使用した分子グラフの階層的生成)
https://arxiv.org/abs/2002.03230 93)

[エグゼクティブサマリー]
 基本的な構成要素として、大幅に大きく柔軟なグラフモチーフを使用する新しい階層グラフエンコーダーデコーダーの提案。原子から接続されたモチーフまで、細かい分子から粗い方法で各分子の多重解像度表現を生成。小分子とポリマーの両方のドメインにおいて従来法よりも優れており、QEDおよびDRD2最適化タスクで3.3%および8.1%の改善し、デコード中、モデルは従前の部分構造ベースの方法よりも6.3倍高速化に成功した。

[kwh_rd100のコメント]
 構造モチーフを構成要素として使用して分子グラフを生成する階層エンコーダー-デコーダーアーキテクチャーであり、モチーフ自体は、サイズに関係なく、頻繁に発生するリング下部構造から最初に個別に抽出され、生成中、分子は、出現する分子に大きなモチーフまたは小さなモチーフを付加することにより、段階的に構築される。デコーダーは、粗から密な方法で階層的に動作し、各パスで3つの連続した予測を行う。新しいモチーフの選択、その部分が結合する部分、および現在の分子との接点決定は高度に結合されており、自然に自動回帰的にモデル化されるため、高精度と高速化を両立させている。実装が公開されるのが待ち遠しい。

さいごに

読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
また、  このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

是非フォローしてください

最新の情報をお伝えします

コメントを残す(投稿者名のみ必須)