2019 年 11 月前半 kwh_rd100 の注目論文 BEST3

計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2019 年 11 月前半の注目論文 BEST3 を紹介させて頂きます。

  1. Fragment Graphical Variational AutoEncoding for Screening Molecules with Small Data (小さいデータで分子をスクリーニングするためのフラグメントグラフィカル変分自動エンコーディング) https://arxiv.org/abs/1910.13325
  2. Molecular Transformer: A Model for Uncertainty-Calibrated Chemical Reaction Prediction (1秒未満の計算コストで化学的精度に近い有機分子のホモリシス結合解離エンタルピーの予測) https://arxiv.org/abs/1910.03741
  3. SMILES Transformer: Pre-trained Molecular Fingerprint for Low Data Drug Discovery
    (SMILES Transformer:低データの創薬のための事前に訓練された分子指紋)
    https://jcheminf.biomedcentral.com/articles/10.1186/s13321-019-0386-z

201911-前半 注目論文①

Fragment Graphical Variational AutoEncoding for Screening Molecules with Small Data (小さいデータで分子をスクリーニングするためのフラグメントグラフィカル変分自動エンコーディング) https://arxiv.org/abs/1910.13325

[エグゼクティブサマリー]
機械学習を分子最適化問題に適用する際の最大の障害は、数理モデル構築用の実験データまたは理論的知識が不十分なことである。そこで、大きなグラフを直接デコードするのではなく、再結合して大きなグラフを再作成可能な小さなグラフ(フラグメント)のバッグを直接自動エンコードする方法 (FraGVAE)を提案。有機半導体の安定化添加剤の探索で、このFraGVAEがブラックボックス分子最適化として優れることを実証。実装あり(https://github.com/OE-FET/FraGVAE)。 


[kwh_rd100のコメント]
 分子最適化タスクの大部分では、特定のタスクで大きな実験データセットを生成できないため、機械学習モデルが利用できない、だからデータの蓄積志向が増大するのは、よく聞く話ではある。しかし、この論文では、「構造が機能に関連している」という大前提の下、難易度が高い大きなグラフを直接デコードせず、再結合して大きなグラフを再作成できる小さなグラフ(サブグラフまたはフラグメント)のバッグを直接自動エンコードする。エンコーディングは、 DFT 計算よりも数万倍以上速い メッセージパッシングニューラルネットワーク(MPNN)を採用 (MPNNについては、例えば https://arxiv.org/abs/1702.05532 を参照されたい)。 その上で、分子グラフの再構築は、分子グラフのサイズに応じて階乗する方式のため、小さなデータセットの圧縮表現の生成に有利。極めて戦略的なアプローチで惚れ惚れする。

201911-前半 注目論文②

Prediction of Homolytic Bond Dissociation Enthalpies for Organic Molecules at near Chemical Accuracy with Sub-Second Computational Cost (1秒未満の計算コストで化学的精度に近い有機分子のホモリシス結合解離エンタルピーの予測) https://doi.org/10.26434/chemrxiv.10052048.v2

[エグゼクティブサマリー]
 C、H、O、N原子を含む有機分子の結合解離エンタルピー (BDE) を、最新のDFT 計算に匹敵する精度で数秒で計算できる深層学習系予測ツール (ALFABET)。Webあり(https://ml.nrel.gov/bde)。薬物設計や燃焼経路への応用例あり。


[kwh_rd100のコメント]
有機分子の結合解離エンタルピー(BDE)は、化学反応性を決定する上で重要なファクタであるが、これを高精度量子化学計算 (CCSD(T)) で求めるにはかなりの計算リソースが必要となる (CCSDについては、本Blog記事「Coupled Cluster 法」を参照されたい)。そこで、著者らは、まず3種類のDFTと2種類の基底関数の組合せをテストして、CCSD(T)の精度に非常に近かった M06-2X/def2-TZVP を用いた計算により約29万のBDEデータセットを学習用に準備した。次いで、グラフニューラルネットワークを訓練し、平均絶対誤差(MAE)0.58 kcal/mol に到達している。これを「力技」と評するのは簡単だが、開発した予測ツールを Web 公開しており、今後、更に適用範囲の拡充されることを期待したい。

201911-前半 注目論文③

SMILES Transformer: Pre-trained Molecular Fingerprint for Low Data Drug Discovery
(SMILES Transformer:低データの創薬のための事前に訓練された分子指紋) https://arxiv.org/abs/1911.04738

[エグゼクティブサマリー]
ラベルの付いていない SMILES の巨大なセットで事前にトレーニングされたTransformer ベースの seq2seq により生成されるデータ駆動型の分子指紋(ST fingerprint)は、特に十分なラベル付きデータがない場合に効果的。実装あり(https://github.com/DSPsleeporg/smiles-transformer)。

[kwh_rd100のコメント]
Chembl24 データセットの 100 文字以下の 170 万分子の標準 SMILES を使用して学習している。既存のフィンガープリントとグラフベースの方法に対する 10 種類のベンチマーク結果は、著者が開発した新メトリックを使って5勝5敗。十分なラベル付きデータがないことを考慮すると大きな成果。著者らは、 将来の課題として、①ST-TransformerをTransformer-XLへの置換、②マルチタスク方式でのトレーニング、③同じ分子の異なるSMILESセットの利用による潜在空間の制限を想定している。これらの併用により、更に精度向上が期待できることから、続報にも期待したい。

さいごに

  読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
 また、 このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

関連する記事

是非フォローしてください

最新の情報をお伝えします

コメントを残す(投稿者名のみ必須)