2020年06月前半 kwh_rd100の注目論文BEST3

計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2020年 06月前半の注目論文 BEST3 を紹介させて頂きます。

1)Unassisted Noise-Reduction of Chemical Reactions Data Sets
(化学反応データセットの支援なしのノイズ低減)
https://doi.org/10.26434/chemrxiv.12395120.v1
2)Pushing property limits in materials discovery via boundless objective-free exploration
(材料の発見でプロパティの制限を押す経由で無限の目的のない探求)
https://doi.org/10.1039/D0SC00982B
3)Chemical space exploration based on recurrent neural networks: applications in discovering kinase inhibitors
(リカレントニューラルネットワークに基づく化学空間探査:キナーゼ阻害剤の発見への応用)
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00446-3

202006-前半 注目論文①

1)Unassisted Noise-Reduction of Chemical Reactions Data Sets
(化学反応データセットの支援なしのノイズ低減)
https://doi.org/10.26434/chemrxiv.12395120.v1

[エグゼクティブサマリー]
 機械学習(ML)をベースとした非アシスト型の新しいデータノイズ低減とバランシング戦略の設計。逆合成において、統計的ノイズ低減後(データ量30%減)において、推論時カバレッジ(97%)かつクラス多様性(1.6)を維持。

[kwh_rd100のコメント]
 AIが駆動する化学合成の文脈では、「壊滅的忘却」(AIモデルが新しいタスクで訓練されたときに、以前に学習したイベントを忘れる傾向にあること)の原因が、異なる学習バッチの化学反応の特徴の分布間の限られた重複に遡ることができる。 学習が困難なデータポイントが間違った文法の例である可能性が高い言語モデルと同様に、反応予測モデルの訓練中に学習するのが最も困難なのは、データセットの大部分で記述された化学文法と比較すると、間違った化学の例である可能性が高いという仮説に基づいている。データセットの各エントリを検査し、学習中に忘れられた回数を調べて、最も忘れられたケースを一定の割合で削除し、新しいモデルを潜在的な化学文法をより良く表現した “クリーン “なデータセットで訓練することにより、化学データセットにおける効果的な統計的ノイズ低減を実現しており、とても興味深い。

202006-前半 注目論文②

2)Pushing property limits in materials discovery via boundless objective-free exploration
(材料の発見でプロパティの制限を押す経由で無限の目的のない探求)
https://doi.org/10.1039/D0SC00982B

[エグゼクティブサマリー]
 既知物質のデータベースを利用し、未知物質のうち最も例外的と考えられる物質を提案するAI「BLOX(BoundLess Objective-free eXploration)」の開発。ZINCデータベースを用いて、開発したAI(BLOX)とDFT計算とを組み合わせて、例外的な光吸収特性分子を探索することに成功した。

[kwh_rd100のコメント]
 従来からのデータ駆動型科学では、所望の材料特性をターゲット設定して、これに合致する材料開発をしてきた。しかし、このBLOXは、機械学習をうまく組み合わせることで例外の度合いを数値化し、予想外・想定外なものを効率的に発見する枠組みである。化学・材料分野のみならず、幅広い科学分野における例外的事象の探索での活用報告も期待される。

202006-前半 注目論文③

3)Chemical space exploration based on recurrent neural networks: applications in discovering kinase inhibitors
(リカレントニューラルネットワークに基づく化学空間探査:キナーゼ阻害剤の発見への応用)
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00446-3

[エグゼクティブサマリー]
 分子生成にリカレントニューラルネットワーク(RNN)を適用して、最適化なしでシーケンスの再編成を実行し、アクティビティに寄与する主要なフラグメントを抽出し、さらなる組み立てにより、新規で潜在的にアクティブな生成分子を提供できることを実証した。
実装あり:https://github.com/Xyqii/RNN_generator

[kwh_rd100のコメント]
 AIベースの生成モデルの中で、最も単純なアルゴリズムを使用しているものの、リカレントニューラルネットワーク(RNN)に基づくモデルは、複雑な分子が異なるSMILESシーケンスを持つ可能性があるという点を、トレーニング分子に類似した分子を効果的に生成するのに役立てている。このため、活性分子の知識がほとんどない新しいターゲットに関しても有用であることがありがたい。

さいごに

 読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
 また、このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

コメントを残す(投稿者名のみ必須)