2020年03月前半 kwh_rd100の注目論文BEST3

計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2020年 03月前半の注目論文 BEST3 を紹介させて頂きます。

1)A Deep Learning Approach to Antibiotic Discovery
 (抗生物質発見への深層学習アプローチ)
 https://doi.org/10.1016/j.cell.2020.01.021
2)Computer Vision for Recognition of Materials and Vessels in Chemistry Lab Settings and the Vector-LabPics Dataset
 (化学実験室設定およびVector-LabPicsデータセットでの材料および容器の認識のためのコンピュータービジョン)
 https://doi.org/10.26434/chemrxiv.11930004.v2
3)A Bayesian algorithm for retrosynthesis
 (逆合成のためのベイジアンアルゴリズム)
 https://arxiv.org/abs/2003.03190

202003-前半 注目論文①

1)A Deep Learning Approach to Antibiotic Discovery
 (抗生物質発見への深層学習アプローチ)
 https://doi.org/10.1016/j.cell.2020.01.021

[エグゼクティブサマリー]
  従来の抗生物質とは構造的に異なり、かつ並外れた広域抗菌性を有する「ハリシン」の同定。 Message Passing Neural Network(MPNN)を数千個の分子コレクションでトレーニングした後、これを複数の化学ライブラリ(分子数は1億超 )に適用して、潜在的なリード化合物を特定した。最終的には、モデルの予測スコアに従って化合物をランク付けして、当該 「ハリシン」 を同定するに至った。
実装あり https://github.com/chemprop/chemprop
Webアプリ http://chemprop.csail.mit.edu/

Figure 1 Machine Learning in Antibiotic Discovery
Figure 2 Initial Model Training and the Identification of Halicin

[kwh_rd100のコメント]
 機械学習の応用として、 抗生物質発見機が熟してきたことを示唆している論文で、成果インパクトのみならず、成功の鍵として、「トレーニング用のアッセイ設計」、「トレーニングデータ自体の構成」および「予測の優先順位付け」の3点を明示し、その詳細が記述されている。モデルおよびデータセット以外にWebアプリも公開されており、気軽にTRYできることもありがたい。

202003-前半 注目論文②

2)Computer Vision for Recognition of Materials and Vessels in Chemistry Lab Settings and the Vector-LabPics Dataset
(化学実験室設定およびVector-LabPicsデータセットでの材料および容器の認識のためのコンピュータービジョン)
https://doi.org/10.26434/chemrxiv.11930004.v2

[エグゼクティブサマリー]
 化学物質とVector-LabPicsデータセットに合わせて調整された一連の新しいコンピュータービジョン手法の提示。畳み込みニューラルネット(CNN)により、ほぼ透明なコンテナ/容器で、容器と材料相の検出とセグメント化、および液体/固体について高精度な分類に成功。相分離液体などの多相システムのセグメント化については精度改善の余地が残っている。
実装あり https://github.com/aspuru-guzik-group/Semantic-segmentation-of-materials-and-vessels-in-chemistry-lab-using-FCN
データセット https://github.com/aspuru-guzik-group/Computer-vision-for-the-chemistry-lab

[kwh_rd100のコメント]
数千枚の画像データのみで、一般的な条件下で中程度の精度を実現しており、驚異的な成功報告である。 容器と材料状況を画像認識できるマシンビジョンシステムが、ロボットシステムと統合されると自律的な自動化ラボとなる。 、ラボシステムの完全自動化が間近になったことを実感させてくれる。

202003-前半 注目論文③

3)A Bayesian algorithm for retrosynthesis
(逆合成のためのベイジアンアルゴリズム)
https://arxiv.org/abs/2003.03190

[エグゼクティブサマリー]
 ベイズの逆合成アルゴリズムの開発。逆合成の予測問題を全面的に見直して、従前からの ターゲット製品からの反応入力の逆方向の直接予測ではなく、反応物から生成物へのマッピングする高精度なフォワード反応モデルを得て、市販化合物の可能なペアを用い、与えられたフォワードモデル内のターゲット製品から反応物のペアへの逆マッピング探索し、高い予測精度を実現した。
実装あり https://github.com/zguo235/bayesian_retro

[kwh_rd100のコメント]
 論文によると、 合成化学者は本システム提案の 2 段階反応の約6割について、反応性不足等による 低収率等を理由として、有用性が低いと結論したことが記載されている。この原因として、著者らは、訓練データが公開データ(≒反応性の高い反応)についてのみされ、否定的な データ (低収率または失敗した反応に関するデータ)が適用されていないことを挙げている。これを解消するために、実験室での合成、文献、化学者の手作業によるヒューリスティックまたは高スループット量子化学計算での実験観察による「否定的な反応データ」集の構築を提案している。
 確かに「否定的な反応データ」も必要である。しかし、 実験化学者にとっては反応開発時の失敗例でもある否定的な反応例は、特許文献における比較例と同様、 これを積極的に多数公開するとは考え難い。むしろ、敵対的生成ネットワーク(Generative adversarial networks:GANs) によるディープフェイクの適用を検討した方が良いように思う。

さいごに

 読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
 また、このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

コメントを残す(投稿者名のみ必須)