2019年9月後半の注目論文BEST3

 計算化学.com スタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2019年9月後半の注目論文BEST3を紹介させて頂きます。

  1. SMILES-BERT: Large Scale Unsupervised Pre-Trainingfor Molecular Property Prediction
    (SMILES-BERT:分子特性予測のための大規模な教師なし事前トレーニング)
    https://dl.acm.org/citation.cfm?doid=3307339.3342186
  2. Graph Nets for Partial Charge Prediction
    (部分充電予測のグラフネット)
    https://arxiv.org/abs/1909.07903
  3. Sparse Representation of Gaussian Molecular Surface
    (ガウス分子表面のスパース表現)
    https://arxiv.org/abs/1909.09095

【参考】:2019年9月前半の注目論文BEST3

201909-後半 注目論文①

SMILES-BERT: Large Scale Unsupervised Pre-Trainingfor Molecular Property Prediction
(SMILES-BERT:分子特性予測のための大規模な教師なし事前トレーニング)
https://dl.acm.org/citation.cfm?doid=3307339.3342186

[エグゼクティブサマリー]
  半教師付き学習法。大規模なラベルなしデータによるモデルの事前トレーニング後、微調整を介して異なる分子特性予測に適用して、LogP、PM2、PCBAで有効性を確認した。ただし、薬らしさ (Drug-likeness) にかかる定量的推定(QED) 予測は今後の課題となっている。

[kwh_rd100雑感]
 BERT (Bidirectional Encoder Representations from Transformers:Transformerを活用した双方向的エンコード表現) の発表 ( 2018年10月,1a)) を見て、いずれSMILESとの組合せも報告されると思ってはいました。こんなに速いとは。やはり、この分野は「秒進日歩」です。この論文では、BERTへの当て嵌めも丁寧に記載されており、門外漢である僕にも理解し易いです(嬉)。
 今後は、第1に BERTの後継 ALBERT (2a), パラメータ削減→メモリ消費量を抑制し、BERTのトレーニング速度および精度向上したシステム)における適用、 第2にsmiles-X3)Big-Smiles4)などの 様々な拡張 smiles への適用に興味があります。

[参考文献]
1a) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
https://arxiv.org/abs/1810.04805
1b) BERT解説:自然言語処理のための最先端言語モデル
https://ainow.ai/2019/05/21/167211/
2a) ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
https://arxiv.org/abs/1909.11942
2b) Google’s ALBERT Is a Leaner BERT; Achieves SOTA on 3 NLP Benchmarks
https://medium.com/syncedreview/googles-albert-is-a-leaner-bert-achieves-sota-on-3-nlp-benchmarks-f64466dd583
3) smiles-X
https://arxiv.org/abs/1906.09938
4) Big-Smiles
https://pubs.acs.org/doi/10.1021/acscentsci.9b00476

201909-後半 注目論文②

Graph Nets for Partial Charge Prediction
(部分充電予測のグラフネット)
https://arxiv.org/abs/1909.07903

[エグゼクティブサマリー]
 分子トポロジーで動作し、その上で情報を伝播する更新および集合関数のセットに、正味電荷制約を適用した。データセット (ChEMBLデータベースの350 259分子) 内ではシステムサイズが増加しても DFT 計算並の予測精度は低下せず、かつ計算速度は DFT 計算の500倍以上速い!実装 (GitHub) あり。

[kwh_rd100雑感]
 Python および TensorFlow で記述された分子トポロジ空間のモデリング、学習、および推論のためのパッケージ gimlet ( https://github.com/choderalab/gimlet) 上にて展開されており、トレースは容易。ただし、計算で使用される立体配座は最も低いエネルギーであるから、(とりあえずは)トポロジーで OK とされているが、汎化性は乏しそう。立体配座の影響に関する続報を期待しつつ、待つことに致します。

201909-後半 注目論文③

Sparse Representation of Gaussian Molecular Surface
(ガウス分子表面のスパース表現)
https://arxiv.org/abs/1909.09095

[エグゼクティブサマリー]
  任意の分子に対して疎なガウス分子表面表現の提案。元の分子表面は、楕円ガウス動径基底関数 (RBF) で近似され、RBF 表現のスパース性は、非線形 L1 最適化問題を解くことで達成。元の分子表面を表現するのに要する楕円ガウス RBF の数がはるかに少なくて済む。



[kwh_rd100雑感]
 地味だけど味わい深い論文。このガウス分子表面のスパース表現は、 分子構造のアラインメント、分子面積と体積の計算など、さまざまなアプリケーションで役立つ。特に、大きな生体分子など、 従来法ではガウスカーネル関数の数が数百万となるような系での効果が顕著となる。原理的には、粗視化分子モデリングにも適用できるはずだが、実装上の課題がよく判らない。詳しい方からコメントを頂戴できれば嬉しいです。

さいごに

  読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
 また、 このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

関連する記事

コメントを残す(投稿者名のみ必須)