2020年07月前半 kwh_rd100の注目論文BEST3

 計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2020年 07月前半の注目論文 BEST3 を紹介させて頂きます。

1)Deep Learning Total Energies and Orbital Energies of Large Organic Molecules Using Hybridization of Molecular Fingerprints
 (分子フィンガープリントのハイブリッド化を用いた大型有機分子の全エネルギーと軌道エネルギーの深層学習)
https://doi.org/10.26434/chemrxiv.12581381.v1
2)DRACON: Disconnected Graph Neural Network for Atom Mapping in Chemical Reactions
 (DRACON:化学反応における原子マッピングのための切断されたグラフニューラルネットワーク)
https://doi.org/10.26434/chemrxiv.12594785.v1
3)BERTology Meets Biology: Interpreting Attention in Protein Language Models
 (BERTologyと生物学の出会い:タンパク質言語モデルにおける注意の解釈) https://arxiv.org/abs/2006.15222

202007-前半 注目論文①

1)Deep Learning Total Energies and Orbital Energies of Large Organic Molecules Using Hybridization of Molecular Fingerprints
(分子フィンガープリントのハイブリッド化を用いた大型有機分子の全エネルギーと軌道エネルギーの深層学習)
https://doi.org/10.26434/chemrxiv.12581381.v1

[エグゼクティブサマリー]

 グラフニューラルネットワーク(GNN)、多体テンソル表現(MBTR)および単純な分子記述子(MD)の組合せによる分子特性の予測フレームワークを提案した。多様な官能基を持つ約62k個の大型複雑有機分子(OE62データセット)の全エネルギー、最高占有分子軌道(HOMO)エネルギー、最低占有分子軌道(LUMO)エネルギーの予測を行い、分子記述子の組み合わせの方が個々の記述子よりも良い結果を得た。

[kwh_rd100のコメント]

 最近の人工知能や機械学習の進歩と、量子力学に基づく大規模なデータセットの利用していく上で、分子の化学的性質やトポロジカルな情報を表現したフィンガープリントの選択により、予測精度が大きく変化する。そこで、予測精度を向上させるために、異なるタイプの分子記述子を組み合わせて分子特性を予測するためのディープラーニングベースのフレームワークは興味深い。

202007-前半 注目論文②

2)DRACON: Disconnected Graph Neural Network for Atom Mapping in Chemical Reactions
(DRACON:化学反応における原子マッピングのための切断されたグラフニューラルネットワーク)
https://doi.org/10.26434/chemrxiv.12594785.v1

[エグゼクティブサマリー]

 反応結果および原子マッピングの両方を同時に予測可能なモデルの提案。分子グラフにおける原子/分子グラフの分類、反応や溶液中の原子の性質の異なる予測が可能。USPTOデータセットにより性能を実証。実装あり。https://github.com/isayevlab/DRACON

[kwh_rd100のコメント]

 主生成物や反応中心の原子を見つけることに焦点を当て、分子グラフの局所的な特徴を利用することで、より複雑な問題に対するモデルの精度を向上させている。分子内の等価対称原子のような多重マッピングの検出には適していないものの、化学反応における原子全体のマッピングと結果予測のための手法を拡張実現が待ち遠しい。

202007-前半 注目論文③

3)BERTology Meets Biology: Interpreting Attention in Protein Language Models
(BERTologyと生物学の出会い:タンパク質言語モデルにおける注意の解釈)
https://arxiv.org/abs/2006.15222

[エグゼクティブサマリー]

 タンパク質シーケンス内のマスクされたアミノ酸を予測するためだけにトレーニングされたTransformer言語モデルが、タンパク質の高レベルの構造的および機能的特性を回復する方法を提示した。生物学的プロセスと整合性が高い。実装あり。https://github.com/salesforce/provis

[kwh_rd100のコメント]

 言語モデリングのような教師なしの手法により、個々のアミノ酸の特性を捉えるだけでなく、タンパク質の折りたたみ構造をキャプチャし、基礎となるシーケンスは離れているもののタンパク質の高次構造的には近い空間領域をしっかりと繋いで結合部位を明確化することで、タンパク質のよりグローバルな特性も識別していることは驚異的ですらある。

さいごに

  読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
 また、このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

コメントを残す(投稿者名のみ必須)