2021年06月後半 kwh_rd100の注目論文BEST3

 計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2021年06月後半の注目論文 BEST3 を紹介させて頂きます。

1)Do Large Scale Molecular Language Representations Capture Important Structural Information?
(大規模な分子言語表現は重要な構造情報をキャプチャしますか?)
https://arxiv.org/abs/2106.09553

2)Dual-view Molecule Pre-training
(デュアルビュー分子の事前学習)
https://arxiv.org/abs/2106.10234

3)Revealing in-plane grain boundary composition features through machine learning from atom probe tomography data
(原子プローブトモグラフィーデータからの機械学習による面内粒界組成の特徴の解明)
https://arxiv.org/abs/2106.10027

202106-後半 注目論文①

1)Do Large Scale Molecular Language Representations Capture Important Structural Information?
(大規模な分子言語表現は重要な構造情報をキャプチャしますか?)
https://arxiv.org/abs/2106.09553

[エグゼクティブサマリー]

 正確な分子構造の特性予測に使う、大規模な自己教師付き事前学習分子言語モデルMOLFOMERの提案。ラベル付けされていない大規模かつ多様な分子のコーパスから、暗黙の構造-物性関係情報を学習できることが最大のメリット。QM9等で性能実証した。

[kwh_rd100のコメント]

 PubChemおよびZINCデータセットからの10億個以上の分子を対象に、大規模で効率的なMolecular LanguageモデルtransFormer(MOLFORMER)を訓練して、より高価かつ専門的なモデルと同レベル精度での3D分子情報を実現しており、素晴らしい。PyTorch系の並列化効果により、比較的限られたハードウェア資源(最大16のV100GPU)で対応可能になったこともありがたい。

202106-後半 注目論文②

2)Dual-view Molecule Pre-training
(デュアルビュー分子の事前学習)
https://arxiv.org/abs/2106.10234

[エグゼクティブサマリー]

 TransformerによるSMILES配列中のマスクされたトークンの予測、GNNによる分子グラフ中のマスクされた原子の予測、これら2つの出力表現間の整合性を最大化する分子の事前学習アーキテクチャーDMPの提案。MoleculeNet等で性能実証した。


[kwh_rd100のコメント]

 マスクされたトークンの予測に加えて、2つのビューから得られる2つの表現の間の一貫性を最大化するDMPは、MoleculeNetからの7つの分子特性予測タスクと、USPTO-fullからの1つの逆合成タスクにおいて、最先端の結果を発揮している。また、学習効率を向上させるために、特定の分子に対して、両方のビューを経由するのではなく、どちらのビューを使用するかを動的に決定する事前学習方法を採用するなどユニークなアプローチが素晴らしい。

202106-後半 注目論文③

3)Revealing in-plane grain boundary composition features through machine learning from atom probe tomography data
(原子プローブトモグラフィーデータからの機械学習による面内粒界組成の特徴の顕在化)
https://arxiv.org/abs/2106.10027

[エグゼクティブサマリー]

 原子プローブ・トモグラフィーのデータを用いて、機械学習をベースにした粒界(GB)の化学的特徴の自動定量化手法の提案。粒子内部、粒子境界、または三重会合点の2万の合成画像を使用して、畳み込みニューラルネットワーク(CNN)の訓練後、原子プローブデータセットから粒界の位置を自動的に検出し、溶質の界面過剰(IE)を定量化し、特徴的な溶質の偏析挙動を把握できる。実装あり。https://github.com/RhettZhou/APT_GB

[kwh_rd100のコメント]

 自動的な界面過剰マッピングにより、内在的および外在的なバイアス除去ができる。データ出力速度も向上し、面倒な作業がなくなるので、アトムプローブ情報の再構成と分析が容易になるのがありがたい。今回の2次元GBネットワークにおける成功を踏まえ、より複雑な多結晶に拡張したケースでの成功報告にも期待したい。

さいごに

 読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。また、このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

コメントを残す(投稿者名のみ必須)