2020年05月後半 kwh_rd100の注目論文BEST3

 計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2020年 05月後半の注目論文 BEST3 を紹介させて頂きます。

1)Exploiting machine learning to efficiently predict multidimensional optical spectra in complex environments
(複雑な環境で多次元光学スペクトルを効率的に予測するための機械学習の活用)
https://arxiv.org/abs/2005.09776

2)SMILES Pair Encoding: A Data-Driven Substructure Tokenization Algorithm for Deep Learning
(SMILESペアエンコーディング:ディープラーニング用のデータ駆動型部分構造トークン化アルゴリズム)
https://doi.org/10.26434/chemrxiv.12339368.v1

3)Frequency-dependent dielectric constant prediction of polymers using machine learning
(機械学習を使用したポリマーの周波数依存誘電率予測)
https://www.nature.com/articles/s41524-020-0333-6

202005-後半 注目論文①

1)Exploiting machine learning to efficiently predict multidimensional optical spectra in complex environments
(複雑な環境で多次元光学スペクトルを効率的に予測するための機械学習の活用)
https://arxiv.org/abs/2005.09776

[エグゼクティブサマリー]
 エレクロニック励起の局所性を利用した、クロモフォア原子の寄与のみを明示的に考慮した間接溶媒法を適用した機械学習モデルで複雑な環境下での発色団の励起状態を低コストで正確に予測できた。機械学習と量子力学的手法との組み合わせにより、複雑な環境下での発色団の光力学や多次元分光を研究することを可能にした。

[kwh_rd100のコメント]
 本論文で溶媒和発色団の励起状態エネルギーギャップの高精度な予測に成功している。この機械学習手法は、電子励起が分子上の局在に関する既存の知識(例えば、π系のみとか)があれば、これを活用して、さらに発色団の特定の部分にモデルを局在化することも可能である。このようなマニュアル操作で、間接溶媒モデルのデータ効率を向上させることが可能であり、今後の展開が楽しみである。

202005-後半 注目論文②

2)SMILES Pair Encoding: A Data-Driven Substructure Tokenization Algorithm for Deep Learning
(SMILESペアエンコーディング:ディープラーニング用のデータ駆動型部分構造トークン化アルゴリズム)
https://doi.org/10.26434/chemrxiv.12339368.v1

[エグゼクティブサマリー]
 深層学習のためのSMILES Pair Encoding(SPE)の提案。最初に大規模な化学データセット(ChEMBLなど)から高頻度のSMILESサブストリングの語彙を学習し、次に、ディープラーニングモデルの学習語彙に基づいてSMILESをトークン化し、計算コスト低減に成功。実装あり。https://github.com/XinhaoLi74/SmilesPE

[kwh_rd100のコメント]
 バイトペアエンコーディング(BPE)に着想を得て、最初に大規模な化学データセット(ChEMBLなど)から高頻度のSMILESサブストリングの語彙を学習し、次に、ディープラーニングモデルの学習語彙に基づいてSMILESをトークン化している。Pythonパッケージ(SmilesPE)のみならず、トレーニング済のSMILES Pair Encoding(SPE)語彙集も公開しており、トレースした上で独自の改良も可能なのはありがたい。

202005-後半 注目論文③

3)Frequency-dependent dielectric constant prediction of polymers using machine learning
(機械学習を使用したポリマーの周波数依存誘電率予測)
https://www.nature.com/articles/s41524-020-0333-6

[エグゼクティブサマリー]
 広範囲な周波数(15桁にわたる)で1210の実験値を用いて、3レベル(原子レベル、ブロックレベル、チェーンレベル)の階層型ポリマーフィンガープリントを構築した後、LASSO次元削減した。ガウスプロセス回帰(GPR)により構築したモデルを用いて目的の誘電率を持つ新ポリマー設計に成功した。Webアプリあり(http://www.polymergenome.org/)

[kwh_rd100のコメント]
 開発されたモデルは高精度であり普遍性もある。広範囲の周波数(60〜10^15Hz)にわたってポリマーの誘電率ϵを予測可能であり、ガウスプロセス回帰(GPR)の不確実性が機械学習予測の信頼性ガイドとなる。近い将来、自然言語処理を使用して、文献からより多くのデータを収集して、モデルのパフォーマンスとデータセットの多様性が改善されると考えられる。そのときの性能評価結果を楽しみに待ちたい。

さいごに

 読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
 また、  このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

コメントを残す(投稿者名のみ必須)