計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2021年02月前半の注目論文 BEST3 を紹介させて頂きます。
1)Estimation and visualization of process states using latentvariable models based on
Gaussian process
(ガウス過程に基づく潜在変数モデルを使用したプロセス状態の推定と視覚化)
https://doi.org/10.1002/ansa.202000122
2)Giving Attention to Generative VAE Models for De Novo Molecular Design
(DeNovo分子設計のための生成的VAEモデルにAttentionを向ける)
https://doi.org/10.26434/chemrxiv.13724629.v1
3)The kernel-weighted local polynomial regression (KwLPR) approach: an efficient,
novel tool for development of QSAR/QSAAR toxicity extrapolation models
(カーネル加重局所多項式回帰(KwLPR)アプローチ:QSAR / QSAAR毒性外挿モデルを
開発するための効率的で新しいツール)
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00484-5
目次
2021年02月-前半 注目論文①
1)Estimation and visualization of process states using latentvariable models based on
Gaussian process
(ガウス過程に基づく潜在変数モデルを使用したプロセス状態の推定と視覚化)
https://doi.org/10.1002/ansa.202000122
[エグゼクティブサマリー]
ガウス過程動的モデル(GPDM)に時間遅延プロセス変数を追加したDGPDMは、プロセス状態の推定には2つの潜在変数、10個のプロセス状態でも精度約90%、かつプロセス状態の推定と可視化を同時に達成した。テネシーイーストマンプロセス(TEP)データセットで性能実証した。

[kwh_rd100のコメント]
ガウス過程に基づく教師なし学習方法であり、データセットの確率密度を考慮してプロセスデータを潜在変数zに変換する、カーネル関数を使用して非線形変換が可能なガウス過程潜在変数モデル(GPLVM)を中心に、関連手法であるBGPLVM、iWMM、およびGPDMとの対比がなされており、展開が解りやすい。今後の適用事例蓄積に期待が集まる。
2021年02月-前半 注目論文②
2)Giving Attention to Generative VAE Models for De Novo Molecular Design
(DeNovo分子設計のための生成的VAEモデルにAttentionを向ける)
https://doi.org/10.26434/chemrxiv.13724629.v1
[エグゼクティブサマリー]
Attention追加により、モデルは入力特徴間のより長い範囲の依存関係を学習し、学習した分子埋め込みの品質と解釈可能性を向上できる。ZINCまたはPubChemデータセットでトレーニング。薬物のような分子よりもはるかに大きな分子に有効。実装有り。https://github.com/oriondollar/TransVAE


[kwh_rd100のコメント]
注目の概念を分子設計の分野に導入した意義は大きい。学習される圧縮表現の複雑さは、MosesVAEMosesVAE) <RNNAttn(アテンションレイヤーが追加されたリカレントVAE) <RNN(リカレントVAE)<TransVAE(トランスフォーマーVAE)の順に増加した。モデルの探索と妥当性とのトレードオフの解消に期待が集まる。
2021年02月-前半 注目論文③
3)The kernel-weighted local polynomial regression (KwLPR) approach: an efficient,
novel tool for development of QSAR/QSAAR toxicity extrapolation models
(カーネル加重局所多項式回帰(KwLPR)アプローチ:QSAR / QSAAR毒性外挿モデルを
開発するための効率的で新しいツール)
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00484-5
[エグゼクティブサマリー]
特定帯域幅とカーネル関数による局所的な低次数(0/1)の多項式フィッティングにより、データベースによらず既存の記述子を使用して、従来の線形回帰アプローチの欠点を回避した、カーネル加重局所多項式回帰(KwLPR)ベースのQSAR/QSAARモデルを提案した。5個のケーススタディで高性能。Rコードあり(Additional file 6参照)。


[kwh_rd100のコメント]
大、中、小のさまざまなサイズの5つの異なるケーススタディで有効性と実用性を実証している。カーネル加重局所多項式回帰(KwLPR)にかかる多項式の次数(p)、帯域幅(h)、および選択されたカーネル関数(K)についても丁寧な記述がなされており、Rコードとの連携も十分考慮されていることがありがたい。なお、KwLPRの解釈には、PCA等の外部手法が必要なことには留意する必要がある。
さいごに
読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。また、このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。