2020年01月後半 kwh_rd100の注目論文BEST3

計算化学.com スタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2020年 01月後半の注目論文 BEST3 を紹介させて頂きます。

1) Multi‐Layer Feature Selection Incorporating Weighted Score‐Based Expert Knowledge toward Modeling Materials with Targeted Properties
(標的特性を備えた材料のモデリングに向けた加重スコアベースの専門知識を組み込んだ多層機能選択)
https://doi.org/10.1002/adts.201900215
2)Discovery of Novel Chemical Reactions by Deep Generative Recurrent Neural Network
(深層生成型リカレントニューラルネットワークによる新しい化学反応の発見)
https://doi.org/10.26434/chemrxiv.11635929.v1
3)Tri-graph Information Propagation for Polypharmacy Side Effect Prediction
(多剤併用副作用予測のための3グラフ情報伝播)
https://arxiv.org/abs/2001.10516

202001-後半 注目論文①

1)Multi‐Layer Feature Selection Incorporating Weighted Score‐Based Expert Knowledge toward Modeling Materials with Targeted Properties
(標的特性を備えた材料のモデリングに向けた加重スコアベースの専門知識を組み込んだ多層機能選択)
https://doi.org/10.1002/adts.201900215

[エグゼクティブサマリー]
 データの固有の特性を利用してさまざまな観点から特徴の重要性を評価し、元のトレーニングセットから無関係で冗長な特徴を排除する多層アプローチDML-FSdek の提案。プロセス全体が自動化されており、ユーザーによる解法選択ならびハイパーパラメーター調整等は原則不要でありながら、メカニズムが最適で解釈可能な機能サブセットを効果的に選択し、予測精度は従来と同等以上である。有機材料の密度や粘度等の 10 種類の材料特性データセットへの適用結果あり。

Figure 1

[kwh_rd100のコメント]
 この DML-FSdek は、ドメインの専門知識と組み合わせた自動機能選択アプローチである。よって、従来、 相応の時間と労力を充当してきた、材料記述子と関心のある特性との関連性を定量化する際に、適切なメソッドの選択ならびに関連するハイパーパラメーター最適化等の作業は不要である。

 この DML-FSdek は、 大規模な材料特性データセットの機能と相関分析を手軽に実行できる方法であるから、ドメイン知識が乏しい初心者が何も考えずにこの手法を使用した場合には、ほとんど実用性のない見栄えだけが良いモデルを作成してしまう懸念は残る。このため、材料モデリングのニーズを満たしているか否かの観点から、モデル精度と信頼性を検証することは必要である。

202001-後半 注目論文②

2)Discovery of Novel Chemical Reactions by Deep Generative Recurrent Neural Network
 (深層生成型リカレントニューラルネットワークによる新しい化学反応の発見)
https://doi.org/10.26434/chemrxiv.11635929.v1

[エグゼクティブサマリー]
 新しい反応 SMILES 文字列 (SMILES/CGR: 反応の凝縮グラフ)を用いて、USPTO 反応データベースで訓練したオートエンコーダーの潜在空間において、正確な化学反応式を追求するのではなく、反応中心の新規性に焦点を当てることに新しい化学反応の発見は可能となる。鈴木カップリング反応に適用して、トレーニングセットの反応では発生しない特定の構造モチーフ(反応中心に新規性あり)が実際の合成に適していることを示した。

Figure 3. Generative Topographic Map of USPTO reactions encoded by the autoencoder latent variables.

[kwh_rd100のコメント]
 化学構造の生成に一般的に使用される SMILES 文字列を使用して、反応物と生成物の構造が1つの分子グラフにマージされた反応の凝縮グラフ(SMILES/CGR) は、標準的な化学反応式とは異なり、CGR 表現における各原子は1回だけ存在し、文字列の長さを大幅に削減でき、反応中心とその近傍に関する情報が含まれる。もちろん、この SMILES/CGR から従来の化学反応式を導出することは簡単である。そこで、この SMILES/CGR を、簡単に計算できる疑似分子と見なして、化学反応の生成を表現したことがこの論文のポイントである。

 このアプローチが、反応データベースの類似性検索、定量的構造反応性モデルの構築、互変異性体分布の評価、活性崖の予測、酵素変換の分類、反応条件の予測などに有効なことが提示されている。ただし、実装が公開されていないため、オートエンコーダー訓練等に要する時間は不明。

202001-後半 注目論文③

3)Tri-graph Information Propagation for Polypharmacy Side Effect Prediction
 (多剤併用副作用予測のための3グラフ情報伝播)
https://arxiv.org/abs/2001.10516

[エグゼクティブサマリー]
 多剤併用 (POSE) 臨床記録と薬理情報を使用して、薬物(D)とタンパク質(P)の2種類のノードを持つマルチモーダル生物医学グラフ(Tri-graph Information Propagation:TIP) モデルの提案。TIP予測精度を 7% 以上、計算時間は 83 倍、メモリ効率の 3 倍向上を実現した。PyTorch 実装あり。https://github.com/NYXFLOWER/TIP

[kwh_rd100のコメント]
 TIP モデルは、タンパク質と薬物をエンコーダー内の異なる次元の異なるスペースに埋め込み、デコーダー内の薬物の組み合わせの副作用を予測する。TIPは最初に PP グラフ(タンパク質間相互作用(固定ラベル付き))に埋め込まれたタンパク質を学習し、PD グラフ(タンパク質と薬物の相互作用(固定ラベル付き))を介して DD グラフ(エッジラベルとしての副作用を伴う薬物間相互作用)に渡すことにより、表現を徐々に学習している。この DD グラフで、TIP は薬物の埋め込みを学習し、薬物間の関係を予測している。 

 グラフが非常に複雑になる場合の高い計算コストとメモリ需要の制限に対応しつつ、予測精度を 7 %以上向上していることは素晴らしい。

さいごに

 読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。

 また、このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

コメントを残す(投稿者名のみ必須)