2019年10月後半 kwh_rd100の注目論文BEST3

計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2019年10月後半の注目論文BEST3を紹介させて頂きます。

  1. Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules
    (香りの機械学習:小分子の一般化された知覚表現の学習)
    https://arxiv.org/abs/1910.10685
  2. Multiple-objective Reinforcement Learning for Inverse Design and Identification
    (逆設計と同定のための多目的強化学習 )
    https://arxiv.org/abs/1910.03741
  3. A visual approach for analysis and inference of molecular activity spaces
    (分子活動空間の分析と推論のための視覚的アプローチ)
    https://jcheminf.biomedcentral.com/articles/10.1186/s13321-019-0386-z

201910-後半 注目論文①

Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules 
(香りの機械学習:小分子の一般化された知覚表現の学習)
https://arxiv.org/abs/1910.10685

[エグゼクティブサマリー]
専門的にラベル付けされた単一分子の匂い物質の新規で大規模なデータセットを組み立て、分子の構造と匂いの関係を予測するために有用なグラフニューラルネットワークを得た。これは、 純粋に構造的な類似性ではなく知覚的な類似性に基づいて分子をクラスター化する匂い空間の表現を学習できたことを意味する。言い換えれば、分子の構造と匂いの関係の汎用表現を捕らえたことを意味する。

[kwh_rd100雑感]
この方法では、原子の空間位置についての情報は利用していないため、 立体異性体(例えば、D-リモネン(柑橘系の香り:強いレモン臭)とL-リモネン(森の香り:ハッカやスペアミントの香り成分の一つ) を区別しなくても、臭気を予測できていることが不思議ではある。
著者らは、「匂いは感覚の中で最もとらえどころのないまま」であり、「安価で持続可能に生産される新しい嗅覚分子の設計」から「香りをデジタル化する」、あるいはいつかは「香りの感覚のない人にバラへのアクセスを与える」としている。デジタル化された香りがもたらす世界を想像するだけでも楽しい。

[参考文献]
1) 匂いの学習:分子の嗅覚特性を予測するための深層学習の使用https://ai.googleblog.com/2019/10/learning-to-smell-using-deep-learning.html
2) 匂いを分子構造から嗅ぎ分けて予測するAIをGoogleが開発 – GIGAZINE
https://gigazine.net/news/20191025-ai-recognize-smell-molecule/

201910-後半 注目論文②

Multiple-objective Reinforcement Learning for Inverse Design and Identification
( 逆設計と同定のための多目的強化学習 )
https://arxiv.org/abs/1910.03741

[エグゼクティブサマリー]
逆設計の目的は、特定の分子特性または目的を持つ最適化された新しい分子の開発にあり、既に生成 RNN モデルや GAN などによる成功事例がある。しかし、既報の同時最適化プロパティ数は高々5つと少ない。そこで、修正カリキュラムトレーニングアプローチにより、多目的 (20+) 強化学習のトレーニングヒューリスティックを開発し、第2にバイオ燃料アプリケーションに関連する単純な有機分子の化学的同定のための最初の多目的強化学習ベースの生成深層学習モデルを開発した。

[kwh_rd100雑感]
この論文は、 同時最適化プロパティ数 20 以上に成功したという実務的な側面と、 分子逆設計問題に初めてカリキュラム学習(難しい事を一気に学習させようとするのではなく、段階的に簡単な問題からトライさせて一歩一歩学習させるアプローチ)を適用したという学術的な側面を持っている。
また、従来の化学物質の識別は、質量分析 (MS) や核磁気共鳴 (NMR) スペクトルのデータベースマッチングが多用されてきた。しかし、この方法では、データベース未掲載物質は原理的に扱えない。仮に全ての化学物質 (10^{60}〜10^{100}) を 掲載したデータベースがあったとしても、 マッチングに膨大な計算量を要するため、事実上実施困難である。
一方、強化学習の報酬関数に一連の制約(分子量、元素組成、特定の官能基など)を組み込み、 検索スペースを合理的に制約する本手法は、全ての制約を満たしつつ、かつ新しい化学構造に到達できるというメリットがある。まさに発想の転換で成功した事例でもある。


[参考文献]
1)多様な強化学習の概念と課題認識
https://www.slideshare.net/yukono1/ss-102843951
2)ML-Agentsで自動運転シミュレーション
https://qiita.com/amb_00/items/fe549090a0f2ee67db1b

201910-後半 注目論文③

[エグゼクティブサマリー]
分子間の 2D 構造の類似性のみを使用して、視覚的に有益なノンパラメトリックモデル (分子活性の確率的表面:PSMA)を生成した。この方法は、大きなアクティビティ空間内での仮想スクリーニングに有用である。R 言語による実装あり。

   Fig.1 Overview of the methodology

[kwh_rd100雑感]
生の類似性データからノンパラメトリックモデルを構築できるこの手法は、 視覚化に役立ち、明確な予測特性を備えているので重宝する。もちろん、形状について仮定はないし、 分子活性の確率的表面 (PSMA) は座標軸から独立している。
また、 適用範囲が限られている従来の QSAR モデルとは異なり、このアプローチ (PMSA視覚化) は構造的類似性を直接使用しているため、大きなアクティビティ空間内での 構造活性相関 (SAR) 視覚化を強化できる。
この論文では、 主な分子空間のデータ視覚化手法 4 つ (PCooA:Principal Coordinates Analysis,MDSとも呼ばれる)、Kruskal 多次元スケーリング(KMDS)、Sammonマッピング (SM)、および t分布型確率的近傍埋め込み法( t-SNE :t-Distributed Stochastic Neighbor Embedding)などの関連手法についても、丁寧な記述がなされている。 実装 (R 言語) も含め、初学者にも優しいことに好感が持てる。

さいごに

  読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
 また、 このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

関連する記事

コメントを残す(投稿者名のみ必須)