2020年03月後半 kwh_rd100の注目論文BEST3

計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2020年 03月後半の注目論文 BEST3 を紹介させて頂きます。

1)AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data
(AutoGluon-Tabular:構造化データ用の堅牢で正確なAutoML)
https://arxiv.org/abs/2003.06505
2)One Molecular Fingerprint to Rule them All: Drugs, Biomolecules, 
and the Metabolome

(すべてを支配する1つの分子指紋:薬物、生体分子、メタボローム)
https://doi.org/10.26434/chemrxiv.11994630.v1
3)Predicting densities and elastic moduli of SiO2-based glasses 
by machine learning

(機械学習によるSiO 2ベースのガラスの密度と弾性係数の予測)
https://www.nature.com/articles/s41524-020-0291-z

202003-後半 注目論文①

1)AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data
(AutoGluon-Tabular:構造化データ用の堅牢で正確なAutoML)
https://arxiv.org/abs/2003.06505

[エグゼクティブサマリー]
 前処理不要でCSVファイルなどの表形式データセットのファイルパスを渡すだけで学習・予測が完了するオープンソースAutoMLフレームワーク。実質的に必要なPythonコードは、3行のみ(a)AutoGluonの読み込み b)モデル学習 c)予測)で、既存の商用/OSSのAutoMLを上回る性能(シンプル、高い頑健性、高い耐障害性、短い計算時間)を発揮する。
実装あり https://autogluon.mxnet.io/

[kwh_rd100のコメント] 
 先進的なニューラルネットワークを利用して、モデルを1つ選びパラメーター探索するのではなく、反復k-foldのBaggingでの学習モデルを多層スタッキングして、過学習を抑制している。利用するアルゴリズムは高々6つと極端に少ないながら、Kaggleのコンペティション等の50のテーブルデータに対して、制限時間4時間での学習結果を比較したところ、50のデータの内30のデータで1位と圧倒的な好成績。誰でも簡単に機械学習できる時代がまた近くなった。この計算手法に関する続報には注目していきたい。

202003-後半 注目論文②

2)One Molecular Fingerprint to Rule them All: Drugs, Biomolecules, and the Metabolome
(すべてを支配する1つの分子指紋:薬物、生体分子、メタボローム)
https://doi.org/10.26434/chemrxiv.11994630.v1

[エグゼクティブサマリー]
 
最大4つの結合の直径までの最小ハッシュ原子対と部分構造概念とを組み合わせた、薬物などの小分子とペプチドなどの大分子の双方に適用可能な新しい分子指紋(MAP4)の提案。小分子では部分構造エンコーディングが、大分子ではトポロジカル距離での原子ペア認識が、高性能実現に寄与している。このMAP4に使用される最小ハッシュ原子対により、多様なデータベースの高解像度化学空間ツリーマップ(TMAP)の作成も可能。
実装あり https://github.com/reymond-group/map4

[kwh_rd100のコメント]
 小分子および大分子にかかる仮想スクリーニングベンチマーク結果は秀逸。ペプチドとオリゴヌクレオチドの高類似性ペア区別など、非常に類似した分子間の違いも認識できることから、様々な種類&サイズの分子にかかる化学空間を検索/マッピングするのに有用と解される。これでポリマー対応もあれば無敵レベルなのだが、それは欲張り過ぎか。

202003-後半 注目論文③

3)Predicting densities and elastic moduli of SiO2-based glasses by machine learning
(機械学習によるSiO2ベースのガラスの密度と弾性係数の予測)
https://www.nature.com/articles/s41524-020-0291-z

[エグゼクティブサマリー]
 MDシミュレーションと機械学習(勾配ブーストマシンGBM-LASSO)との組合せにより、2成分および3成分のガラスサンプルのみで構成される単純なデータセットによるトレーニングで、SiO2以外に13種類の酸化物添加を含む複雑な組成のSiO2ガラス密度と弾性特性を、迅速、低コストかつ定量的に推定した。
Webアプリ http://vglassdata.org
実装あり https://doi.org/10.13011/m3-4kwv-g523

[kwh_rd100のコメント]
 1000以上のデータ(シミュレーション or 実験データ)による検証で、性能は実証済。物理シミュレーションと組成情報の両方を含めるために、記述子を特定の力場ポテンシャル由来にして、経験的統計モデリングと原子間結合の基礎となる物理的メカニズムとを橋渡しを実現した手法が素晴らしい。GBM-LASSOモデルの拡張性にも大きな期待が持てる。

さいごに

 読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。
 また、このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

コメントを残す(投稿者名のみ必須)