2020年10月後半 kwh_rd100の注目論文BEST3

 計算化学.comスタッフの kwh_rd100 です。各種の計算ソフト群をツールと割り切って使う立場から、2020年 10月後半の注目論文 BEST3 を紹介させて頂きます。

1)ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction
(ChemBERTa:分子特性予測のための大規模な自己教師あり事前トレーニング)
https://arxiv.org/abs/2010.09885

2)Scientific intuition inspired by machine learning generated hypotheses
(機械学習によって生成された仮説に触発された科学的直感)
https://arxiv.org/abs/2010.14236

3)Predicting Gas-Particle Partitioning Coefficients of Atmospheric Molecules
 with Machine Learning
(機械学習による大気分子のガス粒子分配係数の予測)
https://arxiv.org/abs/2010.14207

202010-後半 注目論文①

1)ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction
(ChemBERTa:分子特性予測のための大規模な自己教師あり事前トレーニング)
https://arxiv.org/abs/2010.09885

[エグゼクティブサマリー]

 ChemBERTモデルを用いて、分子特性予測タスクにおけるトランスフォーマーの体系的に評価し、このChemBERTが事前学習用データセットのサイズによく対応し、MoleculeNet上での競争力のある下流性能と、有用な注目に基づいた可視化モダリティを提供することを実証した。

[kwh_rd100のコメント]

 ChemBERTが分子表現の学習と特性予測のための有望な道筋であることを示した意義は大きい。最近のハイブリッドグラフ変換モデルの組み込み等によりサンプル効率を大きく向上させ、ZINC-15(化合物数:2億7千万)のような巨大なセットへの適用された結果の提示が待ち遠しい。

202010-後半 注目論文②

2)Scientific intuition inspired by machine learning generated hypotheses
(機械学習によって生成された仮説に触発された科学的直感)
https://arxiv.org/abs/2010.14236

[エグゼクティブサマリー]

 自然科学分野における観測結果に関する仮説の自動生成と検証のためのデータ駆動型機械学習ワークフローを提示した。決定木に勾配ブースティングを適用して、化学および物理学のビッグデータセットから人間が解釈できる洞察を抽出する。

[kwh_rd100のコメント]

 化学および物理学のビッグデータセットのみならず、生物学のDNA/RNAデータ社会科学のグラフなど、構造をグラフとして表現できる分野ならば直接適用可能とのこと、このようなルール(≒化学的直感)を見つけることは、より良い実験の設計に役立つだけではなく、検出不可能なバイアスを減らすことにつながる。この方法による具体的な成功例の報告が待ち遠しい。

202010-後半 注目論文③

3)Predicting Gas-Particle Partitioning Coefficients of Atmospheric Molecules
 with Machine Learning
(機械学習による大気分子のガス粒子分配係数の予測)
https://arxiv.org/abs/2010.14207

[エグゼクティブサマリー]

 カーネルリッジ回帰(KRR)を用いて分子構造と大気中のパーティショニング挙動をマッピングした結果、接続性情報のみを必要とし、SMILES文字列から構築でき、データ構造が比較的小さく機械学習に必要な計算時間とメモリ削減可能なトポロジカルフィンガープリント(TopFP)が、最良の学習品質をもたらす分子記述子であることを示した。

[kwh_rd100のコメント]

 著者は、ある化合物が極めて低い揮発性を持つ可能性が高いかどうかを評価するために非常に有用という。確かに、測定や計算が難しい場合に適用可能な、分子構造を入力として物性予測するための機械学習モデルは多数開発されており、揮発性という特定物性に注目するのも一つの価値である。
 しかし、本手法の最大の特長は、多体テンソル表現(MBTR)など従来手法に残された課題(分子の3次元構造情報が必須であり、コンフォーマー探索問題もある)が原則として生じないトポロジカルフィンガープリント(TopFP)を採用したことにあるとの解釈は如何でしょう。

さいごに

 読者各位の計算化学ライフの更なる充実に少しでも貢献できれば嬉しいです。 記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると助かります。また、このような話題を取り上げて欲しいなどのリクエストも大歓迎です。可能な限り、前向きに対応致します。

コメントを残す(投稿者名のみ必須)