最近、人工知能(AI)に対する関心が非常に高まっています。
以前見た NHK のドキュメンタリー「人工知能は悪魔か天使か?」では、すでに実社会で応用されている AI が紹介されていました。
もっとも有名なのは囲碁や将棋のソフトだと思いますが、その他にも刑務所での仮出所の判断(海外)、タクシーの乗降データの予測、社員面談の結果を元に退職確率を予測する などなど、自分が思っていたよりも人工知能が実社会で使われていたことに驚きを感じました。
当然、人工知能を使おうという流れは人工知能の専門家ではない研究者の間でも広まりつつあります。また、人工知能に関連する各種のキーワード、機械学習 、ディープラーニング、ニューラルネットワークなどの使用が実験科学者の間でも一般的になりつつあります。コンピューターに疎い研究者はこれからどんどん取り残されていくのでは?という思ってしまいます。
つい先日、JCTC にニューラルネットワークを利用したコンフォメーション探索の論文が乗っていましたので、簡単に紹介します。
“Neural Network Based Prediction of Conformational Free Energies – A New Route toward Coarse-Grained Simulation Models”
Tobias Lemke & Christine Peter. J. Chem. Theory Comput. in press.
ニューラルネットワークって何?という方には、O’REILLY の “ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装” を読まれることをオススメします。
概要
粗視化シミュレーション (Coarse-grained simulation model) は、複雑な分子システムを、原子的分解能でのシミュレーションでは計算しきれない長さ、時間スケールで、高い計算効率でシミュレートする非常に一般的なツールになってきました。いわゆるボトムアップ粗視化シミュレーションでは、粗視化モデルにおける相互作用は構成相空間の原子論的サンプリングの正確な表現が達成されるように決定されます。これは CG 法が原子化シミュレーションから誘導された free energy surface を使用していることを意味します。本論文では、ニューラルネットワーク(NN)を用いて、分子動力学(MD)シミュレーション軌道から高次元自由エネルギー面(high-dimensional free energy surfaces: FES)を抽出する新しい方法が紹介されています。これらの FES は、CGレベルの解像度でのシミュレーションに使用されます。今回の方法では、異なる長さのホモオリゴペプチド(オリゴグルタミル酸(oligo-glu)およびオリゴ – アスパラギン酸(oligo-asp))のシミュレーションが用いられました。本論文では、ニューラルネットワーク(NN)を用いた手法が、トレーニングセットに用いられた長さのオリゴマーの FES を正確に記述できるだけでなく、より長いオリゴマーの立体配座のサンプリングも予測できることが示されています。
内容
コンフォメーション探索ってやったことのない人には苦労が全くわからない分野だと思います。管理人も以前、gromacs 使って L-Lysine のコンフォメーション探索しましたけど、無数にコンフォマーが出てきました。また、電荷の状態でかなり構造が変わりました。(アミノ酸のコンフォメーション探索は、中性状態で探索して、その後の QM 計算の時にプロトン化・脱プロトン化するべきだと思いました。)
数百個のコンフォマー全て QM で一点計算して、同じ構造のものを排除して、エネルギーの域値でまた排除してってやっていくと、結構作業時間がかかります。これをオリゴまーでやれって言われたら発狂しますね。スクリプト書いて作業を高速化したとしても、やはり最後は目で見てセレクションした方が良いというのが管理人の個人的な意見です(専門家ではないので、正しいか分かりませんが)。。。
今回の論文のようにたった n 数が 1 増えただけのオリゴマーのコンフォマーのエネルギーが予測できるのって凄いの?って思う方も知るかもしれませんが、作業時間を考えればだいぶ画期的なことです。
今回の論文のキーワードとして、ニューラルネットワーク (以下 NN) の使用が挙げられます。近年の人工知能ブームとは裏腹に、NN を使用した計算というのは以前から報告されています(参考文献 1-5)。参考文献を見てもらうとわかりますが、20 年以上前から “Neural network models of potential energy surfaces.” などの研究が報告されています。では、なぜ近年ブームになったかというと、それは GPU の性能の大きな進歩のおかげです!
本論文では、NN のアプローチを CG シミュレーションのレベルで使用しています。PES 上でパラメータ化された原子モデルとは対照的に、CG モデルは上述の FES に基づいており、複数の細かい構造が同じ CG 構造にマッピングされています。主要な課題の 1 つとして、PES とは対照的に FES は MD シミュレーションの直接的なアウトプットではないということが挙げられます。それらは、位相空間におけるサンプリング構成の確率密度のボルツマン反転によって計算することができるそうです(管理人は専門家ではないので、良く知りません)。。。
確率密度を推定する最も一般的な方法は、空間を空にし、各ビン内のデータポイントの数を数えることだそうです。しかし、これには(1)最初の手順で情報が失われる(2)必要なビンの数が次元数とともに指数関数的に増加するという 2 つの問題があります。例を挙げると、各次元において100個のビンを有する 10 次元で記述された分子コンフォメーションは
また、MD 計算でのコンフォメーション探索では fake conformer もたくさん出てきますが、これを NN で取り除くことができたようですね。これだけ大きな分子になると一つ一つ QM 計算してfake かどうか確かめることもできないので、画期的だと思います。
計算手法
コンフォメーションと言っても、全ての原子座標ではなく、今回は側鎖のカルボキシル基の位置情報に着目したようです。また、この end-to-end のカルボキシ基の距離によってデータを絞り込んでいるようです。
MD シミュレーションには GROMACS が使われています。
実際にニューラルネットワークの構築に使われたプログラムの記載は SI にはありません。こういう仕事って、トレーニングセットであったり、トレーニングによって最適化されたパラメータが重要であるので、ソースコード自体は公開するのかなぁと勝手に思っていたのですが、違うのですね。でも、本文中の Fig4 に NN architecture が、うまくまとまっていると思います。
感想
インプットに MD を用いるという手法はとても賢いと思います。Deep Learning の画像認識でも画像の解像度を変えてトレーニングセットの個数を増やすなどの手法と同様に、MD で少し動かしてやるだけでたくさんの input が簡単にできてしまいます。
“コンフォマー間のカーテシアン座標は、回転などによって三次元空間内での絶対位置がズレているため比較することが難しく、分子内距離を用いた方がより簡単だ” と本文中に書いてあります。でも、ある点を基準に全てのコンフォマーを重ね合わせれば良いだけなのでは、、、と思ってしまいました。実際に、そういうプログラムあるし。ある特定の原子間距離だけだと、せっかく計算によって得られた結合角度や二面角などの情報が失われてしまうので、もったいない気がします。。。
NN を用いた計算というのは今後たくさん登場してくるのではないでしょうか?
管理人は、ニューラルネットワークも計算化学も専門ではありません。記事中に間違いがあった場合には、コメント欄、メール、または twitter で教えていただけると嬉しいです。
参考文献
- “Neural network models of potential energy surfaces.” Blank, T. B.; Brown, S. D.; Calhoun, A. W.; Doren, D. J. J. Chem. Phys. 1995, 103, 4129−4137.
- “Representing high- dimensional potential-energy surfaces for reactions at surfaces by neural networks.” Lorenz, S.; Groß, A.; Scheffler, M. Chem. Phys. Lett. 2004, 395, 210−215.
- “Generalized neural-network representation of high-dimensional potential-energy surfaces.” Behler, J.; Parrinello, M. Phys. Rev. Lett. 2007, 98, 146401.”Potential energy surfaces fitted by artificial neural networks.” Handley, C. M.; Popelier, P. L. J. Phys. Chem. A 2010, 114, 3371−3383.
- “Neural network potential-energy surfaces in chemistry: a tool for large-scale simulations.” Behler, J. Phys. Chem. Chem. Phys. 2011, 13, 17930−17955.
関連する記事
- Threadripper 並列化効率改善?【gaussian16】
- Threadripper Gaussian16 ベンチマーク
- Threadripper 自作 PC 組み立て編【AMD】
- IRC 計算がうまくいかない時
- スピン状態依存的な光環化反応の計算
- Threadripper 正式発表【8月発売予定】
- 【Gaussian 16】デスクトップ PC で並列計算する際の注意点【Hyperthreading】
- スパコンランキング発表!日本はGREEN500上位独占!【2017年6月】
- 【AMD_Naples】正式名称はEPYCに決定!クロック数は2.8 GHz【基本スペックなど】
- GPU を用いた並列計算
- 自作 PC をつくってみた!
- Fedora25 に nVIDIA のドライバーをインストール
- 自作 PC を作ってみた!【OS 編】