機械学習を利用した IR スペクトルの解析

Share This:

機械学習深層学習を利用した論文が次々に出てきていますが、全く新しい何かを達成したという感じの論文はまだまだ少ないような気がします。

先日紹介した CNN を利用したコンフォメーション探索もそうですが、既存のアプローチでも頑張ればできたものをより効率的に低コストでやりました、という感じの仕事が多い気がしています。

参考ニューラルネットワークを利用した粗視化シミュレーション コンフォメーション探索

機械学習を利用した IR スペクトル解析の論文が先日 J. Phys. Chem. A 出ていました。面白い論文ではありませんが、最近機械学習について勉強しているので簡単に紹介したいと思います。

Applying Machine Learning to Vibrational Spectroscopy
Weiqiang Fu and W. Scott Hopkins
J. Phys. Chem. A, in press. DOI: 10.1021/acs.jpca.7b10303

概要

本論文では、プロトン化された Phe/Ser dimer のポテンシャルエネルギー曲面(PES)の低エネルギー領域を basin-hoping search algorithm を用いてマッピングし、全体最小構造の 180 kJ/mol 内にある 37 個の異性体を求めました。さらに、Dimer の構造を階層的なクラスター化を使用してグループに分け、PES の領域を分割しました。次に、スペクトル同定を容易にし、ESI プロセスにおいて PES のどの領域が占有されているのかを明らかにするために、cosine distance metric によって様々な異性体の計算されたIRスペクトルを異性体特異的な IR スペクトルと比較しました。

計算手法

Dimer の計算に関しては、プロトン化した Phe と Ser と中性状態の Phe と Ser をそれぞれ個別に B3LYP/6-311++g(d,p) で構造最適化したようです。Atomic partial charges は ChelpG partition scheme (参考文献 1) を用いて計算したようです。

そして、それぞれの分子を Basin-Hoping algorithm (参考文献 2,3) で組み合わせて Dimer の構造を作成したようです。PES は UFF で計算されたようです。PES の探索に際して、単結合に関する二面角を Basin-Hoping algorithm により各 iteration ごとに -5° ≦ θ ≦ +5°までランダムに変化させ、計 40,000 個の構造をサンプリングしたそうです。

上記のサンプリングで得られた構造をそれぞれの B3LYP/6-31++G(d,p) で構造最適化し、IR 計算も行われました。

機械学習に関しては、weighted pair group method with arithmetic mean (WPGMA) というアルゴリズムが用いられました。 凝集型階層的クラスタリングの一種だそうです。Dendrogram を出力してくれます。

機械学習を行うにあたっては、データの前処理をしなければいけません。次元を落としたり、規格化する作業です。今回は、cosine distance matrix を用いています。前回紹介した ニューラルネットワークを利用した粗視化シミュレーションと非常によく似たアプローチです。cosine distance matrix の計算式については、論文中の式を参照。

感想

De novo genome assembly の論文とか読んでいると系統樹を x 軸と y 軸に表示させて遺伝子の発現情報をヒートマップにして遺伝子クラスターの解析を行っていることがあります。今回の論文でも Dendrogram を作成して解析するのであれば、ヒートマップと同一 figure で表示した方が見やすいのではないかと思いました。

機械学習を用いた研究は一見すると新しいことをやっているような気がしますが、そこから導き出された結論は既存の別のアプローチからも導き出すことが可能なのでは?といつも感じます。機械学習で一番問題があると感じるのがデータの前処理(特徴抽出)です。今回の論文では、cosine distance matrixIR を結びつけて考えていますが、もっと良い特徴抽出の方法がありそうな感じもします。得られた結果は当然、前処理に大きく依存することになり、バイアスがかかったものになります(解析なんて全てそんなものですが。。。)。この点においては、深層学習の方が良いのではないかといつも思います。

機械学習で IR を解析し、アサインを効率化するというのは新しいことですが、IR のアサインはこれまでも出来たわけで、Scientific に全く新しい結果という訳ではありません。でも、今後さらにビッグデータの解析を進めていく上で新しいアプローチを研究しておくことには意義があります。

 

 

管理人は、機械学習の専門家でも計算化学の専門家でもありません。記事中に間違い等がありましたら、コメント欄、メール、または twitter でご指摘いただければ幸いです。

参考文献

  1. Wiberg, K. B.; Rablen, P. R. Comparison of atomic charged derived via different procedures. J. Comput. Chem. 1993, 14, 1504− 1518.
  2. Hopkins, W. S.; Marta, R. A.; McMahon, T. B. Proton-Bound 3- Cyanophenylalanine Trimethylamine Clusters: Isomer-Specific Frag- mentation Pathways and Evidence of Gas-Phase Zwitterions. J. Phys. Chem. A 2013, 117, 10714−10718.
  3. Lecours, M. J.; Chow, W. C. T.; Hopkins, W. S. Density Functional Theory Study of RhnS0,± and Rhn+10,± (n = 1−9). J. Phys. Chem. A 2014, 118, 4278−4287.
  4. Lorenz, U. J.; Rizzo, T. R. Multiple Isomers and Protonation Sites of the Phenylalanine/Serine Dimer. J. Am. Chem. Soc. 2012, 134, 11053−11055.

関連する記事

汎関数一覧に戻る

計算手法に戻る

コメントを残す(投稿者名のみ必須)