Deep Mind、ゲームを止め、タンパク質の立体構造予測へ!_Top500 News No.21_

昨年末に大変話題になりました Google 傘下の Deep Mind 社が開発した Alpha Fold の話題です。記事にしようと思ってはいたのですが、昨年末多忙のため年明けになってしまいました。

TOP500 の NEWS 欄には、毎週スーパーコンピューターに関する最新情報が報告されています。残念ながら、日本のメディアではほとんど報道されません。
当ウェブサイトでは、それらのニュースを定期的に日本語で紹介していきます。

今回紹介する記事は、

DeepMind Stops Playing Games, Debuts AI Software for Predicting Protein Structures

December 4, 2018

概要

囲碁の世界チャンピオンを打ち負かすことから更に前進し、DeepMind 社はタンパク質立体構造予測の世界大会でトップの座を獲得した人工知能システムを開発しました。 AlphaFold として知られるこのテクノロジーの開発には、およそ 2 年の歳月が費やされました。

AlphaGoAlphaGo Zero などの先駆者と同様に、AlphaFold は特定分野での最先端技術を大幅に進歩させたようです。今回の場合、タンパク質をコードする遺伝子配列のみに基づいてタンパク質の立体構造を予測することを目的としています。 DeepMind 社の技術の説明によると、「AlphaFold が生成するタンパク質の 3D モデルは、これまでのテクノロジーに比べてはるかに正確であり、生物学の中核的課題の 1 つで大きな進歩を遂げています」とのことです。

遺伝子配列に基づいてタンパク質がどのように折り畳まれるのかを予測することができれば、アルツハイマー病や嚢胞性線維症などの疾患の発症メカニズム、さらに重要なことは、それらの発症を防ぐ方法についての知見を得ることができるかもしれません。このテクノロジーは、食料生産を増やすために穀物、果物、野菜などの作物を大量栽培すること、または遺伝子改変をするのを助けるためにも使うことができます。同様に、プラスチックのような人工汚染物質を安全に分解する、またはメタンのようなエネルギー副産物をより効率的に生産するための微生物を設計するためにも使用することができます。

ゲノムデータからタンパク質構造を予測することのもっとも困難な点は、DNA が構成アミノ酸の配列を決定するだけということです。どのようにして機能的な 3D 構造に自己組織化するのかを予測するのは非常に複雑です。典型的なタンパク質の全ての可能な立体構造を試行錯誤を繰り返して見つけようとする手法では、宇宙の歴史よりも長い時間がかかるでしょう。今日まで、この分野の進歩の大部分は、クライオ電子顕微鏡NMR または X 線結晶学などの実験室技術に頼ってきました。このような研究課題は、AI ベースのソリューションによく適しています。

AlphaFold は、2 年おきに開催されるタンパク質立体構造予測の世界大会 CASP (Community Wide Experiment on the Critical Assessment of techniques for Protein Structure Predictionで見事1位に輝き、その凄さを見せつけました。 The Guardianの報告によると、AlphaFold は 43 のタンパク質のうち 25 のタンパク質に対して最も正確な構造を予測していました!

この取り組みの中で、AlphaFold の開発者たちは人工ニューラルネットワークを使った多面的なアプローチを採用しました。彼らは、次のように説明しています。

「私たちの手法の特性は、(a)アミノ酸のペア間の距離、および(b)それらのアミノ酸をつなぐ化学結合間の角度です。最初の開発は、アミノ酸のペアが互いに近いかどうかを推定する一般的に使用されている技術の進歩です。

我々は、タンパク質中の残基の各ペア間の距離の分布を予測するためにニューラルネットワークを訓練しました。そして、これらの確率を提案されたタンパク質構造がどれほど正確であるかを評価するスコアに組み合わせました。また、提案された構造がどれほど正しい答えに近いかを推定するために、すべての距離を総計で使用する別のニューラルネットワークもトレーニングしました。

これらのスコアリング関数を使用して、我々の予測と一致する構造を見つけるためにタンパク質ランドスケープを検索することができました。私たちの最初の方法は、構造生物学で一般的に使用されている技術に基づいており、タンパク質構造の断片を新しいタンパク質断片で繰り返し置き換えました。我々は継続的に提案されたタンパク質構造のスコアを向上させるために使用されていた新しいフラグメントを発明するために、生成ニューラルネットワーク (generative neural network) を訓練しました。」

AlphaFoldに関する研究論文が今後数カ月間に発表されることが予想されます。これはおそらく、ソフトウェアが実行されていた基盤となるハードウェアを参照するでしょう。 DeepMind が Google と密接に関係していることを考えると、Web 巨人のカスタムメイドの Tensor Processing Units(TPU)が研究プロジェクトに採用されたことはほぼ間違い無いでしょう。昨年 5 月、Google は第 3 世代 TPU を発表しました。これは、1 ボードあたり何百もの machine learning tera flops を供給するプラットフォームです。グーグルはこれらのボードのマルチラック”ポッド”が 100 peta Flops を達成したと言っています。

DeepMind の開発者達は過去 2 年間 AlphaFold に取り組んできましたが、CASP コンペティションはソフトウェアの最初の一般公開です。そしてそれが最後になることはまずないでしょう。タンパク質立体構造予測の強力な技術を有することは、ライフサイエンス系の他企業や政府機関は言うまでもなく、世界の製薬業界にとって年間数十億ドルの価値がある可能性があります。

DeepMind の cooperate master である Alphabet Inc. がヘルスケアビジネスを再発明しようとしているという事実は、AlphaFold のような研究プロジェクトが将来的に多くの支援を受けることを示唆しています。実際には、DeepMind Health として知られている関連グループはこの分野のための AI ベースの臨床ツールを研究し開発するために設立されました。これらすべてを Google の専用 AI ハードウェアへの取り組み、増え続けるゲノムデータの基盤、およびDeepMind の自社ソフトウェアの絶え間ない洗練と組み合わせることで、このテクノロジの商用アプリケーションが実現することは遠い将来では無いと考えられます。

雑感

本記事中の AlphaFold のストラテジーを読み、David Baker らが開発した Rosetta をニューラルネットワークを用いて更に進化させたものという印象を受けました。

コンタクトマップの作成やタンパク質の立体構造をフラグメントに分けて既存の結晶構造を検索していく点など共通点が多いです。

タンパク質の構造予測の分野は、今後企業に大きく依存する形で発展していくのでしょうか?例えば、次世代シーケンサーは企業に大きく依存しながら進化してきました。

タンパク質の立体構造予測もそうなっていくのでしょうか?普通の研究機関で Google と同程度の計算資源を確保することは不可能だと思いますし、(優秀な)研究者の数も資金力も勝負になりません。CASP は今後 DeeoMind 社がずっと一位に君臨し続けそうな気がします。

管理人は、計算化学を趣味とする一般人ですので、タンパク質のフォールディング予測や関連ソフトに関する知識はゼロです。記事中には多くの間違いがあると思いますが、コメント欄、twitter、またはメールにて指摘して頂ければ幸いです。

管理人:

View Comments (3)

  • Googleは、タン白質の立体構造予測の分野にも進出したのですね。 自動運転だけでなく、立体構造予測までとはすごいです。 単なる検索エンジンの会社を超えています。 将来、David Bakerと共にノーベル賞を受賞するのかな?