近年の人工知能ブームにより、様々な分野で AI の活用が始まっています。
有名なところでは、将棋、囲碁、画像認識などが挙げられます。
また、不完全情報(運に左右される)ゲームであるポーカーでも人工知能が人間を圧倒しつつあるようです(Science 誌に論文が出ていました)。
Superhuman AI for heads-up no-limit poker: Libratus beats top professionals
Noam Brown & Tuomas Sandholm
Science 2017 in press. DOI: 10.1126/science.aao1733
当然その波は製薬業界にも押し寄せて来ています。海外の製薬企業では AI を用いた研究開発への取り組みは既に始まっていますが、昨日のニュースで国内でも DeNA と塩野義製薬が提携して AI を活用した創薬研究を行なっていくとありました。
しかし一方で、AI を過大評価しすぎという指摘もあります。海外のサイトを見ていたら AI 創薬を痛烈に批判している記事がありましたので、簡単に紹介します。
“AI in drug discovery is overhyped: examples from AstraZeneca, Harvard, Stanford and Insilico Medicine”
“創薬のAIは過大評価されている! AstraZeneca、Harvard、Stanford、Insilico Medicineの例”
https://medium.com/the-ai-lab/artificial-intelligence-in-drug-discovery-is-overhyped-examples-from-astrazeneca-harvard-315d69a7f863
イントロ
創薬の AI への投資は急増している。特にビッグファーマスは大金を投じています。 サノフィは、スタートアップの Exscientia と3億ドルの契約を締結し、GSK も 4200万ドルで同様の契約を結びました。シリコンバレーの VC 企業の Andreessen Horowitz は、新薬創出に向けた AI の分野で 1 つの重点分野を持つ、新たな450百万ドルのバイオ投資ファンドを開始しました。このトレンドの中で、多くの製薬/バイオテクノロジー企業や投資家は、2018年に自分たちも同様にこの波に乗ってみるか、見守るべきなのか様子を伺っています。
今回の紹介する記事では、AstraZeneca、Harvard、Stanford、Insilico Medicine の例を挙げて、AI 創薬の批判をしています。
AstraZeneca の場合
AstraZeneca の研究者たちは、リカレントニューラルネットワークと強化学習を用いて新規分子を作る試みをしています。この研究の論文では、大部分がモデル評価に割かれています。また、Tanimoto-similarity や Levenshtein distance に基づいた様々な指標を導入しています。また、ヒストグラムやバイオリンプロットや t-SNE などを使って結果を視覚化しています。
しかし、ほとんどの解析は AI 生成分子群と天然物化合物群の間で行われており、AI 生成分子群内部では行われていません。これによって多様性の錯覚が生じてしまいます。AI によって生成された分子と天然の分子がかけ離れているため、AIが創造的であると考えることができ、化学空間で新しい方向を探究することができると思ってしまという問題点もあります。しかし、AI が生成した分子群自体の多様性が小さい場合、結局は新しい知見は全く得られないということが生じ得ます(詳しくは、記事内の図を見てください)。
Harvard の場合
Harvard の研究グループは、前述した多様性の問題点に気づき ORGAN model というものを提案しました。彼らの考えは、discriminator と呼ばれる第2のニューラルネットワークで generator を修正することにより、より多様な化学的多様性と化学的リアリズムをもたらすことです。分子があまりにも不自然に見える場合は、generator にペナルティを与えます。このアイデアは、AI コミュニティ内の盛り上がった話題である Generative Adversarial Networks(GAN)の文献から引き出されています。
この手法のアイディアはとても面白いものですが、実施は大変ひどいものです。ORGAN model の評価は視覚的評価のみで、定量的評価がなされていないからです。また、log ファイルを見るかぎりモデルのトレーニングの仕方もひどいそうです(詳しくは、記事読んでください)。
STANFORD の場合
Stanford 大学には、 AI と Deep Learning を用いた化学研究の大きなチームがあります。リーダーは Vijay Pandeです。彼らの主力プロジェクトは、分子特性の機械学習法をテストするために特別に設計されたベンチマークである MoleculeNet です。 それは多くの化学物質やグラフィックス、深層学習モデルを含んでいます。 特に注目すべき点は、スタンフォードチームによって開発されたグラフ-CNN および化学特有のニューラルネットワークです。
しかし、一般的によく使われている Character-level Convolutional Neural Network ではなく、なぜ graph-CNN を使っているのかという点について筆者は批判しています。そこには、商業的な側面もあるようです(詳しいポイントについては元記事を読んでください)。
INSILICO MEDICINE の場合
INSILICO MEDICINE は AI スタートアップ企業の中でも generative model のパイオニアです。彼らは、DruGAN というモデルを提案しました。しかし、DruGAN にはこれまでに発表されてきた generative model と比べても進歩した点はみられないと筆者は指摘しています(詳しいポイントについては元記事を読んでください)。
感想
現段階では、筆者のいうような批判ももっともなような気がしますけど、新しい試みって大抵スタート時はこんなものなのではないでしょうか?今回の記事のタイトルを読んだ段階では、AI を使った創薬研究を批判しているのかと思っていたのですが、どちらかというと AI の使い方が正しくないといことを指摘している内容の記事でした。AstraZeneca と Harvard の場合は、方法に問題があるとの指摘のため納得できたのですが、Stanford と INSILICO MEDICINE の場合は、最善の手法を使っていないという指摘でした。Stanford の場合は商業的な側面もあっての批判でしたが。。。多様性の錯覚は、AI 特有の問題ではなく解析手法全般に言える問題でもあると思います。
今回の記事とは関係なく一般的に、AI 創薬を痛烈に批判する人は、過度な期待を持っている人、映画などの影響を過度に受けている人だと思われます。AI 創薬と聞いて一般の人が想像するのとは違い、細かいパラメーターの調整やモデルの評価など泥臭い作業が多いと思います。ワンクリックで新しい薬の構造を AI が示してくれるなんてことは決してありません。これまでの創薬プロセスを効率化する、違った角度でデータを解析できているという意味では、AI の導入は成功しているのではないでしょうか?
そもそも機械学習や深層学習の中にも色々な手法があるのに、それらを全てひっくるめて AI(人工知能) と読んでしまうのが混乱を引き起こしていると個人的には感じています。”AI” というよりも、”これまでよりも効率的な解析手法”といったイメージで捉えるべきだと思います。
この記事の筆者はやたらと Startcrowd を推してくるんですが、結局は Starcrowd の宣伝記事だったような印象です。
記事中に間違い等ある場合は、コメント欄、twitter またはメールにてお知らせいただけると幸いです。
関連する記事
- 正宗・Bergman 環化の計算化学【エンジイン】
- ニューラルネットワークを利用した粗視化シミュレーション コンフォメーション探索
- M06 / M06-2X
- revM06-L が発表されました。
- ドナルド・トゥルーラーDonald G. Truhlar
- Threadripper 並列化効率改善?【gaussian16】
- Threadripper Gaussian16 ベンチマーク
- IRC 計算がうまくいかない時
- スピン状態依存的な光環化反応の計算
- 【Gaussian 16】デスクトップ PC で並列計算する際の注意点【Hyperthreading】
- スパコンランキング発表!日本はGREEN500上位独占!【2017年6月】
- 自作 PC を作ってみた!【OS 編】