ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

「6年解けなかった構造があっさり」──タンパク質の“形”を予測する「AlphaFold2」の衝撃 GitHubで公開、誰でも利用可能に

» 2021年07月20日 17時06分 公開
[松浦立樹ITmedia]

 米Alphabet傘下の英DeepMindが、遺伝子配列情報からタンパク質の立体構造を解析するAI「AlphaFold v2.0」(以下、AlphaFold2)をGitHub上で無償公開し、ネット上で注目を集めている。Twitterを利用する生物系の研究者からは「革命的な成果だ」「これからの研究の前提が変わっていく」など、AlphaFold2の予測精度に対して驚きの声が相次いだ。

AlphaFold2を使って予測したモデル図と実験結果の比較図(GutHibのページ内から引用)

 東京大学大学院農学生命科学研究科の伏信進矢教授は「6年間解けなかった分子の結晶構造があっさり解けた」とコメント。

 なぜAlphaFold2はこれほどの驚きや賞賛をもって迎えられているのか。タンパク質構造解析の難しさをひも解く。

未知の部分が多いタンパク質の構造

 タンパク質は数十種類のアミノ酸からできており、配列によってさまざまな性質に変化する。例えば筋肉、消化酵素、髪の毛はそれぞれ役割が異なるが、いずれもタンパク質で作られている。タンパク質の構造が分かれば、生体内の化学反応の理解が進む。アルツハイマー型認知症やパーキンソン病といったタンパク質由来の病気の理解も進み、新たな治療薬開発などにも役立つため、日夜研究が進んでいる。

 だが、タンパク質の構造解析は簡単ではない。タンパク質が複雑な立体構造になっているためだ。タンパク質のアミノ酸配列は折りたたまれ、立体的な構造を取る。この折りたたまれた構造を特定するには、数カ月から数年の時間がかかり、多額のコストもかかるという。これがタンパク質の研究のボトルネックになっており、「タンパク質折りたたみ問題」として50年以上、生物学の課題とされてきた。実際、既知のタンパク質配列は数十億あるのに対し、構造が明らかになっているものは約10万のみといわれており、依然として多くの構造が明らかになっていない。

利用には大容量ストレージが必要 簡易的ならWebブラウザ版も

 そんな中、DeepMindは2018年に「AlphaFold v1」を開発し、同年のタンパク質構造を予測するアルゴリズムの精度を競うイベント「CASP」で、総合1位を獲得。さらに2020年11月にもAlphaFold2でCASPに出場し、驚異的なハイスコアを記録し、予測精度の高さを示した。

CASPでのAlphaFold2の記録

 そんなAIを、今回DeepMindがGitHubにオープンソースで公開。個人や企業など多くの人がAlphaFoldを利用することで、タンパク質構造の解明や理解が進んでいきそうだ。

 ただし、AlphaFoldを利用するには428GBのファイルをダウンロードする必要があり、解凍後のファイル容量は2.2TBにもなるため、利用にはそれなりの保存容量や計算スペックを持ったPCが必要になる。一方で、ブラウザ上の実行環境である「Google Colaboratory」上で動かせる簡易版も有志のユーザーの手によって公開されている。一部仕様は異なるが、こちらはハイスペックなPCを用意しなくても利用できる。

有志のユーザーが作成したWeb版AlphaFold

 オープンソース化に合わせて、7月15日付で科学論文誌「Nature」にも、AlphaFoldに関する論文が掲載された。

AlphaFoldに匹敵するAI「RoseTTAFold」も登場

 タンパク質の構造をAIで解析する取り組みに関しては、奇しくも同じ7月15日に、ワシントン大学の研究チームが、別の構造解析AI「RoseTTAFold」を無償公開。同日付で科学論誌「Science」に論文が掲載された。

 AlphaFoldの手法を参考に開発されたモデルで、AlphaFoldに匹敵する精度でタンパク質構造の予測ができるという。いずれのAIも現在のところ完璧な予測ができるわけではないものの、AI同士が互いを刺激しながら進化していけば、どんなタンパク質の構造も正確に計算できる未来が来るかもしれない。

Copyright © ITmedia, Inc. All Rights Reserved.