2024年ノーベル化学賞 「タンパク質設計と立体構造予測」とは?
2024年ノーベル化学賞 「タンパク質設計と立体構造予測」とは?
2024/12/11
2024年ノーベル化学賞
「タンパク質設計と立体構造予測」
とは?
―AIを使って大きく変わる科学研究―
科学の目でみる、
社会が注目する本当の理由
タンパク質設計と立体構造予測とは?
タンパク質は20種類ほどあるアミノ酸が多数つながった分子で、複雑に折り畳まれた立体構造を持っています。自然界には膨大な種類のタンパク質が存在しますが、それらの機能を決めているのが立体構造です。立体構造の解明には、結晶にしてX線で解析するなど手間のかかる方法が頼りでした。今回のノーベル化学賞は、新たなタンパク質を計算によって設計して人工的に作る技術と、タンパク質の構造を予測するAIモデルの開発が対象です。これらの研究によって、目的の機能を持つタンパク質をデザインして作り上げる可能性が開かれ、多くのタンパク質について短時間で精度の高い予測立体構造を知ることができるようになりました。
2024年のノーベル化学賞は、全く新たなタンパク質をコンピュータで設計し、合成したワシントン大学のデイビッド・ベイカー氏と、タンパク質の立体構造を予測する画期的なAIモデルを開発したグーグル・ディープマインド社のデミス・ハサビス氏/ジョン・M. ジャンパー氏に贈られました。これらの研究によって、タンパク質をカスタマイズして新規に合成する可能性が開かれ、医薬品開発などへの応用も期待されています。またタンパク質の立体構造をAIモデルで正確に予測できるようになったことで、多くの研究者がこのプログラムを活用し、タンパク質の精度の高い予測立体構造や機能の情報を短時間で得られるようになりました。生命科学に新知見を提供し、創薬などへの応用に欠かせない基礎情報を提供する成果です。AIによるタンパク質の立体構造予測の精度向上に貢献してきた人工知能研究センターの富井健太郎研究チーム長に、受賞した研究の意義や応用の可能性について聞きました。
ノーベル賞受賞のポイント
半世紀来の課題であったタンパク質の立体構造予測
生命現象の理解に不可欠な物質である、タンパク質の構造についての研究は20世紀半ば頃から進んでいます。アミノ酸がつながった1次構造、それがらせん状やシート状になった2次構造、2次構造の組み合わせの間を鎖がつなぐ3次構造、さらにそれらが集合した4次構造という基本的な構造も知られるようになりました。生命現象をタンパク質の立体構造から理解しようとする構造生物学も誕生しました。
しかしながら、アミノ酸が多数つながるタンパク質の立体構造は複雑で、予測は簡単でありません。早くからコンピュータが導入されたものの、計算量が膨大であり予測が困難な状態が続いていました。1960年代以降、タンパク質の立体構造はX線による結晶解析やNMR(核磁気共鳴、Nuclear Magnetic Resonance)、低温電子顕微鏡などによる観察で少しずつ解明され、その情報がタンパク質構造データバンク(Protein Data Bank、以下PDB)に集積されていきます。1994年以降、タンパク質の構造予測技術の精度を検証する世界的な実験、Critical Assessment of protein Structure Prediction(CASP)が隔年で開催されており、2024年には16回目を迎えます。各国から気鋭の研究者が多数参加しており、私も参加しましたし、今回の受賞者の3人とも参加しています。
多くの研究者がタンパク質の立体構造解析に取り組んできましたが、タンパク質をコードするアミノ酸配列の情報は2億を上回る数が知られているにもかかわらず、2022年においてもPDBに登録された立体構造の数は20万件に満たない状況がありました。
人工タンパク質の設計と合成の進歩
タンパク質を人工的に設計する試みは1990年代末に急成長し始め、1997年には比較的単純な構造の新規タンパク質の設計が報告されました。
「計算によるタンパク質の設計」で今回受賞したワシントン大学のベーカー博士らは、2003年に93個のアミノ酸からなる、より複雑な構造の人工タンパク質を計算によって設計することに成功しています。PDBに登録されていない完全に新規のタンパク質でした。これを合成する遺伝子を細菌に組み込むと、設計通りの構造を持つタンパク質が出来上がりました。
2008年には新規酵素の設計と合成を行い、さらに、特定の物質に限って結合するタンパク質や、インフルエンザウイルスの表面タンパク質を標的に結合する小型タンパク質も設計しています。目的の機能を持つ酵素をデザインして作り出し、新たな抗ウイルス薬を作るなどの可能性を開く成果として注目されました。タンパク質の設計技術が進めば、将来は分子機械の作成なども夢ではありません。
タンパク質の構造設計を助けたのは、ベーカー博士らが1999年に開発したコンピュータソフト「Rosetta」です。このソフトは、未知の折り畳み構造を持つタンパク質も、既知の部分構造の組み合わせで作ることができると考え、予測できる多数の構造候補のうちから最良の構造を選び出すものでした。ソフトのプログラムは公開され、その後の研究の進展に貢献しました。
一方、2010年ごろからは深層学習の技術が急速に進み、やがてそれを活用した構造予測が行われるようになります。
立体構造を深層学習で高精度予測する
AlphaFoldの登場
2人目の受賞者ハサビス博士は幼少時からチェスの神童として知られ、ゲームのプログラム作成も得意でした。コンピュータ科学を専攻したのち、ディープマインド社を設立。2015年、世界のトップ棋士を相手にはじめて、ハンデなしで勝利した囲碁ソフト「AlphaGo」の開発で世界を驚かせました。囲碁ソフトはAIがランダムに手を考案し、勝利した手を選択していく方法で開発されています。これを深層学習と組み合わせて名人たちの棋譜を学習させ、作り上げたソフトでした。
その後ディープマインド社には生物学者も加わり、タンパク質の構造予測のテーマに取り組み始めました。2018年、構造予測技術コンテストCASP13で「AlphaFold」を発表し、優れた予測精度を示して注目を集めましたが、広く活用されるにはまだ力不足でした。
高精度予測モデルが誕生
そこに参加したのが、3人目の受賞者ジャンパー博士です。ジャンパー博士は物理学や数学を学び、理論化学で博士号を得た研究者で、かねてからタンパク質の構造予測に関心をもっていました。
ディープマインド社に加わると、2020年の構造予測技術コンテストCASP14で「AlphaFold2」を発表します。このソフトにより予測されたタンパク質の構造と、実験によって決定された構造の多くは酷似しており、従来と比べて格段に高い予測精度を達成しました。自然言語処理分野で効果を見せつけたTransformerという深層学習モデルを巧みに応用することで、タンパク質の構造予測に新たな地平を開いたと評価されています。このソースコードが一般に公開されたので、誰でも短時間で精度の高い予測立体構造が得られるようになりました。
2024年にはさらにバージョンアップした「AlphaFold3」を公表しています。タンパク質だけでなく、核酸などの他の生体分子とタンパク質の複合体や相互作用も予測できる拡張モデルです。薬剤がタンパク質のどの部分に結合するかを予測するなど、創薬への応用にも期待が広がっています。
今後の展望
このような高精度構造予測モデルをもってしても全てのタンパク質の構造が完全に解明されるわけではありません。自然界に存在するタンパク質の主要な立体構造パターンはせいぜい数千種類程度だと予想されています。AlphaFoldにより正確にタンパク質の構造を予測するには、対象のタンパク質とアミノ酸配列が類似した、複数種類のタンパク質の配列情報が存在することが前提です。類似配列の見つかっていないタンパク質の構造予測は、得意ではありません。
今回の化学賞は、物理学賞と並んでAIに関係した研究が受賞し、新たな研究手法が、複数の賞で取り上げられたことに注目が集まりました。酵素や医薬品など役立つタンパク質の登場が期待されるとともに、AIが科学研究のツールとして活躍する場面が広がってきたことを印象づける受賞です。(産総研マガジン 2024年ノーベル物理学賞「人工ニューラルネットワークによる機械学習」とは?)
今回の受賞は、実験や計算科学における多くの先人たちの努力と成果が土台になったものと言えるでしょう。また、膨大な計算量を処理するための技術の向上や、計算資源が容易に手に入るようになったことも大きな支えになったことは言うまでもありません。今後も、立体構造が明らかになるタンパク質の数は増大し、AIモデルの進化も続くと予想しています。
現在、産総研人工知能研究センターでは、AlphaFoldによるヒトタンパク質の予測構造モデルを用いて、基質が結合可能な部位を網羅的に推定したデータベースを構築し、創薬やライフサイエンス研究などへの貢献を目指しています。