2025
05.07

存在しないウイルスの出現を予測したAI、ウイルス進化の未来を読み解く『CoVFit』の実力 【研究って楽しい】東京大学医科学研究所・伊東潤平准教授が挑むウイルスの次期流行株予測(後編)(1/4) | JBpress (ジェイビープレス)

PODCASTネタ

 CoVFitには、2つのタイプのタンパク質配列データを学習させています。 1つは、新型コロナウイルスの変異株の適応度情報です。次期流行株予測でも使用したウイルスゲノム疫学調査のデー(1/4)

情報源: 存在しないウイルスの出現を予測したAI、ウイルス進化の未来を読み解く『CoVFit』の実力 【研究って楽しい】東京大学医科学研究所・伊東潤平准教授が挑むウイルスの次期流行株予測(後編)(1/4) | JBpress (ジェイビープレス)

 インタビューの前編では、伊東潤平氏(東京大学医科学研究所准教授)に、新型コロナウイルスで次に流行する可能性が高い変異株を早期に予測する手法について話を聞いた。ただ、この方法では「既に観測されている変異株」だけが予測候補となる。

 試行錯誤を重ねた伊東氏は、ついに「まだ存在しない変異株」の出現予測を的中させた。用いたのは独自に開発したAI「CoVFit」。CoVFitはどこまでウイルスの進化を見通せるのか、社会実装のリアルな現場とは──。前編に続き、伊東氏に話を聞いた。(聞き手:関瑶子、ライター&ビデオクリエイター)

【前編】ウイルスの変化は予測できるか?変異株の「適応度」がカギを握る、次のパンデミックを防ぐ科学の最前線

──CoVFitというAIを用いて、ウイルスの進化を予測しているとのことですが、どのような仕組みなのでしょうか。

伊東潤平氏(以下、伊東):CoVFitでは、大規模言語モデルというAIを使用しています。ChatGPTのような生成AIと同じ仕組みですが、生成AIでは自然言語の文章を学習させるのに対し、CoVFitではタンパク質の配列を学習させています。「大規模言語モデル」ではなく「タンパク質言語モデル」とも言えるかもしれません。

CoVFitには、2つのタイプのタンパク質配列データを学習させています。

1つは、新型コロナウイルスの変異株の適応度情報です。次期流行株予測でも使用したウイルスゲノム疫学調査のデータの約1万3000種類の変異株のスパイクタンパク質(※)のゲノム配列情報と、その変異株の実効再生産数の情報です。

※ウイルス表面にある突起状の構造で、ヒトの細胞に取りつき侵入するための鍵のような役割を果たす。新型コロナウイルスではこの部分が免疫の標的となるため、変異が生じやすく、感染力やワクチン効果に大きな影響を及ぼす。

2つ目は、免疫逃避に対する変異の効果の情報です。なぜこの情報が必要かというと、免疫から逃避できれば、適応度が上がるため、ウイルスは免疫のプレッシャーから逃避する方向に進化していく傾向があるからです。

免疫逃避に対する変異の効果を調べるには、deep mutational scanning実験が非常に有効です。この実験では、たとえばスパイクタンパク質のゲノム配列のある部分に変異が生じた際に、免疫逃避能力がどう変化するのかを網羅的に調べることができます。

理科だけを勉強するより、理科と数学を一緒に学ぶと理解が深まるように、AIも複数種類の情報を学習させたほうがより精度の高い予測が可能になります。これを「マルチタスク学習」といいます。

──CoVFitで、実際にどのような成果が出ているのでしょうか。

CoVFitが出した驚くべき成果

伊東:新型コロナウイルスは、これまでさまざまな変異株が時間の経過とともに出現してきました。

そこで、ある時点で区切って、「過去の変異株のデータセット」と「未来の変異株のデータセット」を作成しました。そして、過去の変異株のデータセットだけを学習させたモデルで、未来の変異株の適応度を予測させたところ、かなりの高精度で当てることができました。

また、私たちはCoVFitを用いて、現在流行している変異株がどのような変異を獲得すると適応度がさらに上昇するのかという予測シミュレーションも行っています。「存在していない変異株」の適応度を予測しているということです。

例えば、JN.1株という変異株では、スパイクタンパク質のゲノム配列のアミノ酸に特定の変異が生じると、適応度が上がると予測されました。これは、もともと存在しない変異株です。けれども、2023年12月頃にその変異株が出現し、一気に流行が拡大しました。

これにより、CoVFitを使うことで1アミノ酸変異のウイルスの進化に伴う適応度の変化を、ある程度予測できるということが示唆されました。

──新型コロナウイルスのパンデミックでは、次から次に新しい変異株が登場しました。あのような進化の速さは、新型コロナウイルス特有のものなのでしょうか。

伊東:すべてのウイルスに当てはまるようなものではありません。新型コロナウイルスや季節性のインフルエンザウイルスなどが、このようなパターンに従っています。

ウイルスの進化の速度を規定するには、主に2つの要素があります。

1つ目は、ウイルスのゲノムへの変異の入りやすさです。これは「変異速度」と呼ばれています。ヒトの場合、ゲノムはDNAですが、新型コロナウイルスのゲノムはRNAゲノムです。

DNAと比較して、RNAは化学的に不安定ですので、RNAウイルスはDNAを持つ生物やウイルスよりも早く、進化することが知られています。新型コロナウイルスの場合は、ヒトと比較して1000倍速い変異速度であると言われています。

2つ目は、進化の選択圧です。進化の選択圧は、生物やウイルスが生存・繁殖する上で有利または不利になるような環境要因や条件のことを指します。これにより、ある形質を持つ個体が生き残りやすくなったり、逆に淘汰されたりします。

新型コロナウイルスの進化が速いといっても、ウイルスすべてのタンパク質の進化が同じように速いわけではありません。

新型コロナウイルスは、免疫のターゲットとなるスパイクタンパク質の進化だけが顕著に速いという特徴があります。スパイクタンパク質に変異が入ると、免疫が効かなくなり、宿主の体内で有利に増えることができるからです。

新型コロナウイルスにおいて、進化の選択圧は、そのウイルスがどれだけ流行しているかによって決まります。例えば、日本人は新型コロナウイルスの自然感染とワクチン接種により、100%近くの方が新型コロナウイルスに対する何らかの免疫を持っていると考えられます。

その免疫から逃げるため、新型コロナウイルスはものすごいスピードでスパイクタンパク質を進化させていきます。

一方で、全然流行していない、例えば、数百万人に1人しか感染していないウイルスの免疫を持っている人の数はごくわずかです。宿主の免疫からプレッシャーを受ける機会はほとんどありませんので、免疫から逃れる方向に進化する必要はなくなります。

CoVFitは新型コロナ以外のウイルスでも利用可能か

──インフルエンザウイルスも進化の速度が速いとのことですが、CoVFitは新型コロナウイルス以外のウイルスの進化予測にも応用できるのでしょうか。

伊東:理論的にはデータさえあれば応用可能です。ただ、学習させるのに十分なゲノムデータがあるのは、現状、新型コロナウイルスとインフルエンザウイルスくらいでしょう。

より正確にいうと、CoVFitの学習に最低限どの程度の量のゲノム配列データが必要か検証していないので、もう少し配列数の少ないウイルスにも適用可能な可能性はあります。

ただ今後、未知のウイルスが現れたときに、いち早くそのウイルスの情報を学習させていくことが重要だと考えています。

新型コロナウイルスのパンデミックで、ウイルスゲノム疫学調査が非常に有効であることが立証されました。したがって、次に未知の感染症が流行したときには、新型コロナウイルスのパンデミックのとき以上に大規模なウイルスゲノム疫学調査が実施されるでしょう。

そういった観点からも、CoVFitはさまざまなウイルスに応用可能と言えます。

──現時点でのCoVFitの課題について、教えてください。

伊東:まずは、予測精度の改善です。これには、学習データ数を増やすことももちろんですが、予測に使える別の情報の形式(データタイプ)を増やしていくことがより良い戦略だと思っています。

現在学習させているデータに加えて、例えば、ウイルスと受容体(※)との結合に関する変化の情報なども一緒に学習させれば、予測精度が上がる可能性はあるのではないかと思います。

※ウイルスが細胞に侵入する際に使う「入り口」となる、宿主細胞表面の分子(主にタンパク質)のこと。

また、現在のCoVFitで予測できるのは、ウイルスのゲノム配列の1つのアミノ酸の変異とそれに伴う適応度の変化に限定されています。現実世界では、進化は必ずしも1つのアミノ酸変異で起こるわけではありません。オミクロン株の出現時には、約30個のアミノ酸の変異が一度に獲得されました。

けれども、そのような複数のアミノ酸変異を伴う進化予測は、かなりハードルが高いのが現実です。例えば、30カ所のアミノ酸の変異を一度に獲得した場合、その組み合わせをすべて網羅的に調べようとすると膨大な数になってしまいます。

さらに、1つの変異は1つの効果しか及ぼしませんが、複数カ所の変異の組み合わせが思いもよらない効果を発揮する可能性も示唆されています。

変異Aと変異Bを一緒に獲得した場合のみ、変異Aの効果が強く現れるということです。したがって、複数箇所のアミノ酸の変異について解析をする際には、その組み合わせによって生じる効果の変化にも考慮しなければなりません。

正直なところ、複数箇所のアミノ酸の変異を一度に獲得するような進化とそれに伴う変異株の性質の変化の予測は、現段階ではまだ難しいと感じています。

もちろん、進化はランダム性の高いプロセスなので、1つのアミノ酸変異による進化であっても完全に予測することも原理的にできません。

「外したらどうしよう」という不安と闘いながら研究していた

──次期流行株予測やウイルス進化予測が的中すると、嬉しいですか。

伊東:もちろん嬉しいですが、コロナ禍の最盛期はむしろ「外したらどうしよう」という不安と闘いながら研究していました。

先ほど次期流行株予測のところで、私たちの予測をもとにさまざまな専門の研究者がその変異株の研究をするとお話ししました。研究にかかわる研究者の数は、最盛期には100人近くになっていたと思います。

つまり、私たちが予測を外したら、100人の研究者の貴重な努力と時間は水の泡になるということです。最終的な目的でもある「パンデミックを制御する」という社会還元もできません。

やりがいはありますし、社会貢献度の高い研究ではありますが、だからこそ、胃が痛くなる場面もある研究です。

──今後は、どのような研究をしていく予定ですか。

伊東:新型コロナウイルスの研究もひと段落し、また研究チームの人員も増えたことから、現在は季節性インフルエンザの抗原性(※)を予測するPLANTというAIの開発など、さまざまなウイルスを対象にした研究も同時並行で行っています。

※ある物質が免疫系に認識され、抗体などの免疫反応を引き起こす性質のこと。

インフルエンザウイルスの抗原性は常に進化しています。ウイルスの自然感染や、ワクチン接種によって集団免疫が形成されると、その免疫から逃避する方向にウイルスは進化していきます。

そのため、効果的なワクチンを開発するためには、流行株に合わせてワクチン抗原をアップデートし続ける必要があります。

PLANTは、新しく出てきた免疫逃避株の同定や、ワクチン株のスムーズな選定を可能にします。また、どのような変異を獲得することで免疫逃避をするのかということまで知ることができます。

──研究を通して、実現したい夢や目標がありましたら、教えてください。

伊東:インタビュー前編でもお話ししたように、私たちはウイルス感染症制御に資するようなバイオインフォマティクス・AI技術をつくるというミッションを掲げています。

今回お話しした、次期流行株予測やウイルスの進化予測は、その中の1プロジェクトです。次期流行株予測やウイルスの進化予測以外では、先ほどお話ししたようなウイルスの抗原性の予測やワクチン抗原設計のための生成AIの開発、パンデミックリスクの高い動物ウイルスを同定する手法の研究などを行っています。

このような包括的な方向から、ウイルス感染症を制御できるような技術を構築していきたいと考えています。これまで、いろいろな分野の専門家の「こういう技術があると嬉しい」という声に耳を傾け、その課題解決をするための技術開発をしてきました。

今後もそのような方針で、「あったらいいな」をカタチにして、それを実際に使って解析し、面白い発見をしていきたいと考えています。

最後になりますが、本日お話しした研究内容は、私のチームに属する約10人の若手研究者、G2P-Japanのメンバーの先生方、そして私の上司である佐藤佳先生とのコラボレーションなしでは成し得なかった研究です。皆様にはこの場をお借りして心から感謝申し上げます。

伊東 潤平(いとう・じゅんぺい)
東京大学医科学研究所感染・免疫部門システムウイルス学分野准教授
2015年 山口大学農学部獣医学科卒業。2018年 総合研究大学院大学生命科学研究科遺伝学専攻博士課程修了(理学博士)。京都大学ウイルス・再生医科学研究所特定研究員、東京大学医科学研究所感染・免疫部門 システムウイルス学分野助教などを経て、2024年より現職。令和6年度 文部科学大臣表彰若手科学者賞。

関 瑶子(せき・ようこ)
早稲田大学大学院創造理工学研究科修士課程修了。素材メーカーの研究開発部門・営業企画部門、市場調査会社、外資系コンサルティング会社を経て独立。YouTubeチャンネル「著者が語る」の運営に参画中。

 

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。