遺伝子発現量を正確に予言するAIが生まれた（1/n）

震撼ものの論文の紹介です。前回に続いて、AI（Deep Learning）がもたらした変革についてのエントリーです。

Vaishnav ED, de Boer CG, Molinet J, Yassour M, Fan L, Adiconis X, Thompson DA, Levin JZ, Cubillos FA, Regev A. The evolution, evolvability and engineering of gene regulatory DNA. Nature. 2022 Mar;603(7901):455-463. doi: 10.1038/s41586-022-04506-6. Epub 2022 Mar 9. PMID: 35264797; PMCID: PMC8934302.

この研究のすごさは主に２つあります。１つ目は、酵母において（プロモーターの）DNA配列が与えられたときに、そのプロモーターの強度を正確に予言するAIができたこと。２つ目は、そのAIを使うと、狙った発現量を持つようにプロモーターを進化させたり、あるプロモーターがどれくらい進化しやすいか／しにくいか（evolvability）を調べたりできるようになった、というところです。

＃この論文は相当の大物なので、エントリーを分けて紹介します。また、このブログの過去のエントリーと関連する内容にはそのエントリーへのリンクを張っています。興味がある人はリンク先も読んでみてもらればと思います。

遺伝子の発現量は、プロモーター領域のDNA配列よって決まっているはずだが、その原理はほとんど分かっていなかった

まずはこの研究の背景から入ります。細胞内で働くそれぞれのタンパク質の量は、細胞あたり数分子から数百万分子と大きく異なっています。この違いを生み出す理由は、いわゆる分子生物学のセントラルドグマで描かれるように、DNAにコードされた情報に基づいてmRNAが転写され、タンパク質が翻訳される際の合成の速度の違いです（正確には、分解の速度の違いも影響します）。例えば下に示したのは、酵母（Saccharomyces cerevisiae）の細胞内のmRNAの存在量です。

出芽酵母（*S. cerevisiae*）の各遺伝子の転写量。mRNAの存在量をRNAseqで解析した。遺伝子ごとに発現量は異なる。これらのmRNAの合成量の違いは、プロモーター領域の塩基配列の違いによって決められている（はずである）。

特にmRNAの合成速度は、ほとんどの遺伝子の場合、その遺伝子のプロモーターの活性（あるいは強度）により決まっていると考えて良いと思います（高等生物には「エンハンサー」という配列もあります）。なので、遺伝子工学のほとんどのケースにおいて、タンパク質の生産量を変えたいと思ったらプロモーターを改変するのです。この改変は通常、「あらかじめ活性が分かっている有名なプロモーターの制御下に、発現させたい遺伝子を配置する」という作業によって実施されます。

生命の原理・原則として、それぞれのタンパク質の量を決める情報は、すべてDNA上にいずれかの方法で書き込まれているはずです。特に、mRNAの合成量は、プロモーター領域にDNAの塩基配列として書き込まれていると考えて良いはずです。ならば、プロモーターの塩基配列とそのプロモーターの活性が大量に調べられ、その関係性が明らかになれば、プロモーターの活性を決めている（塩基配列に書き込まれた）情報が分かる、と考えるのは当然です。そして、酵母のようによく分かっている生き物ならば、それくらいの情報はすでにたまっているような気がします。

・・・ところが、長年分子生物学をやっていて、「プロモーター」というものを扱ったり、それがどういう原理で作動して強弱が決まっているのかを勉強・研究してきていると、「いやそれは現実的には不可能だよ」と思えてしまうのです。例えば、下に示したのは酵母の最強プロモーターTDH3遺伝子のプロモーターです。ここには転写を制御するタンパク質（トランス因子）が結合する配列（シス配列）があります。こういうシス配列がプロモーターにあると、トランス因子が結合して転写をONにしたりOFFにしたりします。そして、この配列のちょっとした違いが、シス配列とトランス因子との結合性の違いうみ、それがプロモーターの強弱を決めているという認識を持っています。

酵母の最強プロモーター、*TDH3*遺伝子のプロモーターの構造。色の付いたDNA配列がシス配列で、その上に白枠で囲まれたものが、結合するトランス因子の名前に基づいたシス配列の名前。Azizogluら2021より引用

現在の私（達？）の認識を整理します。トランス因子は細胞内に100以上あり、これらが結合性の違うシス配列に結合して、それが複数組み合わされて１つのプロモータの強弱を決めている。しかし、トランス因子のそれぞれが、どういうシス配列に結合するのかはちゃんと分かっていない。いわゆるシス配列には「コンセンサス配列」というものがあるとされていますが、それはわりと曖昧できっちりしたものではありません。あるトランス因子が結合するゲノム上の配列をすべて調べられるChlP-Seqという実験もありますが、ノイズも多く、ChIP-Seqで検出されたからといって「結合してそこで働いている」と言い切れる精度はありません。（あるいは、そもそもトランス因子によるシス配列の認識とは、本質的に曖昧なのかもしれません。）

結果として、１つ１つのプロモーターを対象とし、塩基を削ったり置き換えたりして実際のどのシス配列が機能しているか、トランス因子の結合性がどう変わるかを地道に調べていくしかないのです。そうやってちゃんと調べられたプロモーター、およびシス配列ートランス因子の組み合わせが遺伝子工学で使われます。例えば、以前のエントリーで紹介したWTC846などはその成功例だといえます。そんな状況ですから、「任意のプロモーターの塩基配列がどんな制御を受けているは人間に分かるはずがなく、従って、その強度を予測できるはずがない」、というのが研究者の一般的な意見なのではないでしょうか。

本研究で、酵母のプロモーター強度をほぼ完璧に予言するAIが作られたが、どうやって予言しているのかはわからない

ところが、この考えが今回の論文で完全に翻りました。この論文では、配列からプロモーター強度を高い精度で予測するAIを深層学習で作ることに成功したのです。ただ、深層学習ではよくあることですがどういう原理で決まっているかは、相変わらす人間には理解できていません。酵母がやっているだろう「配列ー転写強度の決定」という現象を、原理はまったく分からず、細胞内で起きていることと同じかどうかも分からないが、ちゃんと予言してしまうAIができたのです。なので、予測というよりは「予言」という方が適切かもしれません。というわけで（？）、著者らはこのAIを「Oracle」と呼んだりしています。

さらに困ったことに、このOracleが予言に使っているプロモーターの強弱を決めるシス配列がなんなのかも分かりません。人間が勝手に決めた □ で囲まれたシス配列なんかでは、転写の強弱は決まっていなかったのかもしれないのです。プロモーター強度を理解しようとするやり方として、研究者はまったくトンチンカンな努力をしてきたのかもしれません。いや、確かにその努力の過程でちゃんと理解できる、使えるトランス因子ーシス配列の組み合わせが見つかって、それは実際に遺伝子工学で応用されています。だから、間違ってはいなかった。しかし、それではプロモーターの強弱をきめる原理はその延長にはなかった、ということなのかもしれません。

次のエントリーでは、もう少し具体的な内容に入っていきたいと思います。続く（はず）。

20221022追記

1st Authorの Eeshit Dhavai VaishnavさんのTwitter

このモデルをブラウザから使えるサイト