2022-11-032022-11-03 遺伝子発現量を正確に預言するAIが生まれた(2/n)ー預言を検証してみる はじめに 前回、「遺伝子発現量(プロモーターの強度)を正確に予言するAIが生まれた」という話をしました。今回のエントリーではこのAIの預言(予言より預言の方が適切なので変えました)に従ってプロモーターを進化させてみたという話をします。 このAIを作ったMITのグループは、ウェブ上でこのAIを使うことができるようAPI*を公開してくれています。人類の進歩のためなら、自分達が作ったものを誰でも使えるように、独占せず潔く公開するアカデミアの素晴らしさ・カッコよさを感じます。まあ、公開する前に美味しいところは自分達で十分におさえているし、そう簡単に追いつかれることもないという余裕のなせる技でもあるのでしょう。 さて、このAPIを使うと、AIの預言に基づいてプロモーターを進化させることができます。というわけで、早速やってみたいと思います。・・・その前に、まずは今回進化させようとする酵母のTDH3プロモーターについて紹介します。 最強TDH3プロモーター TDH3は酵母の中でもっともたくさん発現している遺伝子で、そのプロモーターは最強の1つと考えられています(Partow 2010)。私はその「最強さ」に惚れ込んで、酵母でタンパク質をたくさん作らせるためにこのプロモーターを使ってきました。このプロモーターの構造は図1のようになっています。 図1. TDH3プロモーターの構造(Azizoglu 2021, Kaplan 2009など参照) このプロモーターの最強の転写は、転写制御因子(Rap1, Gcr1)が結合する領域( ① –514〜–288 from ATG)によって実現されています。つまり、領域①はTDH3プロモーターの心臓部ともいえます。一方、AIの学習でもちいられたのは、TSSの上流域(② –170〜–90 from TSS)の80bpになります。そこで今回は、この2つの領域をAIで評価して進化させてみたいと思います。 AIの預言にしたがってTDH3プロモーターを進化させる 上記のAPIでまずは①の配列を解析してみます。ここはTDH3プロモーターの心臓部ですが、AIの学習にもちいられた領域ではありません。従って、AIの預言がどれくらい汎用性があるかを知るには良い材料だと思われます。 図2. TDH3プロモーター領域①のAI預言に基づく進化。進化前の配列をAIに読み込ませると、どの塩基を変化させると発現強度がもっとも上がるか(実線四角)、もっとも下がるか(点線四角)を教えてくれる。四角をクリックすると、塩基を置換したあとのプロモーターに対して同じ解析がなされ、またどこを変化させたらプロモーター活性が変化するかを預言してくれる。これを繰り返すと、与えられたプロモーターが最強/最弱へと進化する。転写因子の結合部位の探索はYeTFaScoで行った。最強進化後(Evo1)に関して図4の実験で発現量を調査した。 図2のように、80bpの配列を入力するとそのプロモーターの発現強度が予測され、さらにどの塩基をどう置換したらプロモーター活性が上がるか下がるかを教えてくれます(それ以外のいろんな機能もこのAPIにはあります)。最強TDH3プロモーターの領域①の発現量は14.0で、「わりと強い」部類に入ると預言されました。ですがAIは「このプロモーターはもっと強くなる」と言うので、それに従ってプロモーターを進化させてみました(詳細は図2のキャプション)。結果として、29カ所を置換してできた配列は発現量22.0、進化前の1.6倍の発現量です。 興味深いことに、進化後の配列ではもともとTDH3プロモーターの活性に必要だったGcr1の結合配列はなくなりましたが、Rap1の結合配列は残り、またもともとあったRap1の結合部位を触るとプロモーターは弱くなると預言されています。つまり、このAIは(学習データには用いていない)Rap1の結合配列が転写活性化に必要だということを(自分で学んで)内部情報として持っているということを示しています。 図3. TDH3プロモーター領域②のAI預言に基づく進化。見方は図2と同様。1回進化後(TtoC)、最終進化後(Evo2)に関して図4の実験で発現量を調査した。 次に領域②、こちらはAIを作るときに作った教育データを得たときと同じ領域(TSS上流–170〜–90)ですので預言が当たる可能性が高いと期待されます。ここにはTATA boxがあります。ここの発現量は11.3で、それほど高くないという預言でした。1塩基置換しただけで発現量が15.3まで進化します。そして最終的には13カ所を置換すると20.0(進化前の1.7倍)まで強くなります。この進化においても最終的にはTATA boxを含む配列が残りました。「ここを触るとプロモーター活性は弱くなる」とAIがいっており、このAIはTATA boxも知っているようです。 ここまでの結論として、私が最強と信じて使ってきたTDHプロモーターはそんなに強いわけじゃない、こうしたらもっと強くなるとAIが言ってきたのです。これは結構な衝撃でした。 AIの預言を実験で検証 さて、それではAIが預言したプロモーターの進化が起きるか、実際に試してみましょう。TDH3プロモーターの配列をAIの預言にしたがって置き換えて、その強度を調べてみました。強度はプロモーターにより発現する蛍光タンパク質の蛍光量で評価しました。 図4. AIの預言にしたがって塩基を置換したプロモーターの活性。プロモーターにより制御された蛍光タンパク質の蛍光により発現強度を評価した。同じ実験に対して、4つ生物学的複製を行った。WT:置換なしのTDH3プロモーター(コントロール)、Evo1:領域①の進化後配列に置換、TtoC:領域②の1回進化後の配列に置換、Evo2:領域②の最終進化後の配列に置換。 結論として、預言されたような進化はおきませんでした。領域①(Evo1)についてはむしろ発現が下がり、領域②(TtoC、Evo2)についても特に強くなったという結果は得られませんでした(統計的有意差なし)。 期待させやがってこの野郎!! ・・・なんてことは言いません。領域①に関してはAIの学習(守備範囲)の外側だから外れてもしょうがないでしょう。また、TDH3プロモーターは領域①の機能が強力に作用しているので、領域②だけを最強にしても影響が出にくいのかもしれません。この実験では領域①を残したまま領域②の配列を置換しました。領域①を削って領域②だけにしたら恐らくAIの預言に近い結果が出るものと思われます。 おわりに 以上、プロモーターをAIの預言にしたがって進化させ、実験で検証してみました。実際の酵母の遺伝子のプロモーターの多くは80bpよりずっと長いし、そこでいろいろな組み合わせの制御が行われているはずなので、「TSS上流域–170〜–80」で全部説明できるわけじゃない、というのが今回の結論ということになるかと思います。 こういうすごそうなツールが生まれると、「全部分かってもう研究者がやることないんじゃないか」と思ってしまいがちですが、(論文には書いていない)限界があることがほとんどです。今回のエントリーは、そういうのは実際に検証してみたらよく分かる、という例かなと思います。 実際には、AIの預言が見事に的中し最強がさらに進化した「TDH3プロモーター Evolution」を手に入れられるとワクワクしていたので、ちょっと残念・・・というのが本音です。 ーーーー *2022/11/03現在エラーがでいるようです。 Share on FacebookTweet(Visited 2,283 times, 7 visits this week) システムバイオロジー ソフトウェア テクノロジー 実験結果 過剰発現 酵母