gTOW6000論文解説のページ・トップへ

 

第2章:gTOW6000のデータを解析する

1.「遺伝子つなひき法」で得られるデータ

gTOW6000から何が分かったのかを解説する前に、この実験からどんなデータが得られて、そこから何が分かるのかを説明する必要があると思います。gTOW6000で使われている技術は、「遺伝子つなひき法」という私たちが作った遺伝学実験です。遺伝子つなひき法に関しては、別のページで詳細に説明していますが、簡単に言うと、標的となっている遺伝子の数(全く同じものの数という意味で、「コピー数」いいます)を、増やしていき、どこまであげたら細胞が死ぬか(あるいは増殖を停止するか)を測ることができる実験です。

では、コピー数をあげると何がおきるのか?単純に考えると、その遺伝子から作られるタンパク質の量がコピー数が増えた分、増えていきます。専門的には、「遺伝子が過剰発現する」という状態が作れます。実験に用いた酵母細胞のように1倍体の生物であれば、標的の遺伝子は通常1コピーあります。そこからは、決まった量のタンパク質が作られます。コピー数をあげると、その分だけ量が増える、つまりこの実験で遺伝子コピー数を測れば、「もとの発現量から何倍過剰に発現させれば、細胞が死ぬのか」が分かると期待されます。

専門的な知識をもっている方は、「遺伝子のコピー数が増えたからといって、タンパク質の発現量に直結するとは限らないだろう」、と思われるでしょう。厳密にはそのとおりです。ですから、専門的な論文に書く場合に私たちは、遺伝子つなひき法ではかれるのは、「遺伝子の過剰発現のコピー数限界」という少し持って回った言い方をします。ちなみに遺伝子つなひき法では、原理上コピー数限界と細胞の増殖速度が正の相関を示します。したがって、それぞれの遺伝子つなひき実験で、細胞の増殖速度を測ればコピー数限界をだいたい推定することができます。ただし正確にコピー数限界を知りたい場合には、やはりコピー数を実際に測る必要があります(コピー数はリアルタイムPCR法を用いて行ないます)。

もう少し話を続けます。それでは、遺伝子の過剰発現の限界が分かったら、今度は何が言えるのでしょうか?私たちは、これが細胞内でのさまざまなシステムの「壊れにくさ」を表していると考えています。専門的には、壊れにくさを「ロバストネス(頑健性)」という言葉で言い表しています。

ヒトが作るシステム(機械など)は壊れにくさが重要で、設計の原理になっていますが、生命のシステムもこの壊れにくさが重要で、それがどう言う風に組み込まれているのか、これがシステム生物学の大きなテーマになっています。ロバストネスの詳細な概念についてはも別のところで書いていますので、ここでは割愛します。

 

「遺伝子つなひき実験」の一例を下に示します。vectorとは、空ベクターのことで、コントロール(対象)実験の事を表します。酵母の細胞は、通常まるいのですが、CDH1遺伝子やSIC1遺伝子のように過剰発現させた遺伝子が細胞の増殖に悪影響を与える場合、細胞の形がおかしくなり、その程度がひどくなると細胞は死んでしまいます。

 
gTOW6000-3.png
 

2. データ解析の苦悩

さて第1章で述べたように、データはなんとか取り終えました。次にまっているのは取得したデータの解析です。6000の遺伝子それぞれについて、2クローンずつ解析、ロイシンのある培地、ない培地での解析、それぞれについて最大増殖速度とコピー数のデーターがあります。6,000 x 2 x 2 x 2 = 48,000のデータです。それぞれのマイクロプレートは、96サンプルが解析できるので、96遺伝子ずつの塊としてでてきます。

このような大規模実験につきものなのは、解析を同時に行なえないため、実験のロットごとにデータの「ぶれ」があることです。例えば、最初の頃の96遺伝子の塊と後でやった96遺伝子の塊を比べてみると、明らかに集団でデータのぶれが見られるのです。ですから、それぞれのプレートに対して指標となる試料(「コントロール」といいます)を混ぜておき、データのぶれを補正するという作業が必要となります。私たちの場合には、標的の遺伝子を組み込んでいないプラスミド(「空ベクター」といいます)を、各マイクロプレートに少しずつ入れておいて、データをとりました。

データをだすのは頼もしいテクニシャンのおかげで終ったのですが、解析は私が1人でやるしかありません。このような大規模データを扱ったことのなかった私には、苦労(苦悩)の連続でした。どうしたらこのぶれの大きなデータの塊からできるだけ情報を引き出すか、意味のある情報を抽出するか・・・パソコンの前でうなる日々が続きました。

6000の遺伝子を解析し終えて分かったことは、限界コピー数の低い遺伝子についてはプレートごとにほとんど影響を受けないが、コピー数が高い遺伝子に関してはデータが大きぶれるということでした。通常ならばコントロールの測定結果をもとに、マイクロプレートごとの結果を補正します。ですが、コピー数データは絶対的な数値なので補正することは正しくないように見えました。プレートごとに「コントロールと比べてどれくらい違いがあるか」によってコピー数限界がとても高かったり、低かったりする遺伝子を取得する方法もあり得ます。

ですが、最終的に私たちが選んだ方法は、すべての結果をあわせ、コントロールがどれくらいの平均値と触れ幅を示すのかを計算し、それよりも統計的に有意にコピー数が低いものを選ぶというものでした。正直に言うと当初の目的は、「すべての遺伝子の限界コピー数を数値として提示する」、ということだったのですが、gTOW6000では、特に限界コピー数の高い遺伝子についてはぶれが大きく、「この数字が限界である」という結論をだす精度にないことが分かりました。これは非常に残念なことでしたが、私たちが投じたリソースではこれが限界であったとも考えられます。

ただ、この解析で大体分かったことがありました。それは、測定した6000の遺伝子のうち80%以上は、この実験系で空ベクターを用いてはかれる限界(大体100コピー)の範囲にあるということでした。言い方を変えると、大半の遺伝子は100倍以上にコピー数をあげてもOK、細胞システムはかなり頑健にできているという結果でした。そこで、とにかく上限の低い遺伝子をちゃんと決めて、それらの特別な遺伝子達がどんな性質を持っているのかを調べるということに目標を定めました。

3. 115個の「Dosage Sensitive Gene」

この目標のために、最初の解析で限界コピー数が「20コピー以下」という遺伝子を選びました。それらは192個ありました。わずかなコピー数上昇で、細胞が死ぬ遺伝子なので、細胞はこれらの遺伝子の過剰発現に対して「脆弱である」と考えられます。そこでこれらの遺伝子を「脆弱192遺伝子」と名付け更に解析を行ないました。

時間が第1章のところまで戻るのですが、gTOW6000プロジェクトで、どうしても「その遺伝子が組み込まれたプラスミドをもつ酵母細胞が得られない遺伝子」というのが存在しました。PCRで遺伝子はちゃんと増えている、それをGap-Repair Cloningで組み込むためにベクターと一緒に酵母を形質転換、したはずなのにコロニーの数がとても少なく、コロニーをピックアップして細胞がもつプラスミドを調べてみても中に標的遺伝子が組み込まれていない(クローニングに失敗している)。

こんな時どう思いますか?何がおきているんでしょうか?

1つの可能性としては、「標的の遺伝子の限界コピー数がとっても低くて、染色体にある1コピーからもう1コピーでも増えてしまったら細胞を殺してしまう」ということがあり得ます。そんなに限界コピー数が低い遺伝子があるのでしょうか?・・・実はいくつかありました。アクチンをコードするACT1、チューブリンを高度するTUB2これらは最強。プラスミドにのりません。次にタンパク質脱リン酸化酵素のPPZ1CDC14、Gタンパク質のARF1これらはなんとかプラスミドに組み込めますが、プラスミドを保持する細胞の増殖が非常に悪くなってしまいます。こういう遺伝子は酵母をもちいたクローニングでは得られないので、大腸菌を使って遺伝子が組み込まれたプラスミドを作りました。

上記の「超脆弱な」遺伝子も含めた脆弱192遺伝子については、再解析をするとともに、「フレームシフト解析」を行ないました。フレームシフト解析とは、遺伝子の開始コドンのすぐ後ろに塩基を挿入してタンパク質の読み枠をずらしてしまう(フレームをシフトさせる)実験で、これを行なう事によりプラスミドに組み込まれた遺伝子から正常なタンパク質が作られなくなります(詳細は、こちらのページをご覧ください)。この実験により、「標的の遺伝子がつくるタンパク質がコピー数限界を決めているのかどうか」を調べることができます。

大半の遺伝子は、フレームシフト変異を入れると空ベクターのレベルまでコピー数があがりました。つまり、そこから出来てきているタンパク質がコピー数の限界を決めていることが確かめられました。しかし、一部の遺伝子についてはフレームシフトを導入しても相変わらず限界コピー数が低いままでした。これは、(1)アノテーションされいてるATG以外の場所からタンパク質が作られている、(2)タンパク質以外の要因がコピー数限界を決めている、という2つの可能性を示唆します。

この先の解析の詳細は述べませんが、更なる解析によって、コピー数をわずかに増やすと細胞にとって毒になる「タンパク質をコードしていない短いDNA断片」というのがいくつか同定されています。この理由はまだ説明できていません。よく分かっている酵母のゲノム上にも、このような未知の因子がまだ存在しているということです*1

このような解析を通じて、最終的に私たちは115個の上限コピー数が10以下の遺伝子を取得しました。これらはわずかな量(dosage)の変化に細胞が敏感に反応する(sensitive)ような遺伝子(gene)であることから、「Dosage Sensitive Gene(DSG)」と呼んでいます。

 

以下は、gTOW6000で得られた限界コピー数のデータです。80%以上は100コピーにあげても大丈夫。115個のDSGを同定しました。

 
gTOW6000-4_2.png
 

4. プロモーター置換と遺伝子つなひき法は違う。

さて、いよいよ得られたデータが生物学的にどんな意味を持っているのかを解析します。実はその前に言っておかなければならないことがあります。今回解析した出芽酵母においては、「過剰発現させたら細胞にとって毒になる遺伝子、細胞を殺す遺伝子」の探索というのが、これまでに山口大学の教授である赤田倫治先生の仕事を始めとして、既になんどか行なわれています。さらに、これをすべての遺伝子で行なうという網羅的探索も既にSopkoらによって2006年に報告されています*2

gTOW6000もそれぞれの遺伝子の過剰発現がどれくらい細胞に悪さをするかを網羅的に探索したものですから、「同じ研究をまたやっただけ」のように見えます。ところがこれら2つの研究の間には大きな違いがあり、その為に得られる結果も大きく変わってくるのです。

私たち酵母研究者が、一般的に遺伝子を過剰発現させようと思ったときにどういう実験をするかというと、遺伝子のタンパク質をコードしている領域(Open Reading Frame: ORFという)を切り出し、培地条件などでON/OFFできる強力なプロモーター(遺伝子の発現を制御するDNAの配列)の制御下につなぎ、酵母の中でこれをONにしたときにどうなるかを観察します(これを「プロモーター置換」とよびます)。

出芽酵母で有名なのはGALプロモーターと呼ばれるプロモーターで、培地にグルコースがあるとOFF、ガラクトースがあるとONになるように制御が可能です。ONの時にはかなり沢山遺伝子を発現させることができるため、過剰発現の実験に一般的に使われます。これまでの「過剰発現実験」ではほぼすべてこのGALプロモーターが用いられてきました。

プロモーター置換と遺伝子つなひき法の最も大きな違いは、プロモーター置換が、もとの遺伝子の発現量を無視した形で、どの遺伝子についても同じように、「絶対的な」過剰発現がなされることに比べ、gTOWでは元のレベルから何倍過剰発現したら細胞機能を破綻させるかという、それぞれの遺伝子について「相対的な」過剰発現を行なうことができることにあります。

もっと簡単な言葉で言うと、いろんなタンパク質について同じくらいドバーっと作らせたときに、細胞が死ぬかどうかを調べるのが前者、それぞれのタンパク質について、もとの存在量から2倍、3倍、・・・100倍とあげて言って細胞が死ぬ限界を調べるのがgTOWということになります。ですからプロモーター置換では、例えばもとから非常にたくさん発現しているタンパク質だったら、あまり過剰に発現しないかもしれません。またもとも微量にしか存在しないタンパク質だったら、ものすごくたくさん過剰に発現することになってしまいます。

もちろんプロモーター置換は、「どんな種類のタンパク質が細胞の中にたくさんたまってしまった時に困るのか」ということを知るには良い実験と言えます。また、ON/OFFを制御できるので、「たくさんだしたときにどういう風に細胞が死ぬのか」ということも調べやすい実験系です。

一方で、現在の細胞内のシステムで働くタンパク質の存在量は、うまくシステムが機能するように最適化されているはずですから、その最適な存在量からどれくらい変化させたら細胞システムが破綻するのか、という疑問には遺伝子つなひき法でないと答えられないのです。ということで両者の研究で得られる遺伝子が異なっていても不思議ではありません。

Sopko2006では、過剰発現させたときに細胞の増殖を悪くさせる遺伝子が、800弱とれています。gTOW6000で空ベクターにくらべて統計的に有意に限界コピー数が低い遺伝子も同じような数でした。それらのオーバーラップは、わずか20%しかありませんでした。特に大きな違いは、「もともとたくさん発現している遺伝子が、Sopko2006ではほとんど取得できていない」、ということでした。これは、私たちが予測したとおりこのとではありましたが、実はこのせいで「過剰発現させたときに細胞を殺す遺伝子の特長」について、私たちの研究以前には「あやまった結論」が導きだされていたと考えられるのです。

 

SopkoらのデータとgTOW6000のデータの違いを以下に示します。両者は20%しかオーバーラップしていません(A)。沢山発現しているタンパク質をコードする遺伝子はプロモーター置換では得られていません(B)。

 
gTOW6000-5.png
 

5. Sopko2006論文の功罪

Sopkoらの論文は、Molecular Cellという業界の中でもトップに近い科学誌に掲載されています。この論文では、出芽酵母がもつすべての遺伝子を過剰発現させ、それぞれがどのような影響を細胞に与えるのかを、顕微鏡観察や細胞周期の観察まで含めた解析結果が報告されています。過剰発現の影響は、「細胞の増殖速度をどれくらい下げるか」という指標で定量化しています。これは、「それぞれの遺伝子を過剰発現させるとどんなことを引き起こすのか?」という記述として非常に役に立つものでしょう。それぞれの遺伝子の機能について新たなヒントを与えるもので、遺伝子のそれぞれを網羅的に破壊した研究を補完する仕事です。

ちなみに、このような全遺伝子の網羅的な過剰発現というのは、現在に至るまで出芽酵母以外のどの生物でも達成されていません。それはこのような実験を大規模に行なうことが、他の生き物では大変難しいからであり、「細胞のモデル生物」としての酵母のすばらしさを浮き彫りにしています。

Sopkoらの研究は、網羅的な過剰発現の唯一の研究であるため、その後の多くの論文で引用されています。ただ問題なのは、「過剰発現」という概念が間違って解釈され、本来そのように使うことは正しくない研究にも使われていることです。

網羅的解析から得られるデータには、「それぞれの遺伝子の機能に新たなヒントを与える」ということのほかに、「全部調べてみたからこそ見えてくる遺伝子集団の特長」という、もう1つの重要な側面があります。今回で言えば、「過剰発現したときに細胞を殺すような遺伝子というのを全体としてみるとどんな特長があるか」、ということです。

このような全体としての特長を、網羅的な遺伝子破壊の結果で見てみると、遺伝子を壊したときに細胞が死んでしまう遺伝子の集団が全体として持っている特徴として、「タンパク質相互作用のハブである」ということがあります。細胞内では沢山のタンパク質がお互いに相手を認識して結合することで機能を果たします。生物学の最も分かりやすい例で言えば、「アクチンとミオシンが結合することで筋肉の収縮がおきる」というようなことです。

「ハブ」とは、タンパク質の中でも沢山の結合相手をもっているネットワークの中心になるようなものを言います(ハブ空港で使われるハブと同じ意味合いです)。壊したときに死ぬような遺伝子というのは、ハブである傾向が強い。壊すとネットワークがバラバラになってしまうからだと考えられます。岡山空港が壊れてもあまり困らないが、羽田空港が壊れたら大変なことになるというような例えになります。Sopkoらの得たデータで見ると、過剰発現したときに死ぬような遺伝子は、遺伝子破壊したときに死ぬ遺伝子とはちがい、ハブになっているということはありませんでした。

また、第3章で詳しく述べますが、細胞内で複合体を作るようなタンパク質の構成成分の量を変化させると細胞機能に影響を与えやすいという、「バランス仮説」というものがあります。量を変化させる過剰発現では当然バランス仮説にのって、「複合体の構成成分を作るタンパク質ほど過剰発現で死にやすい」となることが期待されるのですが、Sopkoらの結果はそうなりませんでした*3

私はこの一連の研究に非常に強い違和感を感じました。元のレベルを無視して過剰に発現するプロモーター置換では、生物が作り上げた分子相互作用のネットワークの頑健さ、原理を無視しているからです。先に述べたように、プロモーター置換ではもともと沢山発現しているタンパク質は、わずかしか過剰でない(だから細胞に影響がない)。もともと少ないタンパク質は数千倍に増えているかもしれない(だから強い影響が出る)。このような状況にある実験で、それぞれの遺伝子の特性を考えていいものでしょうか?

例えば、上記バランス仮説の検証において、この元のレベルを無視した過剰発現の結果を用いたらどうなるでしょうか?バランス仮説では、複合体の構成成分の量のバランス(ストイキオメトリー)が乱れることが良くないといっています。構成成分の量は、それぞれ最適に決められているとして、それらがちょっとだけ変わっているタンパク質と、ものすごく変わっているタンパク質が混じった実験が、プロモーター置換なのです。これでバランス仮説を否定されたら、バランス仮説がかわいそうです。

逆に言うとSopkoらの研究は、私たちの実験の特長を浮かび上がらせるためには非常によい反面教師(?)ではあります。ただ、後で述べるように、この先行研究がgTOW6000の論文を世に放つときにいろいろとややこしい事態を引き起こしたのです。

 

第3章「gTOW6000のデータから何が分かったのか?」に、続く。


*1 その後、その1つがこれまで知られていなかったごく小さなORFであることを明らかにしました。 Makanae K, Kintaka R, Ishikawa K, Moriya H., Small Toxic Protein Encoded on Chromosome VII of Saccharomyces cerevisiae., PLoS One. 2015;10(3):e0120678.
*2 Sopko R, Huang D, Preston N, Chua G, Papp B, Kafadar K, Snyder M, Oliver SG, Cyert M, Hughes TR, Boone C, Andrews B., Mapping pathways and phenotypes by systematic gene overexpression., Mol Cell. 2006 Feb 3;21(3):319-30.
*3 VavouriらはこのSopkoらの結論から、過剰発現させると死にやすい遺伝子の特長を別の方法で探り、「弱いタンパク質相互作用の増強が過剰発現によって細胞を殺す原理である」と結論しています。Vavouri T, Semple JI, Garcia-Verdugo R, Lehner B., Intrinsic protein disorder and interaction promiscuity are widely associated with dosage sensitivity., Cell. 2009 Jul 10;138(1):198-208.