シリーズ過剰発現・第8回「遺伝子・ORFはどのように決められるか?」

前回までのエントリーで、ポストゲノムのシステマティックな遺伝子の機能解析、特に遺伝子破壊ライブラリーや過剰発現ライブラリーでは、ゲノムのアノテーションをベースに遺伝子を調べていくと解説しました。本エントリーでは、その「遺伝子(あるいはORF)」というアノテーションはどのように決められてきたのかを考えてみたいと思います

ゲノムのアノテーションとは、本エントリー後半で紹介するような様々な情報をもとに、「ゲノムDNA上のどの位置にどのような因子が存在するか」、という注釈のことを指します。例えば、図8-1では、S. cerevisiaeゲノムの特定の領域(第VI染色のACT1が存在する領域)においてのアノテーションを示しています。このアノテーションでは遺伝子の情報のみ、その領域でどちら向きにどのような遺伝子が存在しているかを表しています。

図8-1. S. cerevisiaeゲノム、ACT1領域のアノテーション(ORF情報のみ)。Saccharomyces Genome Databaseより

遺伝子の定義、ORFの定義

少しここで横道にそれて、「遺伝子」というものの定義について考えてみたいと思います。古典的な遺伝学において、遺伝子とは、「子孫に受け継がれる形質の情報を含んだ因子」のことを意味していました。これは遺伝子の実態があきらかになる以前のことです。現在、遺伝子の実態はDNAの特定の領域であることが分かっています。

それでは、遺伝子とは具体的にDNA上のどこからどこまでを指すのでしょうか? タンパク質をコードする領域? mRNAとして転写される領域? あるいは、遺伝子発現を誘導する領域まで含む?こういう定義は、各研究者がバラバラに自分の好きな遺伝子を研究していた頃には曖昧でもよかったでしょう。私の手元にある教科書では、「mRNAとして転写される領域を遺伝子と呼ぶことにする」とあります。ただ、現在の研究からmRNAとして転写される領域もきちんと決まっていなくて、ある程度の揺らぎがあることが分かっています。

ゲノムという統一的なプラットフォームで情報を扱うには、きちんとした定義が必要になります。でないと、「ゲノム上のこの塩基からこの塩基までがxxxという遺伝子です」という注釈が成り立たないからです。というわけで、定義が曖昧な「遺伝子」という言葉は、ゲノムのアノテーションでは使いません。そのかわりATGからSTOPコドンには挟まれたDNA領域を「Open Reading Frame (ORF)」として定義しています。つまり、ORFとはタンパク質をコードしうるDNA領域ということになります。遺伝子とは、機能的なORFが存在している遺DNA領域を漠然と表す言葉と言えるでしょう。「それじゃあ、タンパク質をコードしないRNAで機能する遺伝子はどうやってアノテーションするんだ?」ってことになるわけですが、生物は例外だらけなので、その都度うまいことルールを作っていくしかないってことになるんだと思います。

機能的なORFをどうやって見つけるか?

さて、次にゲノム上のORFについて考えてみたいと思います。ORFというのはATGからSTOPに挟まれたDNA領域のことだと言いました。これは、実際にはゲノム上に無数に存在することが想像できると思います。たまたまATGがあって、たまたまSTOPがあったらORFができてしまいます。それを全部アノテーションしていたらきりがない。だから、なるべくちゃんと機能していそうな、意味のあるORFをアノテーションしようと努力するわけです。こういった、機能的なORF(つまり遺伝子)をゲノム上に位置づける(マッピングする)という努力は、遺伝学の誕生からずっと行われてきました。以下にそれをさらっとまとめてみました。

  1. 機能解析(生化学、順遺伝学、逆遺伝学)
  2. 発現解析(ノーザンブロッティング、マイクロアレイ、RNAseq、Ribo-seq、プロテオーム解析)
  3. 情報学的解析(相同性検索、ドメイン検索)
  4. (便宜的に)100aa以上のタンパク質をコードするORF

これを全部説明すると教科書一冊分くらいになるので、個別の解説はここでは割愛します。ここで議論したいのは、こういった方法によって私たちは現在出芽酵母のゲノムをどれくらい理解できているのか、ということです。あるいは、酵母のゲノム上にある機能的なORFのどれくらいをちゃんと把握できているのか、また機能していないORFをどれくらい間違ってアノテーションしているのか、と言ってもいいかもしれません。

以前のエントリーでは、出芽酵母のゲノム上に存在する遺伝子のどれくらいについて機能が分かっているのか、について議論しました。出芽酵母のゲノム上にはだいたい6,000くらいの遺伝子が存在しており、そのうちの約90%の機能について何らかの情報があります。逆に言うと、非常によく調べられている出芽酵母にもまだ700以上の機能の分からない遺伝子がある、ということになります。

今日はここまで。次回以降、たぶん数回このあたりの議論をしたいと思います。

次回に続く。

(Visited 245 times, 22 visits this week)

Leave a Comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください