2020-06-152020-08-17 シリーズ過剰発現・第9回「怪しいORF」 前回のエントリーで、ゲノム上の機能的なORFを定義、アノテーションしようとする努力について少し解説しました。今回はその中の、「(便宜的に)100aa以上のタンパク質をコードするORF」について考えてみたいと思います。 前回も書いたように、ORFとはATGからSTOPコドンに挟まれたDNA領域のことを指します。こういった配列はランダムにも生じ得るのでゲノム上には無数にORFがあることになります。例えば、2〜99のコドンからなる小さなORF(sORF)は出芽酵母のゲノムに26万程度あります(図9-1)。これらをすべて機能を持つORFとして解析対象とするのはさすがにナンセンスでしょう。なので、ゲノム解析の際には、100aa以上をコードしているORFを便宜的にORFとして扱うことにしました。ただ、実際には100aa以下で機能が分かっているタンパク質もたくさん存在しています。 図9−1.出芽酵母のゲノムに見られる小さなORF(sORF)。小さなORFは26万もあるので、便宜的に100aa以上のタンパク質をコードするORFにアノテーションをつけた。実際には100aa以下のタンパク質も沢山あることが分かっている(左テーブル)。 出芽酵母遺伝子・ORFの名前 ここで、出芽酵母の遺伝子・ORF名について少し説明しておきます。出芽酵母のORFには通常2つの名前があります。一つは、Standard Nameで、これまでの個別解析で取得された際につけられた名前です。たいていの場合、機能と関係しています。つまり、Standard Nameがついているということは、その遺伝子について何らかの機能が分かっていると考えることもできます(必ずしもそうでないケースもありますが)。もう一つは、Systematic Nameで、これは染色体上の位置に基づいてつけられています。 図9-2. 出芽酵母のゲノムのACT1領域。遺伝子名はStandard Nameで示されている。 図9-2に示されている遺伝子について言うと、Standard NameはACT1、これはアクチンをコードしている遺伝子です。この名前の付け方のルールは、アルファベット3文字+ローマ数字です。優性遺伝子なら大文字、劣性遺伝子なら小文字です。そしてACT1には、YFL039CというSystematic Nameがあります。これは、「Yeastの第六染色体(F番目)の左腕(Left arm)・セントロメアから数えて39番目に位置している、Crick鎖にコードされた遺伝子」という、場所情報に基づいた名前です。なのでLocus Nameということもあります。 ちなみに、Standard Nameはこれまでの研究の歴史を踏まえたもので、長年出芽酵母の研究をしてると、遺伝子の名前を見ただけでなんとなく機能が想像できるようになってきます。一方、Systematic Nameは無機質なコードなので、これらを眺めても遺伝子の機能は想像できません。だから、Systematic NameとStandard Nameのコンバーターがあったりします。 ゲノム解析の結果見つかった100aa以上のタンパク質をコードしうるORFには、こうしてSystematic Nameがつけられています。また、100aa以下のORFで初めSystematic Nameがつけられなかったけれど、後に機能を持っているORFだと分かるケースもあります。そうなってくると、新たに名前をつけてやる必要があります。そういう遺伝子には、Systematic Nameの後ろに -A、-B がつけられています。図の9-1の左端、FET5の横に小さなORFがありますが、これはYFL041W-Aと名付けられた63aaをコードするORFです。つまり、Systematic Nameの末尾に -Aだの-Bだのとついている遺伝子は、100aa以下なんだけど多分何らかの機能を持っていると思われているORFだということができます。 Dubious (怪しい)ORF こうやって、とりあえずその存在を認められ名前を授かった100aa以上のORF、アノテーションされたORF。ただ、名前がついているからといって本当に機能しているかは分かりません。そこで、前回のエントリーであげたような方法(以下に示します)で、そのORFが本当に機能しているのかを検証する作業が始まります。 機能解析(生化学、順遺伝学、逆遺伝学)発現解析(ノーザンブロッティング、マイクロアレイ、RNAseq、Ribo-seq、プロテオーム解析)情報学的解析(相同性検索、ドメイン検索)(便宜的に)100aa以上のタンパク質をコードするORF 遺伝子破壊や過剰発現で表現型が見られるかどうか、転写産物・タンパク質が同定されるかどうか、他の生物、特に近縁種にも相同な遺伝子が存在するかどうか・・・。そうして、「どうもこいつは機能しているORFじゃなさそう」という疑いが強まったORFには、「Dubious(怪しい・疑わしい)ORF」という記述がなされることになります。Saccharomyces Genome Database(SGD)のDescriptionの決まり文句は、「Dubious open reading frame; unlikely to encode a functional protein」です。 現在、ゲノム(データベース)上にはこの、「怪しいORF」が688あります(図9−3)。 図9-3. Saccharomyces Genome DatabaseのGenome Snap Shot。現在のゲノム理解の状態が示されている。怪しいORFは688ある。 それを除いた、怪しくないORFは2020年6月15日現在5,916。そのうち、727(約12%)の機能がまだ分かっていません。 次のエントリーでは、こうやってゲノム情報に紛れ込んだ「怪しいORFの面白さ」について少し考えてみたいと思います。 次回に続く。 (Visited 1,235 times, 3 visits this week) シリーズ過剰発現
最近報告されたヒトのケースだと、non-AUGのORFはいくつかどころじゃなく沢山あるみたいです。 Pervasive functional translation of noncanonical human open reading frames. Chen J, Brunner AD, Cogan JZ, Nuñez JK, Fields AP, Adamson B, Itzhak DN, Li JY, Mann M, Leonetti MD, Weissman JS. Science. 2020 Mar 6;367(6482):1140-1146. doi: 10.1126/science.aay0262. PMID: 32139545 酵母のケースだと、これまた最近の論文ですが、150くらい。あまり多くはないですね。 Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Eisenberg AR, Higdon AL, Hollerer I, Fields AP, Jungreis I, Diamond PD, Kellis M, Jovanovic M, Brar GA. Cell Syst. 2020 Jul 20:S2405-4712(20)30240-4. doi: 10.1016/j.cels.2020.06.011. Online ahead of print. PMID: 32710835 返信