シリーズ過剰発現・第10回「怪しいORFの面白さ」

前回に引き続いて、Dubious (怪しい) ORFについての話題です。生物データを眺めてみると怪しいORFの怪しさが見えてくる、という話をしてみたいと思います。

いきなりですが、生物のデータは対数正規分布をとることが多いことが知られています（なんでかというのはここでは議論しません）。例えば、出芽酵母のタンパク質の発現量の分布を見てみます（図10-1）。

対数にした発現量順にタンパク質を並べると、中心付近がなだらかで両端がシャープな形になるし、対数にした発現量でヒストグラムを作ると確かに正規分布のような左右対称に近い山ができます。

図10-2. RNA発現量、タンパク質合成速度、タンパク質発現量の分布。いずれも対数正規分布に近い分布となる。

図10-2で示したように、RNAseqやRibo-seqで得られるRNAの発現量やタンパク質の合成速度でも同じように対数正規分布が見て取れます。ただ、RNAseqやRibo-seqでは発現量の低いところに少し塊があるように見えます。また、全体を通して、発現量が高いところにも小さな山があります。これらは実験のノイズかもしれないし、生物学的に意味がある違う制御を受けている遺伝子群なのかもしれません。

さて、ここでSaccharomyces Genome Databaseに登録されている全6704ORFについて、その分子量の対数の分布を見てみましょう（図10-3）。

図10-3. 出芽酵母の全ORFの分子量の分布。RNA発現量、タンパク質合成量、タンパク質発現量で閾値をとると対数正規分布が見える。

対数正規分布に加えて、9よりすこし上あたりになんか変なスパイクが見られます。しかもすごくシャープな切り口の。これがちょうど、100aa位のタンパク質の分子量になります（アミノ酸平均分子量110 x 100aa = 11000）。つまり、生物が持つデータの特徴から考えると、データベースに登録されている6704のORFのうち、このあたりの分子量をもつORFの数は異常に多い。これは多分、人間が恣意的に100aa以上のORFを認定したせいだろうと考えることができます。

実際、mRNAがある程度存在している5506ORF（TPM > 3）、タンパク質の合成が確認された5496ORF、タンパク質が確認された4619ORFのみで分子量の分布を見ると、そのスパイクがきれいに消えます（図10-3、赤いグラフ）。やはりここには沢山の「怪しいORF」が含まれていることが考えられます。

以上、今回は、データベースに登録されたORFをグラフ化していじるだけでもなんか面白いことが見えるよ、というエントリーでした。生物のデータを扱うとはどういうことか、というのが垣間見えたかと思います。

さて、次回の小さなORFシリーズ（？）の最後のエントリーでは、最近話題の（？）小さなORFが生み出す新しい遺伝子、デノボ遺伝子誕生について書いてみたいと思います。

次回に続く。