[ English ]

2.4 H-InvDBアノテーション:非タンパク質コード遺伝子

まず、既知のタンパクをコードする遺伝子やInterProドメインを含有する遺伝子に対して配列相同性がない転写物をタンパクをコードしない遺伝子の候補として収集しました。それらのうち機能性RNAを同定するため、様々なデータベースから収集した既知の機能性RNAに対して、BLASTN 解析による相同性検索を行いました。さらに、実験的な検証が報告されているかを確認することにより、既知の機能性RNAに対して配列相同性がある転写物をIdentical to known ncRNASimilar to known ncRNAの2つのカテゴリーに分類しました。また、それぞれのカテゴリーについて、snRNA、snoRNA、scaRNAを"short ncRNA"、それ以外の機能性RNAを"long ncRNA"としてコメントを付記しました。

1.Identical to known ncRNA (Eval < 10-10の閾値を満たし、かつ、実験的な検証が既に報告されている機能性RNA)
2.Similar to known ncRNA (既知の機能性RNAとのBLASTN解析結果によりEval < 10-10の閾値を満たすが、実験的な検証がまだ報告されてない転写物)

次に、既知の機能性RNAに対して配列相同性がなく、また、推定されるCDS (coding sequence)におけるアミノ酸配列長が20アミノ酸残基未満の転写物については、判別解析により推定上の機能性RNAを予測しました。そして、Putative ncRNAのカテゴリーについて、snRNA、snoRNA、scaRNAに類似した特長を有する配列を“short ncRNA”、それ以外の機能性RNAに類似した特長を有する配列を”long ncRNA”、両方に類似した特長を有する配列を"both long and short ncRNA"としてコメントを付記しました。

1.Putative ncRNA (判別解析により機能性RNAと推定される転写物)
2.Uncharacterized transcript (機能性RNAとは推定されない転写物)
3.Unclassifiable transcript (ゲノム断片の可能性がある転写物、部分配列として登録された転写物)


更新日:2007年12月26日