[ English ]

2.3 H-InvDBアノテーション:タンパク質コード遺伝子

2.3.1 タンパク質コード領域予測

ヒト転写産物(cDNA, mRNA, RNA)の塩基配列を解析対象として、タンパク質データベースに対して配列相同性検索プログラム(FASTY・BlastX)を実行し、配列の類似性およびGeneMarkによる遺伝子予測結果との組み合わせにより転写産物配列中でタンパク質をコードしている領域(CDS)を予測しました。 代表配列(2.3.2 参照)の情報を基に、ヒト遺伝子座をタンパク質コード遺伝子と非タンパク質コード遺伝子に分類しており、タンパク質コード遺伝子のうち一部について転写型偽遺伝子候補の判定を行いました(2.3.4 参照)。

2.3.2 H-InvDB代表配列

ゲノム上の重複を除いて定義されるクラスター(遺伝子座)の代表的な配列を代表配列と定義しました。代表配列は、それぞれのクラスターメンバーを考慮して手動アノテーションで定義しています。

2.3.3 H-InvDB遺伝子機能アノテーション

予測されたアミノ酸配列に対しモチーフ予測プログラム(InterProScan)を実行しタンパク質の機能予測を行った後、手動アノテーションを行いました。既知タンパク質または機能性モチーフ情報を用いて、H-Invタンパク質をCategory IからVIIの7つに分類しています。転写型偽遺伝子候補とアノテーションされたデータについては、Category VII: pseudogene candidateと分類しました。

Fig 2.3.1 遺伝子機能アノテーション.

H-Invタンパク質をCategory IからVIIの7つに分類しています。

2.3.4 H-InvDB転写型偽遺伝子アノテーション

以下の2段階の解析により転写型偽遺伝子候補を判定しました。
[Step1]機能性タンパク質のフィルタリングとフレームシフト・ナンセンス突然変異の検出
機能アノテーションの結果からタンパク質をコードする親遺伝子の存在を確認できたcategory IIの代表転写物を判定対象としました。機能アノテーションにより割り当てられた親遺伝子のタンパク質とのFASTYの相同性検索結果からフレームシフト突然変異、ナンセンス突然変異が観察された転写物を偽遺伝子候補としました。
[Step2] サポートベクターマシン(SVM:support vector machine)を用いた判別解析
step 1で得られた候補に対してSVM(mySVM package)を用いた判別解析を行い、転写型偽遺伝子候補を判定しました。

更新日:2007年12月26日