[ English ]

2.0 H-InvDBアノテーション項目

H-InvDBでは下記のようなアノテーション項目を提供しています。

各アノテーション項目の詳細については後述をご参照下さい。

2.0.1 H-InvDBのID

H-InvDBのアノテーションは転写産物(cDNA, mRNAなど)または遺伝子座に対して付与されており、それぞれに独自のIDを定義しています。また、ユニークなタンパク質および遺伝子ファミリー・グループを定義しIDを付与しました。

HIT (H-Invitational transcript):

形式:HIT + 9桁の数字 + version番号 例)HIT000000001.1

転写産物(cDNA, mRNAなど)配列のアノテーション情報をデータベース化し、H-Invitational transcripts(HIT)ナンバーというIDを付与しました。

*1) eHIT遺伝子モデルの場合、先頭に”e”を付与しています。(2.0.3 参照)
形式:eHIT + 9桁の数字 + version番号 例)eHIT000000001.1

*2) pHIT遺伝子モデルの場合、先頭に”p”を付与しています。(2.0.4 参照)
形式:pHIT + 9桁の数字 + version番号 例)pHIT000000001.1

*3) 転写産物がゲノム上の複数箇所に同一条件でマップされる場合、HIT IDに枝番を付与しています。 形式:HIT + 9桁の数字 + version番号 + 枝番 例)HIT000000001_01.1

HIX (H-Invitational cluster):

形式:HIX + 7桁の数字 + version番号 例)HIX0000001.1

ヒトゲノム上の重複を除く遺伝子クラスター遺伝子クラスターをH-Invitational cluster(HIX)と定義し各遺伝子座単位にIDを付与しました。

HIP (H-Invitational protein):

形式:HIP + 9桁の数字 + version番号 例)HIP000000001.1


転写産物配列の予測CDSアノテーション情報をデータベース化し、ユニークなアミノ酸配列に対しH-Invitational protein(HIP)ナンバーというIDを付与しました。

HIF (H-Invitational gene family/group):

形式:HIF + 7桁の数字 例)HIX0000001


マニュアルキュレーションまたは配列相同性と機能性モチーフにより複数の遺伝子座で構成される遺伝子のグループ、ヒト遺伝子ファミリー・グループをH-Invitational gene family/group(HIF)と定義し各遺伝子ファミリー・グループ単位にIDを付与しました。

2.0.2 HITヒト転写産物

HITはH-Invitational transcriptの略で、H-InvDBの主要アノテーション単位の一つです。塩基配列は、各リリースの配列凍結日時点の最新のデータをDDBJサイト(http://www.ddbj.nig.ac.jp/index-j.html)より取得しています。

HIT塩基配列のソースは下記です。

各HIT転写産物に対するアノテーション情報は、”Transcript view”画面に表示されています。(4.1参照)

2.0.3 eHIT遺伝子モデル

eHITのエントリーとはEST配列とmRNA配列の両方の情報を用いて、合成的に構築した仮想転写物配列です。”eHIT” データセットの導入は、DDBJに登録されているFLcDNAやmRNA配列を元に提供している”HIT”のアノテーションではカバーしきれない転写物アノテーション情報を提供することを目的としています。

2.0.3.1 eHIT遺伝子モデルを構築するために使用された配列およびアノテーションデータ

DDBJ/Genbankに登録されている全mRNA配列とEST配列(スプライス部位が特定されたもの全件)を遺伝子モデルの予測に用いました。データの取得日は 2007年5月9日です。我々は、DDBJ の全mRNA配列とヒトゲノム配列との間のスプライスアラインメント情報を既に”HIT”アノテーションの際に得ており、同様のアラインメント結果をeHIT構築においても利用しました。EST配列とゲノム間のアラインメント情報に関してはUCSCよりダウンロードしたintronEST(spliced EST)のアノテーション情報を用いました。信頼性の高いEST配列に限定し、さらにスプライスパターンの一致度を遺伝子モデル構築に反映することで、より正確な遺伝子モデルを構築するという目的のためにスプライス部位が検出されなかったEST配列は用いませんでした。

2.0.3.2 遺伝子モデルのエクソンーイントロン構造の予測

はじめに、全てのmRNAとEST配列のアラインメント結果を用いて、ゲノム上の位置におけるクラスタリングを行いました。シングルリンケージの手法により、同一ストランド上でエクソンが重なる全ての配列をグループ化し、ゲノム上に置ける遺伝子座候補を決定しました。次に、各々の遺伝子クラスターから一つの遺伝子モデルを構築する作業を行いました。(step1)全ての配列を他の転写物とのスプライスパターンの一致度や完全長の度合いによってソートし、その遺伝子座における代表となる転写物を特定しました。(step2)代表となる転写物からスタートし、エクソンが重なりスプライスパターンの不整合を起こさないEST/mRNA配列を遺伝子モデルに繋げていきます。繋げるべき配列が無くなるまで繰り返し、最終的に遺伝子モデルのエクソンーイントロン構造を決定しました。

2.0.3.3 eHIT 遺伝子モデルのフィルタリング

冗長性や間違った予測モデルの混入を防ぐために、既に”HIT”配列により定義されている構造と同様のモデルや信頼性の低いと考えられる遺伝子モデルを取り除きました。最終的に629件のeHIT遺伝子モデルが”HIT”によるトランスクリプトームアノテーションを拡充するモデルとしてH-InvDBに登録されています。

2.0.4 pHIT遺伝子モデル

pHITとは、Cap Analysis Gene Expression (CAGE) tagと複数の遺伝子(タンパク質コード領域)予測プログラムを用いて、ゲノム配列情報から予測した遺伝子(但し、転写産物のコード領域のみ)です。未だに検出されていないが存在する可能性のある遺伝子情報を提供することを目的としています。

ここでいう遺伝子予測プログラムとは、ゲノム配列を入力として、タンパク質をコードしている領域やスプライス部位の配列パターンの候補を統計的手法で検出し、全体の遺伝子構造を統合的に予測するプログラムで、今回はGENSCAN、 FGENESH、HMMGeneを用いています。H-InvDBでは、より精度の高い(擬陽性の少ない)予測結果を提供するためにこれら単独の予測プログラムの結果を統合するプログラムJIGSAWを用いました。

また、CAGE tagとは、転写開始点から下流の配列を示す実験的に同定されたtag配列です。CAGE tagがマップされたゲノム上の位置は転写開始点と解釈されるので、そのすぐ下流に遺伝子が存在する可能性が高いと推測できます。我々は、日本のゲノムネットワークプロジェクトで公開された Cap Analysis Gene Expression (CAGE) tagがマップされたゲノム位置の下流領域を対象にして予測しました。

2.0.4.1 予測対象領域の決定と遺伝子モデルの予測

CAGEタグはゲノム上でクラスターを形成しますが、CAGEタグが少ないクラスターの場合、擬陽性の可能性があると考えられす。これを除くため、まず10タグ以上から成るタグクラスターを採用し、さらに1kb以内のものは1つにまとめました。17,725個のCage tag クラスターを使って、その下流100kbを解析し、2,988個の遺伝子が予測されました。これらのうちread-through transcripts (2つ以上の遺伝子をつなぐ転写産物)、 免疫グロブリン遺伝子と見られるものは除いています。

NCBI build 36のゲノム配列で1番から22番の染色体、およびX染色体についてゲノム配列から遺伝子を予測しました。ただし、Y染色体、ミトコンドリアゲノム、ランダム配列(chr*_random)については予測を行っていません。

2.0.4.2 pHIT 遺伝子モデルの公開情報

pHITは、他のHITと同じように、転写産物単位で番号が振られています。 2,988個の予測遺伝子のうち、最終的に信頼性の高い一部の予測遺伝子を公開しています。そのため、公開されたpHIT番号は、連番ではありません。また、各pHITについて、参考にしたタグクラスターからランダムに選択した5つのタグ名を公開しています。

更新日:2007年12月26日