[ English ]

2.1 H-InvDBアノテーション:ヒト転写物クラスター

2.1.1 ゲノム上にマップされるヒト転写物クラスター

ゲノム上のマップ位置が同じ転写物をクラスタリングしました。マップできなかった場合は、アンマップ転写物として配列相同性を手がかりにしてクラスタリングしました。(2.1.2参照)

マッピングとクラスタリングのパイプラインを下に要約しました。

[A]クラスタリング対象のヒト遺伝子転写産物は完全長cDNA, それ以外のmRNA, RefSeq(NM,NR),EnsemblのENST,さらにはH-InvDB内で構築したeHIT及びpHITと呼ばれる遺伝子モデルを使いました。データ凍結日は2007年5月9日です。

[B]リピートデータベースはRepbaseからダウンロードしました。(RepBase Update 20060314 and RM database version 20060314)。転写物のマスクに用いたプログラムはRepeatMasker version open-3.1.5で、"-nolow -xsmall"オプションを使いました。

[C]ヒトゲノム上の繰り返し配列はUCSCによりマスクされています。Build 35の"Chr6_hla_hap2"もマッピングに用いました。また、ヒト集団内での多様性を考慮に入れるために、dbSNP build127 に登録されているvalidationのフラグを持った全SNP情報を用いて作成したSNP置換ゲノムへのマッピングも行いました。

[D]cDNA, mRNAのアダプタ配列とクローニング・ベクター由来の配列も検出してマスクしました。クローニング・ベクター配列の検出はRefSeqに対しても行いました。

[E]3’末端ポリ(A)と5’末端ポリ(T)もマスクしました。検出方法は以下のとおりです。

3’末端ポリ(A)配列の検出

    1.配列の3'端を始点として10bp連続するアデニンを検出します。
    2.連続するアデニンの開始点から配列の末端までの領域におけるアデニンの含量が90%以上の場合にポリ(A)テイルとしました。

5’末端ポリ(T)配列の検出:

    1.先頭と末端が入れ替わるように、配列を反転します。(相補鎖を作成するのではありません)
    2.配列の3'端を始点として10bp連続するチミンを検出します。
    3.連続するチミンの開始点から配列の末端までの領域におけるチミンの含量が90%以上の場合にポリ(A)テイルとしました。
EnsEMBL配列はゲノムのエキソンから構成されているので、この処理は省略しています。

[F]これらの配列がアノテーションを始めとする後続解析に用いられます。

[G]転写物の遺伝子領域は、まずBLASTNとBLATでおおざっぱにきめておきます。

    BLASTNのオプションは以下の通りです。
      -F 'm D' -U T -e 0.01
    BLATのオプションは下記です。
      -maxIntron=1100000
    すなわち、BLATでは最大で1.1Mbの長さのイントロンを予測します。
[H]これらの配列はアノテーションには用いません。

[I]エキソン領域の検出にはest2genomeを用いました。
    用いたオプションはデフォルト値と、改善されたパラメータを用いました。改善されたパラメータは下記にしましました。
    Gap open penalty = 4
    Gap extension penalty = 4
    Mismatch penalty = 3
    Splice site penalty = 12
    Intron penalty = 24
    Splice site penalty2 (for non canonical GC-AG/AT-AC site) =20 (35 for default)

    何度かの試算の結果、上記のパラメータは正準なスプライスサイト(GT-AG)への過剰適合と末端にある13bp以下の短いエキソンの発生を防ぐのに有効であることが分かっています。Non-canonical なスプライスサイト(GC-AG/AT-AC)の同定を正確に行うために、それらに対するスプライスサイトペナルティを変更しています。30bp以下のアラインメントが取れなかった領域に関しては全てイントロンではなく"ギャップ"として取り扱いました。
[J]不正確なアラインメントを取り除くためのフィルタリング。閾値は塩基一致率(%ID)95%以上且つ配列被覆率(%Cov)90%以上としました。ベクター配列とポリ(A)または(T)テイルの領域は%ID,%Covの計算では除外しました。

[K]マップされた座位。この段階では各転写物に最適な座位に絞られていません。

[L]最適座位の選択処理前半。最適座位の選択の前半では、下記の処理が実行されます。
    1.転写物とゲノム配列のアラインメントの%IDが最も高い候補座位を選択します。
    2.転写物の全長に対する整列領域の%Covが最も高い候補座位を選択します。
[M]転写物の相補鎖がDNAデータバンク登録されている場合があり、そのような転写物はゲノム上の逆のストランドにマップされます。このような場合はマップされたゲノム位置のストランドの修正が必要です。正確なストランドは以下の3項目で決めることができます。
    1.CDSが相補鎖に検出されている。
    2.CT-ACのスプライスサイト・モチーフのイントロン
    3.5'末端ポリ(T)配列の存在

    転写物に5'末端ポリ(T)配列が見つかった場合やgt-ag以外のスプライスサイトを持つイントロンが半数を超える場合はマップされたストランドを修正します。
[N]最適座位の選択処理後半。最適座位の選択の後半では、下記の処理が実行されます。
    1.残った候補ローカス70bp未満の短いイントロンを持つ候補ローカスは破棄する。シングルエキソン遺伝子または、候補ローカス全てが70bp未満の短いイントロンを持つ場合は判定対象外。
    2.スプライスサイト周辺10bpのアラインメント中に最もミスマッチやギャップが少なかった候補ローカスをベストに選定しました。
    3.GT-AGモチーフを持つスプライスサイトの割合が50%未満の候補ローカスを破棄する。シングルエキソン遺伝子は判定対象外とする。

    以上の座位選択処理にも拘らず複数の候補座位が残った場合は、同じHIT IDの座位を区別するために2桁の枝番を候補座位に割り当てます。(例:HIT00000001_01)
[O]以上の最適座位選択後に残った全ての座位をクラスタリングに用います。eHIT,pHITの遺伝子モデルもクラスタリング対象に含めました(eHITとpHITの説明に関しては、それぞれsection 2.0.3と2.0.4をご覧下さい)。 遺伝子クラスターを定義するためにSame-position clusteringを用いました。同一ストランド上で1bp以上の重複するエキソンが1つ以上ある場合に、マップされた座位をクラスタリングしました。同一のクラスターに複数のマップ位置で同じ転写物が属している場合は、検出したマッピングの方法で1つに絞っています。

[P]クラスターID(HIX)を割り当てます。

[Q]アンマップな配列をクラスタリングするために、配列相同性を手がかりにしたSingle-linkage clusteringを用いました。Single-linkage clusteringを実行する前に、以下に挙げる転写物は相同性検索から除きました。
    1.ゲノムの離れた2座位にマップされた転写物。(キメラ、ゲノムアセンブルエラー、ゲノム再編成、トランススプライシングの可能性)これらを取り除くことにより、クラスタリングエラーを防止できます。
    2.座位の一部が未シーケシング領域のため部分的にしかマップされなかった転写物。これらをクラスタリングから除くことにより、ゲノム上に同定された座位を2重に定義することを回避できます。

    相同性検索にはBLASTNを用いました。残った転写物の配列相同性をE値で求め、E値が0であった配列のペアをクラスタリングしました。
[R]アンマップ配列のクラスター。他の配列によるサポートやコードしている遺伝子の性質を考慮し、下記に挙げるアンマップ転写物のクラスターはH-InvDBには登録されていません。
    1.Ig, MHC, TCRをコードしている転写物を含むアンマップクラスター
    2.マウスのゲノムにマップされてしまった転写物を含むアンマップクラスター
    3.代表配列がセレラゲノム、チンパンジー、マカクザル、マウスゲノムのいずれにもマップされなかったアンマップクラスター
    4.代表配列のCDSがヒトの既知タンパクと一致しなかったクラスター
    5.シングルメンバー

2.1.2 ゲノム上にマップされないヒト転写物クラスター

2.1.2.1 UMアノテーション

%ID.が95以上、%COV.が90以上でUCSC hg18アセンブリにマッピングを行うことができない転写物をUM転写物と定義しています。これらは、実験中の転写物のキメラ化やコンタミ等の人工的なエラー、挿入, 欠失によって部分的にゲノムとの対応が取れないもの、さらには配列未決定領域上に存在する遺伝子の転写産物といったように、ゲノム配列との対応が取れない原因別に分類を行うことができます。ここでは、hg18アセンブリの配列未決定領域上に存在する遺伝子をUM遺伝子と呼びます。UMアノテーションではマッピングが失敗する原因別に分類を行い、人工的なエラーや体細胞突然変異等のケースを取り除くことで、信頼性の高いUM遺伝子セットを定義しています。また、キメラ転写物のアノテーションも行っており、トランススプライシング(trans-splicing)の候補探索やゲノムの再編成を研究する上で有用なデータも提供しています。

2.1.2.2 UMアノテーションページへの直接アクセス

次のURLよりUMアノテーションページにアクセスすることができます。
http://www.h-invitational.jp/hinv/topic_annotation/um_ja.cgi

2.1.2.3 アノテーションのパイプライン

パイプラインは 次のFigure 2.2 に示されているパイプラインによってアノテーションを行いました。

Fig.2.2 UM転写物のためのアノテーションパイプライン。各アノテーション後にUM遺伝子候補として残った転写物の数を各ステップの左下に示してあります。

    “visual check” の項目
    1. 免疫関連遺伝子判定の目視による再評価。遺伝子機能の記述やマップ位置を再確認します。
    2. コンタミ判定の再評価。NCBI BLASTで提供されている全てのデータベース(nr,WGS,EST等)に転写物配列をクエリとした相同性検索を行い遺伝子の系統樹を構築します。構築された遺伝子の系統樹と種の系統樹の一致を判定することで、コンタミ判定を再度行います。
    3. 翻訳活性などの実験サポート情報の調査。

2.1.2.4 キメラ転写物のアノテーション

UM転写物に関して、転写物の2つの断片がゲノム上の互いに離れた2カ所にアラインメントされるキメラ転写物候補を探索し、2004年にHahnらによって確立された手法(PNAS 2004, 101; 13257)を用いてさらなるアノテーションを行います。はじめに、BLATを用いてUM転写物-ゲノム間のアラインメントを行います。次に、2カ所のアラインメントの合計に対する配列一致率と配列被覆率が両方とも80%以上である場合に、アラインメントが取れた場所の両側に1kbのマージンを設けてゲノム配列を切り出し、上流側と下流側の切り出し配列を結合させて合成配列を作成します。est2genomeを用いて転写物-合成配列間のスプライスアラインメントを取り直し、キメラ転写物のフュージョン境界とその場所におけるスプライスサイト(上流下流二塩基ずつ)を正確に同定します。このest2genomeを用いたアラインメントの配列一致率が97%以上、配列被覆率が95%以上の場合にキメラ転写物と判定します。

2.1.2.5 部分的マップ転写産物

UM転写物のうち、配列の一部分が高い配列一致率でゲノムに対してマップされ、さらにそのアラインメント位置が正常にマッピングされた転写物のエキソンと同一ストランドで重なる場合に”部分的マップ転写産物”と判定します。部分的マップの条件は配列一致率が97%以上、配列被覆率が35%以上としています。これらの部分的マップ転写産物は多様性、実験的エラーによる挿入, 欠失、体細胞突然変異などを反映していると考えられます。

更新日:2008年12月18日