[工具] PseudoPipe - 找尋 Pseudogenes
介紹一下找尋 Pseudogene 的軟體:PseudoPipe,最近正接觸這套軟體
,順便來做個介紹。︿︿
[前言]
PseudoPipe 是 2006 年發表在 Bioinformatics 的軟體。它是一個尋
找 pseudogene 的套件。要使用這個套件之前,先得對 pseudogene 有
一個基本的了解,這樣對我們使用這個工具來說會比較確切。
[Pseudogene 介紹]
何謂 pseudogene? Pseudogene,中文也許稱作偽基因,是在基因體裡
面跟其他某些基因序列非常類似,但是卻沒有基因表現的偽基因。它
們是怎麼出現的呢?它們的由來是由既有的基因所而來的,分三種方式
。
第一種是稱作 processed 或稱 retrotransposed (反轉錄的)。一些
mRNA 在的序列透過了 retrotransposon(註1)(反轉錄跳躍子),被
插入了基因體。因為是反轉錄得來的序列,插入基因體之後的序列是
processed mRNA 序列,因此缺乏 intron 以及 poly-Atail。另外也沒
有 promoter 序列,因這個偽基因從出現的開始就沒有功能。在演化過
程中也沒有受到 selection 的壓力,因此突變可以持續堆積也不會對
生物體造成影響。這些突變就會造成它跟來源基因的差異,年代久遠就
序列相似度就可能越低。
第二種是 non-processed 或稱 duplicated pseudogenes。在基因中透
過 homologous recombination 所造成的 duplication event 直接將
基因序列「複製」到基因體的另一處。在複製後,新的基因常常保有跟
舊的基因一樣的結構,包含 promoter、intron、exon 等,因此它仍然
是有功能的:仍持續有基因表現。但因為生物體內有兩套一模一樣的基
因,失去一套也不會有什麼影響,因此有突變亦不會致命,因此久而久
之其中一套基因就可能會失去功能。
第三種是由既有基因直接退化而來,而不先經過基因的複製。也許在演
化的歷史中,一個基因不重要了,突變亦不會對生物體造成影響,因此
就累積突變。
不論其來源為何,偽基因基本概念很簡單,在演化的歷史中,某些基因
沒有受到 selection pressure,因此基因即便是突變了,生
物體仍然可以存活。因此這些基因,即使結構仍看起來仍很像真的,或
許仍有 promoter,有 splice site 等,但卻沒有真正的功能。因為無
基因表現,因此就被稱作 pseudogene(偽基因)。(Pseudo:假冒的)
[PseudoPipe]
耶魯大學的 Gerstein 實驗室致力於尋找許多基因體裡面的偽基因,包
括 2004 年在 Genome Research 所發表的 Ribosomal protein 的偽基
因,以及 2004 年在 Trends in Genetics,發表的老鼠與人類的 pro-
cessed-pseudogene。 整個尋找的流程在 2002 年這篇似乎已初具雛型
(本人未細看 XD),另在 2003 年 Genome Research 中的 Millions
of Years of Evolution Preserved: A Comprehensive Catalog of
the Processed Pseudogenes in the Human Genome 這篇個人初看之下
個人認為最為詳細。
PseudoPipe 軟體主要是針對這個流程組織化,並剔除需要人工校正的
步驟,經統整後的 Python 程式。基本運作的流程是,拿已經註解好的
的基因的胺基酸序列當作 query ,透過 tblastn 對基因體做序列比對
(註2)。序列比對完之後會得到一堆相似的序列,包含了 query 自己
。 程式會把片片段段的 tblastn 的結果,整理出一個個相似都高的區
域。這相似度高的區域當然可能是 query 自己本身, 因此透過已經註
解的所有基因位置,來剔除已經註解的區域。得到的片段還不能稱作是
偽基因的預測,須再濾掉所謂的 false positive 以及可能的有功能基
因區域。最後才得到預測的偽基因結果。
所謂的 false positives 的依據,偽基因序列必須跟來源基因 (最相
似的)相似度高答 40% 以上,E-value須低於 1E-10,涵蓋的長度須是
原基因的 70%。如果沒有,就是 false positives。
而有功能的基因區域則是如果序列沒有明顯的 frame-disruption ,例
如 stop codon 或者是 frameshift 等,且與來源基因(query) 共享有
超過 95% 的序列相似度,且 translate 之後至少涵蓋與來源蛋白質長
度的 95%,則被歸類於可能有功能的真正基因。這些也不包含在最後的
結果裡面。
tblastn 所找到的區域如果不是落在以註解區域的基因內,且不是
false positive 或者是可能的具功能基因,就是所謂的偽基因了。
PseudoPipe 會把結果做幾項分類,第一種是 retrotransposed 的偽基
因,這些可以透過缺乏 intron 、poly A tail、並且有 small
flanking repeats 得知。第二種是 duplicated 偽基因。第三種是
pseudogene fragments,這些是相似度非常高,但是序列跟來源基因比
較來說太短,可能是其它部份已經突變得太厲害(too decayed), 因
此無法判斷是 retro-transposed 或者是 duplicated。
[先天限制]
這個軟體有一些先天限制。第一個是,最先前介紹三種偽基因,第三種
就無法用此軟體找到。因為這是由於本來的那個基因就直接因為不重要
而突變掉了。因此在這個物種內就沒有相似的來源基因可以作為尋找的
依據。第二,如果某些物種的基因註解就沒有做得很詳細,因為缺少一
些來源基因,那找出一些偽基因就變得更不可能,更何況你無法剔除
tblastn 結果是座落在別的基因內的可能性。第三是,如果你認為某物
種缺乏你有興趣的基因序列,想透過跨物種的基因預測所得來的基因,
再進行偽基因搜尋。那個人認為這個流程似乎也有問題,因為你所想
query 的基因本身就是一種預測,既然是預測,其結構也可能是有問題
的。除非是第一類偽基因,仍可能由缺乏 intron 所判斷,若是第二類
,有可能所謂的 pseudogene 就早已涵蓋在你的預測當中,且既然已經
是預測,所謂 frame-shift 跟 premature stop codon 就沒有意義。
也許你所預測到的基因就是 premature stop codon 的一個偽基因呢!
因此在做這件事情之前,須考量到你的基因預測是否會把一些可能的偽
基因包含進去。如此,你得到的結果,才是你真正想要得到的結果。
===
(註1):retro- 的 e 請注意發音,包括 retrovirus 等都發 kk 裡反
3 的那個符號,跟 IPA 的符號相同:
http://en.wikipedia.org/wiki/Open-mid_front_unrounded_vowel
(註2):PseudoPipe 軟體內的解說容易讓人誤以為是使用 blastx。但
其實需要的是 tblastn。據本人透過 email 與作者聯絡後,得知他們
下的參數範例為: blastall -p tblastn -m 8 -z 3.1e9 -e .1 -d
../dna/dna_rm.fa -i split/0008.fa -o out/0008.out
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.129.160.62
※ 編輯: huggie 來自: 140.129.160.62 (06/01 15:12)
推
06/01 15:49, , 1F
06/01 15:49, 1F
推
06/01 16:11, , 2F
06/01 16:11, 2F
推
06/01 19:12, , 3F
06/01 19:12, 3F
→
06/01 19:23, , 4F
06/01 19:23, 4F
推
06/01 21:09, , 5F
06/01 21:09, 5F
※ 編輯: huggie 來自: 140.129.160.62 (06/02 11:53)
討論串 (同標題文章)
完整討論串 (本文為第 1 之 4 篇):
BioMedInfo 近期熱門文章
PTT職涯區 即時熱門文章