[工具] PseudoPipe - 找尋 Pseudogenes

看板BioMedInfo (生醫資訊)作者 (huggie)時間16年前 (2008/06/01 14:47), 編輯推噓4(401)
留言5則, 5人參與, 最新討論串1/4 (看更多)
介紹一下找尋 Pseudogene 的軟體:PseudoPipe,最近正接觸這套軟體 ,順便來做個介紹。︿︿ [前言] PseudoPipe 是 2006 年發表在 Bioinformatics 的軟體。它是一個尋 找 pseudogene 的套件。要使用這個套件之前,先得對 pseudogene 有 一個基本的了解,這樣對我們使用這個工具來說會比較確切。 [Pseudogene 介紹] 何謂 pseudogene? Pseudogene,中文也許稱作偽基因,是在基因體裡 面跟其他某些基因序列非常類似,但是卻沒有基因表現的偽基因。它 們是怎麼出現的呢?它們的由來是由既有的基因所而來的,分三種方式 。 第一種是稱作 processed 或稱 retrotransposed (反轉錄的)。一些 mRNA 在的序列透過了 retrotransposon(註1)(反轉錄跳躍子),被 插入了基因體。因為是反轉錄得來的序列,插入基因體之後的序列是 processed mRNA 序列,因此缺乏 intron 以及 poly-Atail。另外也沒 有 promoter 序列,因這個偽基因從出現的開始就沒有功能。在演化過 程中也沒有受到 selection 的壓力,因此突變可以持續堆積也不會對 生物體造成影響。這些突變就會造成它跟來源基因的差異,年代久遠就 序列相似度就可能越低。 第二種是 non-processed 或稱 duplicated pseudogenes。在基因中透 過 homologous recombination 所造成的 duplication event 直接將 基因序列「複製」到基因體的另一處。在複製後,新的基因常常保有跟 舊的基因一樣的結構,包含 promoter、intron、exon 等,因此它仍然 是有功能的:仍持續有基因表現。但因為生物體內有兩套一模一樣的基 因,失去一套也不會有什麼影響,因此有突變亦不會致命,因此久而久 之其中一套基因就可能會失去功能。 第三種是由既有基因直接退化而來,而不先經過基因的複製。也許在演 化的歷史中,一個基因不重要了,突變亦不會對生物體造成影響,因此 就累積突變。 不論其來源為何,偽基因基本概念很簡單,在演化的歷史中,某些基因 沒有受到 selection pressure,因此基因即便是突變了,生 物體仍然可以存活。因此這些基因,即使結構仍看起來仍很像真的,或 許仍有 promoter,有 splice site 等,但卻沒有真正的功能。因為無 基因表現,因此就被稱作 pseudogene(偽基因)。(Pseudo:假冒的) [PseudoPipe] 耶魯大學的 Gerstein 實驗室致力於尋找許多基因體裡面的偽基因,包 括 2004 年在 Genome Research 所發表的 Ribosomal protein 的偽基 因,以及 2004 年在 Trends in Genetics,發表的老鼠與人類的 pro- cessed-pseudogene。 整個尋找的流程在 2002 年這篇似乎已初具雛型 (本人未細看 XD),另在 2003 年 Genome Research 中的 Millions of Years of Evolution Preserved: A Comprehensive Catalog of the Processed Pseudogenes in the Human Genome 這篇個人初看之下 個人認為最為詳細。 PseudoPipe 軟體主要是針對這個流程組織化,並剔除需要人工校正的 步驟,經統整後的 Python 程式。基本運作的流程是,拿已經註解好的 的基因的胺基酸序列當作 query ,透過 tblastn 對基因體做序列比對 (註2)。序列比對完之後會得到一堆相似的序列,包含了 query 自己 。 程式會把片片段段的 tblastn 的結果,整理出一個個相似都高的區 域。這相似度高的區域當然可能是 query 自己本身, 因此透過已經註 解的所有基因位置,來剔除已經註解的區域。得到的片段還不能稱作是 偽基因的預測,須再濾掉所謂的 false positive 以及可能的有功能基 因區域。最後才得到預測的偽基因結果。 所謂的 false positives 的依據,偽基因序列必須跟來源基因 (最相 似的)相似度高答 40% 以上,E-value須低於 1E-10,涵蓋的長度須是 原基因的 70%。如果沒有,就是 false positives。 而有功能的基因區域則是如果序列沒有明顯的 frame-disruption ,例 如 stop codon 或者是 frameshift 等,且與來源基因(query) 共享有 超過 95% 的序列相似度,且 translate 之後至少涵蓋與來源蛋白質長 度的 95%,則被歸類於可能有功能的真正基因。這些也不包含在最後的 結果裡面。 tblastn 所找到的區域如果不是落在以註解區域的基因內,且不是 false positive 或者是可能的具功能基因,就是所謂的偽基因了。 PseudoPipe 會把結果做幾項分類,第一種是 retrotransposed 的偽基 因,這些可以透過缺乏 intron 、poly A tail、並且有 small flanking repeats 得知。第二種是 duplicated 偽基因。第三種是 pseudogene fragments,這些是相似度非常高,但是序列跟來源基因比 較來說太短,可能是其它部份已經突變得太厲害(too decayed), 因 此無法判斷是 retro-transposed 或者是 duplicated。 [先天限制] 這個軟體有一些先天限制。第一個是,最先前介紹三種偽基因,第三種 就無法用此軟體找到。因為這是由於本來的那個基因就直接因為不重要 而突變掉了。因此在這個物種內就沒有相似的來源基因可以作為尋找的 依據。第二,如果某些物種的基因註解就沒有做得很詳細,因為缺少一 些來源基因,那找出一些偽基因就變得更不可能,更何況你無法剔除 tblastn 結果是座落在別的基因內的可能性。第三是,如果你認為某物 種缺乏你有興趣的基因序列,想透過跨物種的基因預測所得來的基因, 再進行偽基因搜尋。那個人認為這個流程似乎也有問題,因為你所想 query 的基因本身就是一種預測,既然是預測,其結構也可能是有問題 的。除非是第一類偽基因,仍可能由缺乏 intron 所判斷,若是第二類 ,有可能所謂的 pseudogene 就早已涵蓋在你的預測當中,且既然已經 是預測,所謂 frame-shift 跟 premature stop codon 就沒有意義。 也許你所預測到的基因就是 premature stop codon 的一個偽基因呢! 因此在做這件事情之前,須考量到你的基因預測是否會把一些可能的偽 基因包含進去。如此,你得到的結果,才是你真正想要得到的結果。 === (註1):retro- 的 e 請注意發音,包括 retrovirus 等都發 kk 裡反 3 的那個符號,跟 IPA 的符號相同: http://en.wikipedia.org/wiki/Open-mid_front_unrounded_vowel (註2):PseudoPipe 軟體內的解說容易讓人誤以為是使用 blastx。但 其實需要的是 tblastn。據本人透過 email 與作者聯絡後,得知他們 下的參數範例為: blastall -p tblastn -m 8 -z 3.1e9 -e .1 -d ../dna/dna_rm.fa -i split/0008.fa -o out/0008.out -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.129.160.62 ※ 編輯: huggie 來自: 140.129.160.62 (06/01 15:12)

06/01 15:49, , 1F
大推這篇 怕很多人搞錯這個軟體的使用
06/01 15:49, 1F

06/01 16:11, , 2F
推 版主好用心押 拍拍手
06/01 16:11, 2F

06/01 19:12, , 3F
感謝提供
06/01 19:12, 3F

06/01 19:23, , 4F
howdy big phat ^^
06/01 19:23, 4F

06/01 21:09, , 5F
推!
06/01 21:09, 5F
※ 編輯: huggie 來自: 140.129.160.62 (06/02 11:53)
文章代碼(AID): #18GaOLz6 (BioMedInfo)
文章代碼(AID): #18GaOLz6 (BioMedInfo)