[工具] PseudoPipe - 找尋 Pseudogenes

看板BioMedInfo (生醫資訊)作者huggie (huggie)時間18年前 (2008/06/01 14:47)推噓4(4推 0噓 1→)

留言5則, 5人參與討論串1/4 (看更多)

介紹一下找尋 Pseudogene 的軟體：PseudoPipe，最近正接觸這套軟體，順便來做個介紹。︿︿ [前言] PseudoPipe 是 2006 年發表在 Bioinformatics 的軟體。它是一個尋找 pseudogene 的套件。要使用這個套件之前，先得對 pseudogene 有一個基本的了解，這樣對我們使用這個工具來說會比較確切。 [Pseudogene 介紹] 何謂 pseudogene？ Pseudogene，中文也許稱作偽基因，是在基因體裡面跟其他某些基因序列非常類似，但是卻沒有基因表現的偽基因。它們是怎麼出現的呢？它們的由來是由既有的基因所而來的，分三種方式。第一種是稱作 processed 或稱 retrotransposed （反轉錄的）。一些 mRNA 在的序列透過了 retrotransposon（註1）（反轉錄跳躍子），被插入了基因體。因為是反轉錄得來的序列，插入基因體之後的序列是 processed mRNA 序列，因此缺乏 intron 以及 poly-Atail。另外也沒有 promoter 序列，因這個偽基因從出現的開始就沒有功能。在演化過程中也沒有受到 selection 的壓力，因此突變可以持續堆積也不會對生物體造成影響。這些突變就會造成它跟來源基因的差異，年代久遠就序列相似度就可能越低。第二種是 non-processed 或稱 duplicated pseudogenes。在基因中透過 homologous recombination 所造成的 duplication event 直接將基因序列「複製」到基因體的另一處。在複製後，新的基因常常保有跟舊的基因一樣的結構，包含 promoter、intron、exon 等，因此它仍然是有功能的：仍持續有基因表現。但因為生物體內有兩套一模一樣的基因，失去一套也不會有什麼影響，因此有突變亦不會致命，因此久而久之其中一套基因就可能會失去功能。第三種是由既有基因直接退化而來，而不先經過基因的複製。也許在演化的歷史中，一個基因不重要了，突變亦不會對生物體造成影響，因此就累積突變。不論其來源為何，偽基因基本概念很簡單，在演化的歷史中，某些基因沒有受到 selection pressure，因此基因即便是突變了，生物體仍然可以存活。因此這些基因，即使結構仍看起來仍很像真的，或許仍有 promoter，有 splice site 等，但卻沒有真正的功能。因為無基因表現，因此就被稱作 pseudogene（偽基因）。（Pseudo：假冒的） [PseudoPipe] 耶魯大學的 Gerstein 實驗室致力於尋找許多基因體裡面的偽基因，包括 2004 年在 Genome Research 所發表的 Ribosomal protein 的偽基因，以及 2004 年在 Trends in Genetics，發表的老鼠與人類的 pro- cessed-pseudogene。整個尋找的流程在 2002 年這篇似乎已初具雛型（本人未細看 XD)，另在 2003 年 Genome Research 中的 Millions of Years of Evolution Preserved: A Comprehensive Catalog of the Processed Pseudogenes in the Human Genome 這篇個人初看之下個人認為最為詳細。 PseudoPipe 軟體主要是針對這個流程組織化，並剔除需要人工校正的步驟，經統整後的 Python 程式。基本運作的流程是，拿已經註解好的的基因的胺基酸序列當作 query ，透過 tblastn 對基因體做序列比對（註2）。序列比對完之後會得到一堆相似的序列，包含了 query 自己。程式會把片片段段的 tblastn 的結果，整理出一個個相似都高的區域。這相似度高的區域當然可能是 query 自己本身，因此透過已經註解的所有基因位置，來剔除已經註解的區域。得到的片段還不能稱作是偽基因的預測，須再濾掉所謂的 false positive 以及可能的有功能基因區域。最後才得到預測的偽基因結果。所謂的 false positives 的依據，偽基因序列必須跟來源基因（最相似的）相似度高答 40% 以上，E-value須低於 1E-10，涵蓋的長度須是原基因的 70%。如果沒有，就是 false positives。而有功能的基因區域則是如果序列沒有明顯的 frame-disruption ，例如 stop codon 或者是 frameshift 等，且與來源基因(query) 共享有超過 95% 的序列相似度，且 translate 之後至少涵蓋與來源蛋白質長度的 95%，則被歸類於可能有功能的真正基因。這些也不包含在最後的結果裡面。 tblastn 所找到的區域如果不是落在以註解區域的基因內，且不是 false positive 或者是可能的具功能基因，就是所謂的偽基因了。 PseudoPipe 會把結果做幾項分類，第一種是 retrotransposed 的偽基因，這些可以透過缺乏 intron 、poly A tail、並且有 small flanking repeats 得知。第二種是 duplicated 偽基因。第三種是 pseudogene fragments，這些是相似度非常高，但是序列跟來源基因比較來說太短，可能是其它部份已經突變得太厲害（too decayed），因此無法判斷是 retro-transposed 或者是 duplicated。 [先天限制] 這個軟體有一些先天限制。第一個是，最先前介紹三種偽基因，第三種就無法用此軟體找到。因為這是由於本來的那個基因就直接因為不重要而突變掉了。因此在這個物種內就沒有相似的來源基因可以作為尋找的依據。第二，如果某些物種的基因註解就沒有做得很詳細，因為缺少一些來源基因，那找出一些偽基因就變得更不可能，更何況你無法剔除 tblastn 結果是座落在別的基因內的可能性。第三是，如果你認為某物種缺乏你有興趣的基因序列，想透過跨物種的基因預測所得來的基因，再進行偽基因搜尋。那個人認為這個流程似乎也有問題，因為你所想 query 的基因本身就是一種預測，既然是預測，其結構也可能是有問題的。除非是第一類偽基因，仍可能由缺乏 intron 所判斷，若是第二類，有可能所謂的 pseudogene 就早已涵蓋在你的預測當中，且既然已經是預測，所謂 frame-shift 跟 premature stop codon 就沒有意義。也許你所預測到的基因就是 premature stop codon 的一個偽基因呢！因此在做這件事情之前，須考量到你的基因預測是否會把一些可能的偽基因包含進去。如此，你得到的結果，才是你真正想要得到的結果。 === (註1)：retro- 的 e 請注意發音，包括 retrovirus 等都發 kk 裡反 3 的那個符號，跟 IPA 的符號相同： http://en.wikipedia.org/wiki/Open-mid_front_unrounded_vowel (註2)：PseudoPipe 軟體內的解說容易讓人誤以為是使用 blastx。但其實需要的是 tblastn。據本人透過 email 與作者聯絡後，得知他們下的參數範例為： blastall -p tblastn -m 8 -z 3.1e9 -e .1 -d ../dna/dna_rm.fa -i split/0008.fa -o out/0008.out -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.129.160.62 ※ 編輯: huggie 來自: 140.129.160.62 (06/01 15:12)