Re: 請問要去哪抓所有人類蛋白質序列的資料呢?

看板Biotech (生命科學)作者時間19年前 (2006/06/14 19:46), 編輯推噓2(203)
留言5則, 1人參與, 最新討論串5/5 (看更多)
※ 引述《chhuang.bbs@ptt.cc (我是瓶男我很難懂)》之銘言: > ※ 引述《ubiquitin.bbs@nculs.twbbs.org.tw (幸福金金幸福)》之銘言: > : 所以 > : 這個檔案應該有包含一些功能 > : 參考資料上的敘述 > : 我想要找只有 fasta 檔就好 > : 感謝感謝 > 用 perl 寫去 NCBI 抓資料就好啦... > 例如抓所有 virus 的 protein fasta > 先查詢有多少筆: > http://www.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi? > db=protein&retmax=1&usehistory=y&term=viruses[orgn] > 再從查結果...去抓對應的資料 (XXX, YYY, ZZZ) > http://www.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi? > rettype=fasta&retmode=text&retstart=XXX&retmax=2000& > db=protein&query_key=YYY&WebEnv=ZZZ 轉眼快過一個月... 謝瓶男大的回應 我想問... 一般data base 提供的某物種蛋白序列 其實其中並非完全獨立的基因 而是有一些重複 比如同一基因可能在蛋白 database 中包含 1. splicing form 2. 突變與正常form 3. 人為修飾型....... 等等 那如果我想要抓傳說中的人類三萬個基因 每一個蛋白質序列 彼此沒重複 該怎麼取呢?? 有這種database 嗎?? 就我所知Uni-prot 與NCBI搜索得的都是有重複的~ 小弟愚昧 先謝不吝賜教~~ -- Origin: 中央生科˙生生不息 nculs.twbbs.org.tw Author: ubiquitin leu.ibms.sinica.edu.tw 發表

06/15 08:32, , 1F
Ensembl human peptide database也會有你說的重複
06/15 08:32, 1F

06/15 08:33, , 2F
但他很容易追追溯是否為同一個基因的產物
06/15 08:33, 2F

06/15 08:38, , 3F
其實你的問題我也遭遇過,這要先回答代表性的問題
06/15 08:38, 3F

06/15 08:40, , 4F
也就是說,那一個蛋白質序列可以代表這個基因
06/15 08:40, 4F

06/15 08:40, , 5F
而能回答你想問的問題
06/15 08:40, 5F
文章代碼(AID): #14Z_S800 (Biotech)
文章代碼(AID): #14Z_S800 (Biotech)