[問題] 如何下載NCBI 的搜尋結果 (大量資料)消失

看板BioMedInfo (生醫資訊)作者時間16年前 (2008/07/08 12:43), 編輯推噓5(5020)
留言25則, 4人參與, 最新討論串1/1
以要搜尋 homo species 的 protein 序列來說, 在NCBI 選擇protein後,搜尋內輸入 txid9606[organism:exp], 找到筆數約 459323, 直接以FASTA 再 send file 即可, 但對於過大的筆數,如本例,會很難下載到完整的。 於是寫信問 NCBI 的結果,提出建議使用eutils, 但是根據實測的結果,以及事後再詢問 NCBI , 如果筆數過多,還是會有筆數不完整的問題 (少了幾百到幾千筆) \./ 再寫信問,又建議下載 pre-formatted nr 加上 gi list, 利用 fastacmd 來截取 subset , 試過之後,以 fastacmd –i gilist –d nr -o fasta 的結果, 居然有13 G之多,不曉得哪裡出問題了?! 想請問版上有經驗的人,是如何取得 NCBI 的特定物種序列呢 >"< -- ※ 發信站: 批踢踢實業坊(ptt.cc)

07/08 13:48, , 1F
13G 不意外吧~~
07/08 13:48, 1F

07/08 13:48, , 2F
如果你只是要protein seq, 為何不從UniProt下載呢??
07/08 13:48, 2F

07/08 13:49, , 3F
因為UniProt有分物種下載阿
07/08 13:49, 3F

07/08 16:04, , 4F
我是用ftp然後自己抓出來
07/08 16:04, 4F

07/08 16:30, , 5F
13G 比解開後的 nr 還大耶 = =? 不用UniProt的原因是上頭要
07/08 16:30, 5F

07/08 16:31, , 6F
剛剛花了好久把13g的檔案打開,發覺是因為有好多重複的序列
07/08 16:31, 6F

07/08 16:31, , 7F
不曉得為什麼會這樣,比對跟直接下載的header也長好多 ~"~
07/08 16:31, 7F

07/08 16:32, , 8F
請問huggie版友,ftp可下載的分類不是很少嗎? 還是我誤解了
07/08 16:32, 8F

07/08 16:41, , 9F
nr 我是不清楚.. 我是偏好用 RefSeq
07/08 16:41, 9F

07/08 16:42, , 10F
如果是人類 ftp://ftp.ncbi.nih.gov/refseq/H_sapiens/
07/08 16:42, 10F

07/08 16:43, , 11F
protein fasta 序列是 human.protein.faa.gz
07/08 16:43, 11F

07/08 21:41, , 12F
refseq有部份的物種,但是仍沒有細分到所有 NCBI的taxid都有
07/08 21:41, 12F

07/09 17:38, , 13F
如果只是要擷取蛋白質序列,為何指令中有nr?
07/09 17:38, 13F

07/09 18:04, , 14F
我印象中,nr是一個大雜會,所以對你用nr很不解
07/09 18:04, 14F

07/09 18:07, , 15F
對,nr是一個大雜燴,但是做blast等比對的時候,不是常用nr?
07/09 18:07, 15F

07/09 18:08, , 16F
用fastacmd的用意是將nr中的特定gi都取出來,(雖然目前不會)
07/09 18:08, 16F

07/09 18:10, , 17F
不然的話,請問各位在找特定的taxonomy 時,不是都在NCBI
07/09 18:10, 17F

07/09 18:11, , 18F
輸入txidXXXX ,然後再選FASTA,再選send to file保存嗎?!
07/09 18:11, 18F

07/09 20:58, , 19F
恩,我也是用你所講的方法去下載,但沒有下載大量資料過
07/09 20:58, 19F

07/09 21:00, , 20F
我猜,資料來源是nr的話,你gilist要更詳盡吧!
07/09 21:00, 20F

07/09 21:03, , 21F
我猜測,下載到的資料,有些並非真正要的,refseq有整理過
07/09 21:03, 21F

07/09 21:06, , 22F
要不要考慮用其他的database下載,nr其實資料量過多
07/09 21:06, 22F

07/09 21:09, , 23F
ncbi其實沒有特別去整理nr,因此你下載的資料
07/09 21:09, 23F

07/09 21:09, , 24F
還是要用肉眼確認一下
07/09 21:09, 24F

07/15 23:24, , 25F
你可以考慮bash entry去下載,今天才學會的
07/15 23:24, 25F
文章代碼(AID): #18Sl1hMc (BioMedInfo)
文章代碼(AID): #18Sl1hMc (BioMedInfo)