[問題] NCBI中human genome的資料

看板BioMedInfo (生醫資訊)作者 (^_^)時間15年前 (2009/05/01 19:21), 編輯推噓3(3010)
留言13則, 4人參與, 最新討論串1/1
有兩個問題想請教版友 雖然說已經把人類genome解開了,不過我看ncbi的資料庫中還是有很多gap http://0rz.tw/PBdEq (chr1) 如果我要下載chr1的genome資料,是否把這邊所有的都下載再拼在一起就好了? 還有個疑問點是,好多的gap都是50,000的長度,不知為何會這樣(怎麼做出來的)? 另外一個問題是,人類genome大約有多少是coding,多少是noncoding的部分 我用很保守的估算 30000條基因*長的嚇死人的每條2k 所以30k*2k/3*10^9 人類coding的部分最多佔20% 請問這樣合理嗎? PS:有看到佔1~1.5%的說法, 不過不知道這個估計值有沒有包含非a.a但有function的序列 以及有沒有把還沒有定序的gap考慮進去 請版友們指教^^ -- 37m﹡ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.104.5.233

05/01 20:13, , 1F
NCBI上有已經組好的可以下載 你從ftp找應該有
05/01 20:13, 1F

05/01 20:27, , 2F
對啊,這不知道是什麼?為甚麼沒組好?
05/01 20:27, 2F

05/01 20:29, , 3F
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/
05/01 20:29, 3F

05/01 21:10, , 4F
請問Celera、HuRef和ref有甚麼樣的差別呢?
05/01 21:10, 4F

05/01 21:11, , 5F
檔案大小都相近,其中ref的contig有49條,我文章內的只有39條
05/01 21:11, 5F

05/01 21:11, , 6F
會不會有重複算的? 謝謝回覆:)
05/01 21:11, 6F

05/01 21:12, , 7F
另外mfa在readme中有說是masked***** 不太懂他masked的意思
05/01 21:12, 7F

05/01 22:00, , 8F
masked通常指序列中low complexity region 用 N 或 X 遮掉
05/01 22:00, 8F

05/01 23:51, , 9F
原來如此!所以如果單看序列的完整性,fa會含有比較多?!
05/01 23:51, 9F

05/01 23:52, , 10F
我查了celera,好像是一種alignment的方式,不過那三種詳細的
05/01 23:52, 10F

05/01 23:52, , 11F
分別還是不太清楚。 謝謝回應:D
05/01 23:52, 11F

05/11 21:45, , 12F
若是指組成contig的read被masked的話,就是指遮蔽一些已
05/11 21:45, 12F

05/11 21:46, , 13F
知的重複片段,好加強alignment及assembly的速度(?)
05/11 21:46, 13F
文章代碼(AID): #19-jjAGu (BioMedInfo)
文章代碼(AID): #19-jjAGu (BioMedInfo)