Re: [問題] NGS的SRA資料庫

看板BioMedInfo (生醫資訊)作者 (愛情已死枯如槁灰)時間13年前 (2011/08/03 00:26), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
※ 引述《brasil (巴西小子)》之銘言: : 大家好~ : 小弟最近在研究NGS方面的問題 : 因為跟先前用過的資料庫有點不太一樣 : 所以有一些基本的問題想要請教各位 : =========================================================================== : 目標是想要進一步的分析NGS所定序出來的序列 : 1.請問我要如何下載序列 : 我知道在SRA資料庫下載的序列都是.sra檔 : 剛剛稍微研究一下可以利用fastq-dump這個執行檔來轉換成.fastq檔 : 假設我想要研究的主題是人類的whole genomic DNA : 請問我要如何下載到這些序列 : (因為我在SRA裡只看的到ACCESSION number,但我不知道這些number是什麼物種) 理論上可以根據ACCESSION number 反查到物種名稱啦~ : 2.在.fastq檔裡有一個欄位是spot,請問這是代表什麼意思? : 3.在.fastq檔裡有很多條序列 : EX: : @SRR096072.lite.sra.1 FVUWOJD02F4NLA length=255 只是說明是編號&取得到的長度 : ATCG...... NGS所得到的SEQ : +SRR096072.lite.sra.1 FVUWOJD02F4NLA length=255 只是跟第一行的ID是一樣的 : FFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIIIIIII... 序列每一個NT的Quality 不同的符號有不同的代表意義 簡言之: FASTQ是四行為一組 第一列&第三列理論上是一樣的東西,要做的是這兩行的ID是否一樣 第二列為NGS序列本身 第四列則為序列中每個相對應的NT的Quailty : @SRR096072.lite.sra.2 FVUWOJD02G1J77 length=290 : ATCG...... : +SRR096072.lite.sra.2 FVUWOJD02G1J77 length=290 : FFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIIIIII... : @SRR096072.lite.sra.3 : . : . : @SRR096072.lite.sra.4 : . : . : @SRR096072.lite.sra.5 : . : . : . : 請問我該如何讀這些序列? : 是@SRR096072.lite.sra.1 繼續接 @SRR096072.lite.sra.2 : 繼續接@SRR096072.lite.sra.3 一直下去這樣嗎? : 抱歉問題有點多,有勞各位了!! 其它就給其他強者說明啦~ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 203.67.104.199
文章代碼(AID): #1EE2K_GS (BioMedInfo)
討論串 (同標題文章)
文章代碼(AID): #1EE2K_GS (BioMedInfo)