Re: [問題] NGS的SRA資料庫
看板BioMedInfo (生醫資訊)作者windincloud (愛情已死枯如槁灰)時間13年前 (2011/08/03 00:26)推噓0(0推 0噓 0→)留言0則, 0人參與討論串2/2 (看更多)
※ 引述《brasil (巴西小子)》之銘言:
: 大家好~
: 小弟最近在研究NGS方面的問題
: 因為跟先前用過的資料庫有點不太一樣
: 所以有一些基本的問題想要請教各位
: ===========================================================================
: 目標是想要進一步的分析NGS所定序出來的序列
: 1.請問我要如何下載序列
: 我知道在SRA資料庫下載的序列都是.sra檔
: 剛剛稍微研究一下可以利用fastq-dump這個執行檔來轉換成.fastq檔
: 假設我想要研究的主題是人類的whole genomic DNA
: 請問我要如何下載到這些序列
: (因為我在SRA裡只看的到ACCESSION number,但我不知道這些number是什麼物種)
理論上可以根據ACCESSION number 反查到物種名稱啦~
: 2.在.fastq檔裡有一個欄位是spot,請問這是代表什麼意思?
: 3.在.fastq檔裡有很多條序列
: EX:
: @SRR096072.lite.sra.1 FVUWOJD02F4NLA length=255
只是說明是編號&取得到的長度
: ATCG......
NGS所得到的SEQ
: +SRR096072.lite.sra.1 FVUWOJD02F4NLA length=255
只是跟第一行的ID是一樣的
: FFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIIIIIII...
序列每一個NT的Quality 不同的符號有不同的代表意義
簡言之:
FASTQ是四行為一組
第一列&第三列理論上是一樣的東西,要做的是這兩行的ID是否一樣
第二列為NGS序列本身
第四列則為序列中每個相對應的NT的Quailty
: @SRR096072.lite.sra.2 FVUWOJD02G1J77 length=290
: ATCG......
: +SRR096072.lite.sra.2 FVUWOJD02G1J77 length=290
: FFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIIIIII...
: @SRR096072.lite.sra.3
: .
: .
: @SRR096072.lite.sra.4
: .
: .
: @SRR096072.lite.sra.5
: .
: .
: .
: 請問我該如何讀這些序列?
: 是@SRR096072.lite.sra.1 繼續接 @SRR096072.lite.sra.2
: 繼續接@SRR096072.lite.sra.3 一直下去這樣嗎?
: 抱歉問題有點多,有勞各位了!!
其它就給其他強者說明啦~
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 203.67.104.199
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
BioMedInfo 近期熱門文章
PTT職涯區 即時熱門文章
6
14