[程式] Illumina sequence adapter QC_clipper
各位先知先進大大好
小弟我目前正在努力研究 NGS data 做 metatranscriptomic 上
在處理 data alignment 前利用fastx-toolkit 做QC的動作時候
data中在經由FastQC 工具發現序列中有大量 adapter 存在
似乎影響QC結果
於是想利用fastx-clipper做'切除'的動作 但未果!!
以下用test seq 來表示:
test.fastq
----
@test1
CCTTAAGGAAAAAAAAAAGGGGGGGGGG
+test1
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test2
CCTTAAGGAAAAAAAAAGGGGGGGGGGG
+test2
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test3
AGAGAGAGAGAGAGAGAGAGAGAGAGAG
+test3
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test4
CCTTAAGGTTGACGTGATCGACACCTGG
+test4
[[[[[[[[[[[[[[[[[[[[[[[[[[[[
----
我所用的command line:
fastx_clipper -v -a CCTTAAGG -i test.fastq -o test
Clipping Adapter: CCTTAAGG
Min. Length: 5
Input: 4 reads.
Output: 1 reads.
discarded 0 too-short reads.
discarded 3 adapter-only reads.
discarded 0 N reads.
test
----
@test3
AGAGAGAGAGAGAGAGAGAGAGAGAGAG
+test3
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
----
另外不管是用
fastx_clipper -k -a CCTTAAGG -i test.fastq -o test 或
fastx_clipper -n -a CCTTAAGG -i test.fastq -o test
得到的結果都只是濾掉 而不是做切除
@test1
[CCTTAAGG]AAAAAAAAAAGGGGGGGGGG
+test1
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test2
[CCTTAAGG]AAAAAAAAAGGGGGGGGGGG
+test2
HHHHHHHHHHHHHHHHHHHHHHHHHHHH
@test4
[CCTTAAGG]TTGACGTGATCGACACCTGG
+test4
[[[[[[[[[[[[[[[[[[[[[[[[[[[[
請問這個工具就是只會做過濾的工作 沒辦法做到切除adapter嗎?
如果沒辦法,我是不是要把過濾出來的sequence 檔案拿出來做另外處理(取代)即可
或是有另外工具可以處理掉呢?
另外 結果 report 中
Clipping Adapter: CCTTAAGG
Min. Length: 5
Input: 4 reads.
Output: 1 reads.
discarded 0 too-short reads.
discarded 3 adapter-only reads.
discarded 0 N reads. << 這一行在我的data中也會有一些seq被過濾
這一行的過濾動作是什麼意思?
問題有點多,也沒有查到需求的資料
上來問問先進先知
先謝謝各位的幫助了!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.248.28.32
※ 文章網址: https://www.ptt.cc/bbs/BioMedInfo/M.1436890128.A.94A.html
推
07/17 06:05, , 1F
07/17 06:05, 1F
→
07/17 21:40, , 2F
07/17 21:40, 2F
BioMedInfo 近期熱門文章
PTT職涯區 即時熱門文章