[求救] NGS data分析

看板Biotech (生命科學)作者 (phoebe)時間6年前 (2018/09/25 18:54), 編輯推噓11(11050)
留言61則, 5人參與, 6年前最新討論串1/1
大家好,想打擾請教個問題 最近實驗室在用NGS看病毒(ss,positive-sensed RNA virus)的Quasispecies 因為病毒短短的,所以QC都很好(Q30 > 90%)。 因為其中一隻病毒之前有用sanger定序過,所以有ref. sequence 我有點疑問是 在分析的時候,一個是將library裡host read移除後去回貼de novo assembled contig 一個是直接回貼去Ref. sequence 這兩種做法照理說得到的結果要很相近嗎? 他們的意義是類似的嗎? 如果de novo assembled contig直接和ref. sequence 比對有99%的相似度 library 回貼是不是也不應該太低? 因為對這個不是很熟希望有大大能指點迷津orz 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.96.74 ※ 文章網址: https://www.ptt.cc/bbs/Biotech/M.1537872849.A.EB6.html

09/25 22:04, 6年前 , 1F
沒做過病毒的assembly, host read是指宿主的sequence?
09/25 22:04, 1F

09/25 22:08, 6年前 , 2F
你確定可以組出夠完整的genome那兩種方式差不多
09/25 22:08, 2F

09/25 22:15, 6年前 , 3F
我並不認為可以組出高品質的Genome
09/25 22:15, 3F

09/25 22:44, 6年前 , 4F
一樓id 是從andrew Godkin 來的?
09/25 22:44, 4F

09/26 00:50, 6年前 , 5F
回一樓,對host read就是宿主的sequence
09/26 00:50, 5F

09/26 00:51, 6年前 , 6F
想請問二樓為什麼不認為可以組出高品質的genome?
09/26 00:51, 6F

09/26 00:51, 6年前 , 7F
移除host reads後我們實驗的兩種病毒剩下的Reads分別是
09/26 00:51, 7F

09/26 00:53, 6年前 , 8F
26跟48%左右,coverage也都有1000以上,這樣也無法保證嗎?
09/26 00:53, 8F

09/26 07:00, 6年前 , 9F
denove 最怕的就是long repeat 與duplication
09/26 07:00, 9F

09/26 07:02, 6年前 , 10F
ref seq mapping 最怕的就是用錯strain
09/26 07:02, 10F

09/26 07:03, 6年前 , 11F
sanger最怕的就是polymorphism, indel, 與amplicon不夠長
09/26 07:03, 11F

09/26 07:04, 6年前 , 12F
讓前段與後段的amplicon linkage information消失掉
09/26 07:04, 12F

09/26 07:05, 6年前 , 13F
如果你的viral genome夠短,ref seq與de novo contig
09/26 07:05, 13F

09/26 07:06, 6年前 , 14F
的similarity大約99%, 那大概就沒有什麼好擔心的
09/26 07:06, 14F

09/26 07:08, 6年前 , 15F
如果你只是單純的想找sequence variant的話
09/26 07:08, 15F

09/26 07:15, 6年前 , 16F
我過去看過幾個數據,病毒序列佔約萬分之一,而分佈亟
09/26 07:15, 16F

09/26 07:15, 6年前 , 17F
不平均,組出的結果很破碎,因此才這樣認為,不過你們
09/26 07:15, 17F

09/26 07:15, 6年前 , 18F
數據比較好,或許就沒差
09/26 07:15, 18F

09/26 08:22, 6年前 , 19F
回四樓,不是耶XD
09/26 08:22, 19F

09/26 08:23, 6年前 , 20F
回樓主,關於病毒的assembly,可以問問我們社群的人
09/26 08:23, 20F

09/26 08:24, 6年前 , 21F
我們社群裡,有人在疾管局就是做相關的東西
09/26 08:24, 21F

09/26 08:25, 6年前 , 22F
在facebook搜尋Taipei Bioinformatics Omnibus
09/26 08:25, 22F

09/26 08:26, 6年前 , 23F
上面有不少學界跟業界厲害的人,或許可以幫上你
09/26 08:26, 23F

09/26 09:00, 6年前 , 24F
lelojack 那種狀況完全要看病毒基因體特性
09/26 09:00, 24F

09/26 22:12, 6年前 , 25F
回lingon大大,其實我在看對方給的data時有個疑問,就是
09/26 22:12, 25F

09/26 22:12, 6年前 , 26F
de novo組出的contig對回ref.相似度有99%以上,但是如果用
09/26 22:12, 26F

09/26 22:13, 6年前 , 27F
non-host reads回貼ref.時,百分比卻降到60-70% 這合理嗎?
09/26 22:13, 27F

09/27 00:47, 6年前 , 28F
60-70% mapping rate?
09/27 00:47, 28F

09/27 00:49, 6年前 , 29F
如果你的百分比是mapping rate 的話60-70%不算奇怪,因為
09/27 00:49, 29F

09/27 00:52, 6年前 , 30F
non-host reads會包含你想找的病毒以外的序列, 這些可能性
09/27 00:52, 30F

09/27 00:52, 6年前 , 31F
很多, 如exogenous pathogen, PCR primer, adaptor seq,
09/27 00:52, 31F

09/27 00:54, 6年前 , 32F
viral-host fusion region 都有可能, 需要仔細分析才會曉
09/27 00:54, 32F

09/27 00:55, 6年前 , 33F
得。
09/27 00:55, 33F

09/27 00:56, 6年前 , 34F
還有個可能是有另外的viral strain在裡面, 但這要回去重
09/27 00:56, 34F

09/27 00:57, 6年前 , 35F
做de novo assembly 分析才會比較清楚
09/27 00:57, 35F

09/28 08:16, 6年前 , 36F
謝謝大大們的解釋。想在問一個問題,就是我們在定序病毒
09/28 08:16, 36F

09/28 08:17, 6年前 , 37F
兩端的時候發現序列都會不正確大約各少10個mer左右,這是
09/28 08:17, 37F

09/28 08:18, 6年前 , 38F
NGS定RNA的限制嗎,我們的病毒是有5' cap跟3' polyA tail
09/28 08:18, 38F

09/28 08:33, 6年前 , 39F
看你怎樣enrich viral sequence,如果是以RNA extraction
09/28 08:33, 39F

09/28 08:36, 6年前 , 40F
轉cDNA後把viral genome PCR 出來再送序列的話, 那就看
09/28 08:36, 40F

09/28 08:36, 6年前 , 41F
是不是forward 與reverse PCR primer 造成的
09/28 08:36, 41F

09/28 08:40, 6年前 , 42F
如果沒有PCR直接把cDNA送序列,那可能就要往host-viral
09/28 08:40, 42F

09/28 08:40, 6年前 , 43F
序列是指reads兩端會有不正確嗎?如果是的話,你們的data
09/28 08:40, 43F

09/28 08:40, 6年前 , 44F
有先作adaptor removal嗎?兩端都不正確10mer感覺很像是a
09/28 08:40, 44F

09/28 08:40, 6年前 , 45F
daptor。你們的library prepare應該是用polyA enrichment
09/28 08:40, 45F

09/28 08:40, 6年前 , 46F
,之後再shotgun打成一個個的小片段,並在兩端接上adapto
09/28 08:40, 46F

09/28 08:40, 6年前 , 47F
r。通常NGS quality 5’end最好,一直往3’end遞減,所以
09/28 08:40, 47F

09/28 08:40, 6年前 , 48F
應該不會兩端固定錯了10mer之類的
09/28 08:40, 48F

09/28 08:40, 6年前 , 49F
integration site的方向去分析
09/28 08:40, 49F

09/28 08:43, 6年前 , 50F
說實在的,你最好還是跟做genomics/bioinfo的實驗室合作
09/28 08:43, 50F

09/28 08:44, 6年前 , 51F
sample prep protocol會造成很多分析上奇奇怪怪的現象
09/28 08:44, 51F

09/28 08:45, 6年前 , 52F
從sequence data重導出protocol上面的問題是個花時間又
09/28 08:45, 52F

09/28 08:46, 6年前 , 53F
複雜的步驟, 最好有專人陪你分析討論
09/28 08:46, 53F

09/29 15:15, 6年前 , 54F
我們跟實驗室合作,我們只負責純化足量的RNA,後續library
09/29 15:15, 54F

09/29 15:16, 6年前 , 55F
製備跟其他的就是對方實驗是負責了。會問這個問題是我發現
09/29 15:16, 55F

09/29 15:17, 6年前 , 56F
序列有出入後跟對方實驗室問,他們過去也有做過一個ss+RNA
09/29 15:17, 56F

09/29 15:18, 6年前 , 57F
病毒也有類似的狀況,去查了其他的paper才發現這似是常態
09/29 15:18, 57F

09/29 15:19, 6年前 , 58F
所以如果想用NGS定病毒全長,還是要搭配其他的技術才能獲
09/29 15:19, 58F

09/29 15:19, 6年前 , 59F
得兩端的序列 因對方實驗室也不清楚為什麼 所以上來問問XD
09/29 15:19, 59F

09/29 15:53, 6年前 , 60F
看看是不是用nested PCR抓出病毒全長, 如果是那就大概是我
09/29 15:53, 60F

09/29 15:55, 6年前 , 61F
上面說的狀況, 如果不是那就需要花點時間了解了
09/29 15:55, 61F
文章代碼(AID): #1RgXFHws (Biotech)
文章代碼(AID): #1RgXFHws (Biotech)