Re: [問題] 請問有無方便的程式或方法可幫我解決難 …

看板BioMedInfo (生醫資訊)作者 (..)時間16年前 (2008/07/29 22:40), 編輯推噓1(101)
留言2則, 1人參與, 最新討論串1/5 (看更多)
※ 引述《enisx (東方有比目魚,不比不行)》之銘言: : 請教各位高手, : 我手上有外送回來定序的DNA序列文字檔(.txt) : 裡頭大約有約700-1000條,檔案已經轉成FASTA格式了, : 但是,我想從每條DNA序列中"擷取"出我想要的部份, : 舉例如下: : ------------------------------------------------------------- : >123456 : ACGTGGTTAACCTTGGCCCCTACCTCTGTGCTGTGGGGCGGATC : TGAAAAGCTGGTCTTTGGCGTTGAAATTGTCCCAAAGTCAACGTGTGGTT : 我想要得到如下形式 : >123456 : TACCTCTGTGCTGTGGGGCGGATCTGAAAAGCTGGTCTTT : ------------------------------------------------------------- : 這些我想要擷取的序列都是呈現 TACXXXXXXXXXTTT 的格式, : 因為我一直找不到好方法來做, : 所以目前是以Emeditor打開原始的文字檔,以正規表示法標示出我想要的位置 : ,然後....一條一條地將不要的部份刪除,再將之複製貼上到另外的文字檔上 , : 這樣土法煉鋼還蠻笨的也花了我很多時間在這些重複性工作~~ : 想請教各位高手,是否有快一點的方法,請教教我吧!! 謝謝 蠻久沒有文章了,回文灌一下水~ 既然你會寫正規表示法,其實你可以用perl, python等等寫個小程式, 先記錄 >/d+,然後讀入DNA序列後用你的Regular Expression去抓出目標序列 Regular Expression的grouping功能就可以協助你把目標序列記錄起來 (http://www.regular-expressions.info/brackets.html) 接下來分別印出既可~ 希望對你有幫助喔~ :) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.216.179.188

07/29 23:30, , 1F
感謝你..我試試看!!
07/29 23:30, 1F

07/29 23:30, , 2F
哈哈不過我只會用最簡單的..能力還不到能寫程式
07/29 23:30, 2F
文章代碼(AID): #18ZoljqM (BioMedInfo)
文章代碼(AID): #18ZoljqM (BioMedInfo)