Re: [問題] 請問有無方便的程式或方法可幫我解決難 …

看板BioMedInfo (生醫資訊)作者 (林果)時間16年前 (2008/07/30 00:05), 編輯推噓4(401)
留言5則, 5人參與, 最新討論串2/5 (看更多)
let filename = foo.txt open terminal and change to the directory where the file is and type # make a backup file $ cp foo.txt foo.txt.bk #clean file format $ perl -pi -e 's/(>.*)/$1,/g' foo.txt $ perl -pi -e 's/\s//g' foo.txt $ perl -pi -e 's/(>.*),/\n$1\n/g' foo.txt # extract pattern and store in foo.txt $ perl -pi -e 's/.*(TAC.*TTT).*/$1/g' foo.txt IMPORTANT: every sequence in foo.txt will be over write by extracted sequence pattern. ※ 引述《enisx (東方有比目魚,不比不行)》之銘言: : 請教各位高手, : 我手上有外送回來定序的DNA序列文字檔(.txt) : 裡頭大約有約700-1000條,檔案已經轉成FASTA格式了, : 但是,我想從每條DNA序列中"擷取"出我想要的部份, : 舉例如下: : ------------------------------------------------------------- : >123456 : ACGTGGTTAACCTTGGCCCCTACCTCTGTGCTGTGGGGCGGATC : TGAAAAGCTGGTCTTTGGCGTTGAAATTGTCCCAAAGTCAACGTGTGGTT : 我想要得到如下形式 : >123456 : TACCTCTGTGCTGTGGGGCGGATCTGAAAAGCTGGTCTTT : ------------------------------------------------------------- : 這些我想要擷取的序列都是呈現 TACXXXXXXXXXTTT 的格式, : 因為我一直找不到好方法來做, : 所以目前是以Emeditor打開原始的文字檔,以正規表示法標示出我想要的位置 : ,然後....一條一條地將不要的部份刪除,再將之複製貼上到另外的文字檔上 , : 這樣土法煉鋼還蠻笨的也花了我很多時間在這些重複性工作~~ : 想請教各位高手,是否有快一點的方法,請教教我吧!! 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 132.183.24.60

07/30 01:12, , 1F
grep -P '/TAC.*TTT/' target.txt 有linux的話?
07/30 01:12, 1F

07/30 07:10, , 2F
學長誠好人也~ ( ′▽`)-o□
07/30 07:10, 2F

07/30 08:23, , 3F
謝謝你
07/30 08:23, 3F

07/30 22:39, , 4F
linux指令是好東西
07/30 22:39, 4F

07/31 01:15, , 5F
一樓的辦法遇到Unix/Win換行符號之差可能會有閃失
07/31 01:15, 5F
文章代碼(AID): #18Zp_OeP (BioMedInfo)
文章代碼(AID): #18Zp_OeP (BioMedInfo)