Re: [問題] 請問有無方便的程式或方法可幫我解決難 …
let filename = foo.txt
open terminal and change to the directory where the file is
and type
# make a backup file
$ cp foo.txt foo.txt.bk
#clean file format
$ perl -pi -e 's/(>.*)/$1,/g' foo.txt
$ perl -pi -e 's/\s//g' foo.txt
$ perl -pi -e 's/(>.*),/\n$1\n/g' foo.txt
# extract pattern and store in foo.txt
$ perl -pi -e 's/.*(TAC.*TTT).*/$1/g' foo.txt
IMPORTANT: every sequence in foo.txt will be over write by extracted
sequence pattern.
※ 引述《enisx (東方有比目魚,不比不行)》之銘言:
: 請教各位高手,
: 我手上有外送回來定序的DNA序列文字檔(.txt)
: 裡頭大約有約700-1000條,檔案已經轉成FASTA格式了,
: 但是,我想從每條DNA序列中"擷取"出我想要的部份,
: 舉例如下:
: -------------------------------------------------------------
: >123456
: ACGTGGTTAACCTTGGCCCCTACCTCTGTGCTGTGGGGCGGATC
: TGAAAAGCTGGTCTTTGGCGTTGAAATTGTCCCAAAGTCAACGTGTGGTT
: 我想要得到如下形式
: >123456
: TACCTCTGTGCTGTGGGGCGGATCTGAAAAGCTGGTCTTT
: -------------------------------------------------------------
: 這些我想要擷取的序列都是呈現 TACXXXXXXXXXTTT 的格式,
: 因為我一直找不到好方法來做,
: 所以目前是以Emeditor打開原始的文字檔,以正規表示法標示出我想要的位置
: ,然後....一條一條地將不要的部份刪除,再將之複製貼上到另外的文字檔上 ,
: 這樣土法煉鋼還蠻笨的也花了我很多時間在這些重複性工作~~
: 想請教各位高手,是否有快一點的方法,請教教我吧!! 謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 132.183.24.60
推
07/30 01:12, , 1F
07/30 01:12, 1F
推
07/30 07:10, , 2F
07/30 07:10, 2F
推
07/30 08:23, , 3F
07/30 08:23, 3F
→
07/30 22:39, , 4F
07/30 22:39, 4F
推
07/31 01:15, , 5F
07/31 01:15, 5F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 2 之 5 篇):
BioMedInfo 近期熱門文章
PTT職涯區 即時熱門文章