Re: [問題] prediction 用的trainig data set
看板BioMedInfo (生醫資訊)作者windincloud (當你孤單會想起誰)時間14年前 (2010/10/14 13:23)推噓1(1推 0噓 0→)留言1則, 1人參與討論串2/2 (看更多)
※ 引述《kzvito (HOW)》之銘言:
: 原po現在在作的是預測protein seqeuence上,
: 有哪些是會去interact的residue。
: 所以開始需要一些整理過的data set,
: 但是在PLoS之類的地方,
: paper好像都不會把自己的data set放上去,
: 請問如果有作相關題目的人,或者有些瞭解的板大,
: 除了寫信找paper作者,
: 還有乾脆自己去PDB之類的資料庫抓protein來自己整理外,
: 還有沒有什麼途徑可以找已經有人整理過的data set呢?
: ps如果有作類似的,歡迎交流一下~
Sorry~ 有點久才回這篇
首先,我想先說一下 "生物是一種活的科學",
無時無刻都有可能發生改變與演進
因此在如何做資料收集也就會特別的重要
收集資料 不外乎就由paper上的資料或是自己找
paper上的資料又分兩種
一種是幫你整理得好好的給你下載
另一種就是跟你講他是怎得到的,言下之意就是請您去手動到相關的bio. DB去找尋,
但跟自己找的差異是 => 他已經跟你講他抓的規則是怎樣
不過我想說的重點不在於此,而是該找尋怎樣的data set才是自己要的
要找data set之前得先定義你是要做怎樣的題目,不同的定義、不同的題目。
在不同的時間點所抓的資料也會有所不同。
舉你想要做的題目來說,你想要做的是protein interaction residue.
這時就要先定義何謂protein interaction residue?
residue要與作用物上距離多少才算是有interaction?
再來這題目又可細分是要找protein protein interaction? 還是Zinc binding......
因此你會根據你不同的需求去建立你所找尋的規則,進而得到你所需要的資料。
或許你會說那我直接引用別人的就好啦~
但是我開宗明義就說明一件事 ─ 生物是活的!
所以你需要確認現在這資料是不是最新的!
不同的時間,同樣的條件下,所得的資料也是會有些出入的。
嗯~ 講得好像有點嚴肅
這邊只是講講自己以前收集資料的一些小經驗這樣。
還有就算是拿別人的資料,最好還是能自己先判斷,因為有時也會有誤,
不論是排版錯誤,文章誤植......等。
大概是這樣囉~
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.138.155.196
推
10/20 22:36, , 1F
10/20 22:36, 1F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
BioMedInfo 近期熱門文章
PTT職涯區 即時熱門文章
-15
134