Re: [問題] prediction 用的trainig data set

看板BioMedInfo (生醫資訊)作者 (當你孤單會想起誰)時間14年前 (2010/10/14 13:23), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串2/2 (看更多)
※ 引述《kzvito (HOW)》之銘言: : 原po現在在作的是預測protein seqeuence上, : 有哪些是會去interact的residue。 : 所以開始需要一些整理過的data set, : 但是在PLoS之類的地方, : paper好像都不會把自己的data set放上去, : 請問如果有作相關題目的人,或者有些瞭解的板大, : 除了寫信找paper作者, : 還有乾脆自己去PDB之類的資料庫抓protein來自己整理外, : 還有沒有什麼途徑可以找已經有人整理過的data set呢? : ps如果有作類似的,歡迎交流一下~ Sorry~ 有點久才回這篇 首先,我想先說一下 "生物是一種活的科學", 無時無刻都有可能發生改變與演進 因此在如何做資料收集也就會特別的重要 收集資料 不外乎就由paper上的資料或是自己找 paper上的資料又分兩種 一種是幫你整理得好好的給你下載 另一種就是跟你講他是怎得到的,言下之意就是請您去手動到相關的bio. DB去找尋, 但跟自己找的差異是 => 他已經跟你講他抓的規則是怎樣 不過我想說的重點不在於此,而是該找尋怎樣的data set才是自己要的 要找data set之前得先定義你是要做怎樣的題目,不同的定義、不同的題目。 在不同的時間點所抓的資料也會有所不同。 舉你想要做的題目來說,你想要做的是protein interaction residue. 這時就要先定義何謂protein interaction residue? residue要與作用物上距離多少才算是有interaction? 再來這題目又可細分是要找protein protein interaction? 還是Zinc binding...... 因此你會根據你不同的需求去建立你所找尋的規則,進而得到你所需要的資料。 或許你會說那我直接引用別人的就好啦~ 但是我開宗明義就說明一件事 ─ 生物是活的! 所以你需要確認現在這資料是不是最新的! 不同的時間,同樣的條件下,所得的資料也是會有些出入的。 嗯~ 講得好像有點嚴肅 這邊只是講講自己以前收集資料的一些小經驗這樣。 還有就算是拿別人的資料,最好還是能自己先判斷,因為有時也會有誤, 不論是排版錯誤,文章誤植......等。 大概是這樣囉~ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.138.155.196

10/20 22:36, , 1F
嗯~我明白了!謝謝
10/20 22:36, 1F
文章代碼(AID): #1CjfFhUy (BioMedInfo)
討論串 (同標題文章)
文章代碼(AID): #1CjfFhUy (BioMedInfo)