[問題] 請問為什麼這一題要分a,b兩類?

看板BioMedInfo (生醫資訊)作者 (herborthu)時間15年前 (2009/09/16 22:02), 編輯推噓1(108)
留言9則, 3人參與, 最新討論串1/2 (看更多)
2000網易杯全國大學生數學建模 DNA序列分類 2000年6月,人類基因組計畫中DNA全序列草圖完成,預計2001年可以完成精確的全序 列圖,此后人類將擁有一本記錄著自身生老病死及遺傳進化的全部訊息的“天書”。 這本大自然寫成的“天書”是由4個字符A,T,C,G按一定順序排成的長約30億的序列, 其中沒有“斷句”也沒有標點符號,除了這4個字符表示4種鹼基以外,人們對它包含 的“內容”知之甚少,難以讀懂。破譯這部世界上最巨量訊息的“天書”是二十一世紀 最重要的任務之一。在這個目標中,研究DNA全序列具有什麼架構,由這4個字符排成的 看似隨機的序列中隱藏著什麼規律,又是解讀這部天書的基礎,是最重要的課題之一。 雖然人類對這部“天書”知之甚少,但也發現了DNA序列中的一些規律性和架構。例如,在全序列中有一些是用于編碼蛋白質的序列片段,即由這4個字符組成的64種不同的3字元串,其中大多數用于編碼構成蛋白質的20種氨基酸。又例如,在不用于編碼蛋白質的序列片段中,A和T的含量特別多些,于是以某些鹼基特別豐富作為特徵去研究DNA序列的架構也取得了一些結果。此外,利用統計的方法還發現序列的某些片段之間具有相關性,等等。這些發現讓人們相信,DNA序列中存在著局部的和全局性的架構,充分發掘序列的架構對理解DNA全序列是十分有意義的。目前在這項研究 中最普通的思想是省略序列的某些細節,突出特徵,然後將其表示成適當的數學對象。這 種被稱為粗粒化和模型化的方法往往有助于研究規律性和架構。 作為研究DNA序列的架構的嘗試,提出以下對序列集合進行分類的問題︰ 1)下面有20個已知類別的人工製造的序列(見下頁),其中序列標號1─10 為A類 ,11-20為B類。請從中提取特徵,構造分類方法,並用這些已知類別的序列,衡量你的 方法是否足夠好。然後用你認為滿意的方法,對另外20個未標明類別的人工序列 (標號21─40)進行分類,把結果用序號(按從小到大的順序)標明它們的類別 (無法分類的不寫入)︰B類 。 請詳細描述你的方法,給出計算程式。如果你部分地使用了現成的分類方法,也要 將方法名稱準確注明。 這40個序列也放在如下位址的網頁上,用數據文件Art-model-data 標識,供下載︰ 網易網址︰www.163.com 教育頻道 在線試題; 教育網︰ www.cbi.pku.edu.cn News mcm2000 教育網︰ www.csiam.edu.cn/mcm 2)在同樣網址的數據文件Nat-model-data 中給出了182個自然DNA序列, 它們都較長。用你的分類方法對它們進行分類,像1)一樣地給出分類結果。 提示︰衡量分類方法優劣的標準是分類的正確率,構造分類方法有許多途徑, 例如提取序列的某些特徵,給出它們的數學表示︰幾何空間或向量空間的元素 等,然後再選擇或構造適合這種數學表示的分類方法;又例如構造機率統計模 型,然後用統計方法分類等。 Art-model-data 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga 3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga 4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag 6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca 7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg 8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg 9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg 10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg 11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt 12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa 13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc 14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta 15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa 16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat 17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc 18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt 19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa 20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat 21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga 22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg 23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt 25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca 26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac 27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag 28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga 29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta 31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg 33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac 34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa 35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc 36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg 37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt 38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac 39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat 40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt 先感謝有心人看完那麼長的問題 小弟很好奇,為什麼要分A,B兩類 目前猜測是否A,B兩類代表"受感染"及"未受感染"的基因 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.170.197.54

09/17 03:33, , 1F
如題目所說"構造分類方法有許多途徑,例如提取序列的某些
09/17 03:33, 1F

09/17 03:34, , 2F
特徵,給出它們的數學表示" 所以應該跟感染與否無關吧 ??
09/17 03:34, 2F

09/17 03:34, , 3F
如果從序列就知道感染與否也太強了?!
09/17 03:34, 3F

09/17 03:36, , 4F
可能要分析一下,但光從兩類粗淺來看,B就比A類多很多"t"
09/17 03:36, 4F

09/17 03:37, , 5F
我想應該有很多方是可以作分類...
09/17 03:37, 5F

09/17 12:52, , 6F
A跟B只是你對模型的定義而已 具A特徵分類到A下面
09/17 12:52, 6F

09/17 12:52, , 7F
然後給你隨機的序列去看看你的模型正不正確
09/17 12:52, 7F

09/17 14:53, , 8F
其實這題拿去問作生物的一點都不難 關就就是上面長長的文章
09/17 14:53, 8F

09/17 14:55, , 9F
提到基因編碼 也提到蛋白編碼 所以高AT的序列 暗指...
09/17 14:55, 9F
文章代碼(AID): #1AiE_RE1 (BioMedInfo)
文章代碼(AID): #1AiE_RE1 (BioMedInfo)