[問題] 請問為什麼這一題要分a,b兩類?
看板BioMedInfo (生醫資訊)作者herborthu (herborthu)時間15年前 (2009/09/16 22:02)推噓1(1推 0噓 8→)留言9則, 3人參與討論串1/2 (看更多)
2000網易杯全國大學生數學建模
DNA序列分類
2000年6月,人類基因組計畫中DNA全序列草圖完成,預計2001年可以完成精確的全序
列圖,此后人類將擁有一本記錄著自身生老病死及遺傳進化的全部訊息的“天書”。
這本大自然寫成的“天書”是由4個字符A,T,C,G按一定順序排成的長約30億的序列,
其中沒有“斷句”也沒有標點符號,除了這4個字符表示4種鹼基以外,人們對它包含
的“內容”知之甚少,難以讀懂。破譯這部世界上最巨量訊息的“天書”是二十一世紀
最重要的任務之一。在這個目標中,研究DNA全序列具有什麼架構,由這4個字符排成的
看似隨機的序列中隱藏著什麼規律,又是解讀這部天書的基礎,是最重要的課題之一。
雖然人類對這部“天書”知之甚少,但也發現了DNA序列中的一些規律性和架構。例如,在全序列中有一些是用于編碼蛋白質的序列片段,即由這4個字符組成的64種不同的3字元串,其中大多數用于編碼構成蛋白質的20種氨基酸。又例如,在不用于編碼蛋白質的序列片段中,A和T的含量特別多些,于是以某些鹼基特別豐富作為特徵去研究DNA序列的架構也取得了一些結果。此外,利用統計的方法還發現序列的某些片段之間具有相關性,等等。這些發現讓人們相信,DNA序列中存在著局部的和全局性的架構,充分發掘序列的架構對理解DNA全序列是十分有意義的。目前在這項研究
中最普通的思想是省略序列的某些細節,突出特徵,然後將其表示成適當的數學對象。這
種被稱為粗粒化和模型化的方法往往有助于研究規律性和架構。
作為研究DNA序列的架構的嘗試,提出以下對序列集合進行分類的問題︰
1)下面有20個已知類別的人工製造的序列(見下頁),其中序列標號1─10 為A類
,11-20為B類。請從中提取特徵,構造分類方法,並用這些已知類別的序列,衡量你的
方法是否足夠好。然後用你認為滿意的方法,對另外20個未標明類別的人工序列
(標號21─40)進行分類,把結果用序號(按從小到大的順序)標明它們的類別
(無法分類的不寫入)︰B類 。
請詳細描述你的方法,給出計算程式。如果你部分地使用了現成的分類方法,也要
將方法名稱準確注明。
這40個序列也放在如下位址的網頁上,用數據文件Art-model-data 標識,供下載︰
網易網址︰www.163.com 教育頻道 在線試題;
教育網︰ www.cbi.pku.edu.cn News mcm2000
教育網︰ www.csiam.edu.cn/mcm
2)在同樣網址的數據文件Nat-model-data 中給出了182個自然DNA序列,
它們都較長。用你的分類方法對它們進行分類,像1)一樣地給出分類結果。
提示︰衡量分類方法優劣的標準是分類的正確率,構造分類方法有許多途徑,
例如提取序列的某些特徵,給出它們的數學表示︰幾何空間或向量空間的元素
等,然後再選擇或構造適合這種數學表示的分類方法;又例如構造機率統計模
型,然後用統計方法分類等。
Art-model-data
1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg
2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga
3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga
4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga
5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag
6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca
7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg
8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg
9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg
10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg
11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt
12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa
13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc
14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta
15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa
16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat
17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc
18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt
19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa
20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat
21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga
22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg
23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt
25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca
26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac
27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag
28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga
29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta
31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg
33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac
34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa
35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc
36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg
37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt
38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac
39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat
40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt
先感謝有心人看完那麼長的問題
小弟很好奇,為什麼要分A,B兩類
目前猜測是否A,B兩類代表"受感染"及"未受感染"的基因
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.170.197.54
→
09/17 03:33, , 1F
09/17 03:33, 1F
→
09/17 03:34, , 2F
09/17 03:34, 2F
→
09/17 03:34, , 3F
09/17 03:34, 3F
→
09/17 03:36, , 4F
09/17 03:36, 4F
→
09/17 03:37, , 5F
09/17 03:37, 5F
→
09/17 12:52, , 6F
09/17 12:52, 6F
→
09/17 12:52, , 7F
09/17 12:52, 7F
推
09/17 14:53, , 8F
09/17 14:53, 8F
→
09/17 14:55, , 9F
09/17 14:55, 9F
討論串 (同標題文章)
完整討論串 (本文為第 1 之 2 篇):
BioMedInfo 近期熱門文章
PTT職涯區 即時熱門文章