Fw: [問題] 連鎖不平衡的計算
※ [本文轉錄自 Statistics 看板 #1EjMcjPu ]
作者: gsuper (數理統計-九陽真經) 看板: Statistics
標題: [問題] 卡方檢定的交互作用
時間: Sun Nov 6 00:51:51 2011
### R code
x <- matrix(c(10,4,7,3,12,1,5,2,20),3,3)
print(x)
AA AG GG (SNP1)
----------------
TT | 10 3 5 |
| |
TC | 4 12 2 |
| |
CC | 7 1 20 |
----------------
(SNP2)
################################################
在以上的 table 中
可以很明顯的看到
AA 時常伴隨 TT
AG 伴隨 TC
GG 伴隨 CC
因此兩個 SNPs 的基因型之間
似乎有某種關聯性 (高相關性)
#####################################################
首先基本的是
卡方檢定 or 費雪檢定
> chisq.test(x)
Pearson's Chi-squared test
data: x
X-squared = 32.7978, df = 4, p-value = 1.314e-06
******************************
> fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value = 1.734e-06
alternative hypothesis: two.sided
#################################################
另一種資料格式
y <- rbind(cbind(rep("TT",18), c(rep("AA",10),rep("AG",3) ,rep("GG",5 ))) ,
cbind(rep("TC",18), c(rep("AA",4) ,rep("AG",12),rep("GG",2 ))) ,
cbind(rep("CC",28), c(rep("AA",7) ,rep("AG",1) ,rep("GG",20))) )
可以往以下方向發展
1. ANOVA
2. Logistic regression
3. simple correlation
##################################################
但九宮格內暗藏陷阱
SNP1 , AG type
AA AG GG A allele : 45.3%
------------------------------ G allele : 54.7% (major allele)
|全 = 10 |全 = 3 |全 = 5 |
| | | | AA genotype : 45.3%
TT |AT = 10 |AT = 3 |GT = 5 | AG genotype : 25.0%
|AT = 10 |GT = 3 |GT = 5 | GG genotype : 42.2%
| | | |
-----------------------------|
|全 = 4 |全 = 12 |全 = 2 |
| |AT = a | |
TC |AT = 4 |AC = b |GT = 2 |
|AC = 4 |GT = 12-a |GC = 2 |
| |GC = 12-b | |
-----------------------------|
|全 = 7 |全 = 1 |全 = 20 |
| | | |
CC |AC = 7 |AC = 1 |GC = 20 |
|AC = 7 |GC = 1 |GC = 20 |
| | | |
------------------------------
SNP2 , TC type
T allele : 42.2%
C allele : 57.8% (major allele)
TT genotype : 28.1%
TC genotype : 28.1%
CC genotype : 43.8%
#############################################
從以上的 table 可以得知
當兩個 SNPs 的異型合子比例越大
a 與 b 的影響越大
上述的計算方法會失準
而且當兩者的異合子比例同時都很大時
統計結果會導致完全的 misleading!
#############################################
計算9格的 Haplotye 頻率分佈
#(九格)
----------------
Hap1(AT) | 27 + a |
Hap2(GT) | 15 + (12-a) |
Hap3(AC) | 19 + b |
Hap4(GC) | 43 + (12-b) |
----------------
若忽略中間 cells , 計算8格的 Haplotye 頻率分佈
#(只算8格) %
----------------------
Hap1(AT) | 27 | 30.0 |
Hap2(GT) | 15 | 14.4 |
Hap3(AC) | 19 | 18.3 |
Hap4(GC) | 43 | 41.3 |
----------------------
##################################################
問題:
是否存在某種最大概似機率
可以用上述的各種頻率資料
估計 a 和 b 的最可能個數 ?
因為標準的 r^2 或 D'
都需要計算一個 D
D = Obs_freq( Hap4[GC] ) - Exp_freq( Hap4[GC] )
而 Hap4[GC] 的數量
又必須要有 a 或 b 值才能計算
--
祭頌后靈的騎士道與白主教穩守黃金鄉
邊境兵躁動自高自大妄入堡壘
黑主教冷靜人格分裂
籠城王與雙子戰塔一籌莫展
掌握無限的魔女喚醒躺下的靈魂
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.239.247
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 00:53)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 00:58)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 00:59)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 01:01)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 01:13)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 01:26)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 01:27)
→
11/06 03:57, , 1F
11/06 03:57, 1F
→
11/06 03:59, , 2F
11/06 03:59, 2F
→
11/06 04:00, , 3F
11/06 04:00, 3F
※ 發信站: 批踢踢實業坊(ptt.cc)
※ 轉錄者: gsuper (140.113.239.247), 時間: 11/06/2011 19:42:34
BioMedInfo 近期熱門文章
PTT職涯區 即時熱門文章