[筆記] Phylogenetic diversity 算法,R package
已知一有根演化樹 (rooted phylogenetic tree)
8 tips (樹梢,尖端) , 4+2 internal nodes (樹節)
----------------------------------------------------------
文字檔案如下 "123.tree"
(
( (A1:0.01,A2:0.01):0.45 , (B1:0.02,B2:0.02):0.44 ):0.54,
( (C1:0.03,C2:0.03):0.37 , (D1:0.04,D2:0.04):0.36 ):0.60
);
冒號前方是 Node label 或 Internal node
冒號後方是 Distance from lower node to upper (edge length)
**Internal node 似乎也有命名法則 , 放在文末補充
----------------------------------------------------------
畫出的樹型如下
root
/ \
/ \
/ \
0.54 / \ 0.60
/ \
/ \
/ \
M1 M2
/\ /\
/ \ / \
0.45 / \ 0.44 0.37 / \ 0.36
/ \ / \
/ \ / \
N1 N2 N3 N4
/\ /\ /\ /\
0.01 / \ 0.02 / \ / \ 0.03 / \ 0.04
/ \ / \ / \ / \
A1 A2 B1 B2 C1 C2 D1 D2
--------------------------------------------------------
由文字檔案得知 Distance
(A1 to N1) = 0.01 = (A2 to N1)
(B1 to N2) = 0.02 = (B2 to N2)
(C1 to N3) = 0.03 = (C2 to N3)
(D1 to N4) = 0.04 = (D2 to N4)
(N1 to M1) = 0.45
(N2 to M1) = 0.44
(N3 to M2) = 0.37
(N4 to M2) = 0.36
(M1 to root) = 0.54
(M2 to root) = 0.60
任一 tips 往上加至 root 的總和相等 (此 case 為 1)
----------------------------------------------------
PD 計算
假設給資料矩陣 , 共6樣本
A1 A2 B1 B2 C1 C2 D1 D2
樣本1 1 0 0 0 0 0 0 0
樣本2 0.5 0.5 0 0 0 0 0 0
樣本3 0.5 0 0.5 0 0 0 0 0
樣本4 1 0 1 0 0 0 0 0
樣本5 0.3 0 0.7 0 0 0 0 0
樣本6 0.3 0 0.2 0 0.1 0 0.4 0
---------------------------------------------------
Ans :
樣本1 = 0.01 + 0.45 + 0.54 = 1 (左側整條相加)
樣本2 = (0.01 + 0.01) + 0.45 + 0.54 = 1.01 (由 hit tips 開始往上加 ,
重複路徑不重算)
樣本3 = 0.01 + 0.02 + 0.45 + 0.44 + 0.54 = 1.56 (驗證上述)
樣本4 = 同上 (不需要 input proportion data
樣本5 = 同上 (不考慮權重關係)
樣本6 = A1->N1->M1->root
B1->N2->M1 (M1->root 重複 , 不重複計算)
C1->N3->M2->root
D1->N4->M2 (M2->root 重複 , 不重複計算)
-----------------------------------------------------
Tool::R package::picante
http://phylodiversity.net/skembel/r-workshop/biodivR/SK_Biodiversity_R.html
tree <- read.tree("123.tree")
result <- pd(資料矩陣,tree)
比較麻煩的點 , 是準備 Tree file 這步驟
得各憑本事
-----------------------------------------------------
補充 : internal node 的命名法則 (完整呈獻此篇文章的 tree)
(
( (A1:0.01,A2:0.01)N1:0.45 , (B1:0.02,B2:0.02)N2:0.44 )M1:0.54,
( (C1:0.03,C2:0.03)N3:0.37 , (D1:0.04,D2:0.04)N4:0.36 )M2:0.60
)root;
-----------------------------------------------------
這篇是當筆記用
不然過兩下我就忘了怎麼算了
將來若有其他新學到的
也會在此篇繼續更新
--
我用名為真心的卡牌說服你
這是我最後一張牌
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.239.247
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:25)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:26)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:26)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:27)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:28)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:31)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:31)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:33)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:34)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:36)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:37)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:38)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:38)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:46)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:47)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:51)
※ 編輯: gsuper 來自: 140.113.239.247 (10/30 23:52)
※ 編輯: gsuper 來自: 140.113.239.247 (10/31 00:57)
※ 編輯: gsuper 來自: 140.113.239.247 (10/31 00:58)
※ 編輯: gsuper 來自: 140.113.239.247 (10/31 00:58)
推
11/02 02:44, , 1F
11/02 02:44, 1F
UniFrac distance
a beta distance between two samples based on phylogenetic tree
Asample Bsample
Bacteria1 0.3 0
Bac2 0 0.2
Bac3 0.5 0.8
Bac4 0.2 0
資料矩陣是 proportion
我改天繼續更新這篇
※ 編輯: gsuper 來自: 219.70.232.197 (02/07 22:46)
BioMedInfo 近期熱門文章
PTT職涯區 即時熱門文章
149
296