[請益] R語言找哪些變數有顯著關係

看板Soft_Job (軟體人)作者 (珍惜當下)時間8年前 (2017/06/21 11:53), 編輯推噓5(6110)
留言17則, 10人參與, 最新討論串1/1
想請教軟體板上的眾多高手們, 小弟現有員工資料表一份,欄位有年資(StayYears) 及是否在職中(Status,A代表任職中,T代表已離職) 及所在國家(Country)等欄位。 想找出員工大多待多久就離職?例如年資為3.5到4.0之間的離職率最高(T的數目最多), 或是哪個國家的離職率最高? 想請問如果用R程式來寫該怎麼著手比較好? 謝謝~ 資料表格式如下: ID Name StayYears Status Country 1 John 3.5 T USA 2 Mary 2.1 A USA 3 Ben 1.7 T French 4 Kevin 3.2 T India 5 Cindy 2.6 A French 6 Jack 3.9 A USA 7 Peter 1.3 A India 8 Andy 2.7 T French 9 David 0.8 A India 10 Nick 1.1 A USA -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.165.66 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1498017231.A.72D.html

06/21 12:07, , 1F
excel就可以做了吧?區間分析然後畫直方圖
06/21 12:07, 1F

06/21 12:13, , 2F
有沒有用R語言的方式
06/21 12:13, 2F

06/21 12:23, , 3F
怎不PO到R版問問?
06/21 12:23, 3F

06/21 12:24, , 4F
版名 R_Language
06/21 12:24, 4F

06/21 12:40, , 5F
已幫轉 R 版
06/21 12:40, 5F

06/21 15:32, , 6F
Random forest 的varimp可以找出重要變數
06/21 15:32, 6F

06/21 15:58, , 7F
這是統計問題不是程式問題- -
06/21 15:58, 7F

06/22 13:15, , 8F
這個就是看各國離職比例吧,用幾個簡單的原生function
06/22 13:15, 8F

06/22 13:16, , 9F
就可以做了,D-tree或RF的確也可以拿重要變數出來
06/22 13:16, 9F

06/22 13:17, , 10F
就把status當作y,做二元分類,但有可能重要變數不是國家
06/22 13:17, 10F

06/22 13:17, , 11F
而且你這個feature的量太少了,做變數挑選沒什麼意思
06/22 13:17, 11F

06/22 13:20, , 12F
如果資料就長這樣,其實你變數也就年資跟國家
06/22 13:20, 12F

06/22 21:21, , 13F
大學程度的東西,拿來這裡問,還蠻屌的
06/22 21:21, 13F

06/22 22:10, , 14F
羅吉斯迴歸
06/22 22:10, 14F

06/23 22:21, , 15F
作Principle Component Analysis, 然後畫score plot, lo
06/23 22:21, 15F

06/23 22:21, , 16F
ading plot 或者先用cluster analysis 來分類
06/23 22:21, 16F

06/23 22:22, , 17F
變數太少,資料量至少要一千筆以上感覺才有意義
06/23 22:22, 17F
文章代碼(AID): #1PIUtFSj (Soft_Job)
文章代碼(AID): #1PIUtFSj (Soft_Job)