Re: 博士班經驗甘苦談~

看板PhD (博士班)作者時間19年前 (2006/12/06 23:23), 編輯推噓1(102)
留言3則, 2人參與, 最新討論串7/9 (看更多)
很少po文, 不過這串討論蠻有趣的, 所以想和大家分享一下自己的想法. 我上統計課的時候, 倒是有聽老師說過有人會去掉頭尾一些比較extreme的observations, 他也沒說這樣到底是好還是不好, 也沒說一定是幾% (感覺上是沒有很贊同). 一般上這麼做, 主要是要看這些extreme observations的impact, 而不是讓數據更好看. 所以說到底還是用所有的data比較理想. (但是專業領域不同, 也許因為人為誤差 (或其它原因), 去掉一些比較極端的數值也許是standard practice.) Extreme observations可以是outliers, 但不一定是influential points, 我忘了正確的名詞, 不過主要的差別是, 如果你想要劃一條regression line (e.g., Y=a + bX), 這些比較extreme的observations還是可以在這條line上下不遠的地方. 我應該說, 如果你去掉這些extreme values, 你劃出來的線和你沒去掉劃出來的線是差不多的, 這些extreme observations可以被稱做outliers (因為和大家不一樣), 但不是influential points. Influential points指的是, 上述兩條線會差很多. (當然, 如果是算平均的話, 這些extreme values就很讓人頭痛了). 前面一位版友的學長說只拿最好的20個數據, 但如果是去掉最好最壞的5%, 不是應該也拿到掉好的 (而不只是最壞的)? ※ 引述《SmileFace.bbs@ptt.cc (北緯43度的夏天)》之銘言: : 資工領域我不懂 : 在做biology實驗的時候 : 不是本來就可以拿掉一些偏差得很離譜的outliner嗎? : 只要在paper 上把你的方法註明清楚 : 這根本不算造假 : 比較需要關心的問題是,當你拿掉的outliner太多時 : 會不會讓你的sample size小到沒有統計意義? : 回到炒冷飯的ELISA : 這是一個非常靈敏的實驗,特別是如果你用的是kit.. : 我會建議原作反覆多run 幾次 : 如果你的control 仍然還跑出一些偏差太多的值 : 基本上那表示,是你操作上的問題 : (一般來檢驗methodology的方式就是看control..) : 另外,就統計學來說 : 沒有什麼拿掉最好跟最壞5%的說法 : ※ 引述《jumpings (風中遊子...)》之銘言: : : 終於有資格可以po文了..... 所以來炒一下冷飯.... ^^|| : : 我是唸資工的...所以不知道你的ELISA是什麼東西... : : 但是我碩班的時候後來接受一個去德國拿PhD回來的學長指導... : : 說我之前把程式跑30次... 然後取最好的20次去算平均... : : 簡直就是惡搞!!!!!! : : 他說就統計學上... 只允許你拿掉最好跟最壞的5%.... (百分比不知道有沒有記錯) : : 然後當然還要在paper裡面附加說明.... : : 所以之後跑程式數據時..... 便全部都拿來算平均和p-value了..... : : 而論文呈現的也是最原始完完全全都沒有動過手腳的資料..... : : 基本上我是勸大家... 只有唸碩班也就算了...... : : 唸博班的各位.... 學術聲譽對大家有一輩子的影響..... : : 實驗數據一定一點點手腳都不能動........ : : 要是萬一真的有那麼一天...... : : 成為一位"大師"的話... 要是被人家翻出你當年的數據有一點點的造假.... : : 那........... 後果各位應該相當相當的了解......... : : 與各位共勉之............ ^^ -- ※ 發信站: 批踢踢參(ptt3.cc) ◆ From: 24.60.246.75

12/07 11:28, , 1F
你誤會了...是我只拿最好的20個數據...
12/07 11:28, 1F

12/07 11:29, , 2F
但是學長是說...要這樣拿掉的話..最好和最壞都要拿掉..
12/07 11:29, 2F

12/07 11:55, , 3F
本來就應該這樣, 某則豈不是被你刻意導入 bias?
12/07 11:55, 3F
文章代碼(AID): #15Tk1g00 (PhD)
文章代碼(AID): #15Tk1g00 (PhD)