Re: [請益] 班佛定律至少要有3000樣本數是怎麼算的?

看板ask-why (知識奧秘)作者 (su31tak)時間3年前 (2021/11/10 00:07), 編輯推噓0(0042)
留言42則, 3人參與, 3年前最新討論串2/6 (看更多)
※ 引述《souldragon (依法不依人)》之銘言: : 班佛定律老實說很冷門 我看了1,20本經濟或統計的書也沒啥人引用過 : 有人說可以用來檢驗選舉或帳目有無人為篡改 條件是隨機資料要有3000筆以上 : 隨機資料和隨機抽樣意思差不多 就是不能有外部人為干預下自然產生的結果 : 比如統計樣本至少要有1068才能反應母體 那3000這數字是怎麼得出來的? : 若有這限制 也無法用來檢驗選舉作票 因為每投票所的人口不到3000 : 通常都在2000以下 投票率七成則在1500以下 數據永遠不到3000筆 : 至少每個投票所母數要有5000 投票率六成以上才能符合門檻值 : 樣本數量根本未達標 還有人用這理論在檢驗 不是很奇怪?? 這定律原意是 當有很多筆數據時,1開頭的數據會佔個三成左右,2345依次遞減 那,一坨數據裡面要有接近什麼%數的1開頭這種事,需要的是這坨數據夠大坨 而不是這坨數據裡面每個資料值都超過3000 舉帳目造假的例子來說 是賣場要有3000筆以上的銷售資料才能用它來驗算 而不是3000元以上的帳單才能應用這個定律 ~~ 但這個定律除了數據要夠大坨之外,數據的跨度也要夠大才適用 一樣用帳目造假為例 如果大賣場的結帳金額跨度從幾十塊到上萬塊(兩個零到四個零), 那麼一百多/一千多/一萬多佔比高是符合定律描述的 但一個平價便當店,跨度才從五十塊到幾百塊(一個零到兩個零) 那麼5678開頭的結帳單比1開頭的多也不是什麼奇怪事 另一種情形是數據的產出本身就有刻意控制範圍 假設一開始為了平均投票所負擔而故意讓各票所間的選民數在一定範圍內 那麼看首數很顯然的也沒有太大意義 ~~ 回到選舉造假的問題, 從維基百科附的新聞連結來看,當初抓舞弊的不是首數而是末兩位數 (雖然我不確定看尾數還算不算班佛定律,人家是看首數,不過不管啦...) 此時理論上就是全隨機了 幾千幾百幾十「七」和幾萬幾千幾百幾十「三」的機率應該都是10% 幾千幾百「八十九」和幾萬幾千幾百「六十四」的機率也應該都是1% 但,人類在亂掰數字時很常不小心有偏好 在伊朗的某場選舉之中,一百多個數據裡7結尾的票所有17%,5結尾的只有4% (相較之下美國每次投票看尾數,都不會有14%以上或6%以下的特定尾數) 統計上出現這麼大偏差的機率只有4% 另一個檢查方式是看末兩位是否相鄰(37/29算不相鄰,21/22/23算有相鄰) 人類亂掰兩位數也很容易有偏好,理論值是七成不相鄰 但上面那場伊朗選舉只有62%,看起來大概也是掰出來的可能性比較大 綜上兩點,任何一場正常選舉產出上面那個結果的可能性只有 1/200 加上當選人在反對派強勢地區的票數也高的不合理 大概就是有造假無誤了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.190.152 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/ask-why/M.1636474062.A.5FC.html

11/10 00:08, 3年前 , 1F
啊,回到標題,3000這個數在wiki上面被打citation needed
11/10 00:08, 1F

11/10 00:08, 3年前 , 2F
也沒查到三千哪來的就是了
11/10 00:08, 2F

11/12 20:06, 3年前 , 3F
你們是在雞同鴨講嗎?我看他都誤解自己的問題了,你還指點
11/12 20:06, 3F

11/12 20:06, 3年前 , 4F
得津津有味
11/12 20:06, 4F

11/12 22:46, 3年前 , 5F
樓上 誤解的是你吧 亂入王
11/12 22:46, 5F

11/12 22:55, 3年前 , 6F
這理論完全沒解釋 "樣本數下限" 和 "數據範圍得多大"
11/12 22:55, 6F

11/12 22:56, 3年前 , 7F
3000這數字你知道怎麼來的?說得自己好像很懂 秀一下
11/12 22:56, 7F

11/13 14:35, 3年前 , 8F
概率性的統計,通常會希望positive result和negative resul
11/13 14:35, 8F

11/13 14:35, 3年前 , 9F
t都發生最少7~8次,統計的信賴區間才會夠小。但是夠小本身
11/13 14:35, 9F

11/13 14:35, 3年前 , 10F
就是個模糊概念,有些人做出只有4~5次,他也照樣可以發pape
11/13 14:35, 10F

11/13 14:35, 3年前 , 11F
r。只不過信賴區間比較大、統計的準確性比較低,paper的威
11/13 14:35, 11F

11/13 14:35, 3年前 , 12F
信度也就比較低。舉例來說,投硬幣就要頭花各出現7~8次,
11/13 14:35, 12F

11/13 14:35, 3年前 , 13F
那麼大約就需要投20次,或最少需要投15次。要降低次數,擴
11/13 14:35, 13F

11/13 14:35, 3年前 , 14F
大信賴區間、降低數據的可靠性,只丟10次也可以。如果是萬
11/13 14:35, 14F

11/13 14:35, 3年前 , 15F
分之一發生的概率,那就需要做7~8萬次左右的抽樣。班佛定
11/13 14:35, 15F

11/13 14:35, 3年前 , 16F
律比較複雜,它不是二元的概率分布,但將之簡化成1和非1,
11/13 14:35, 16F

11/13 14:35, 3年前 , 17F
也是可以。那麼概率就是大約3成。大概數據只要25~30筆就差
11/13 14:35, 17F

11/13 14:35, 3年前 , 18F
不多了。我昨天隨便Google了一下,也就說需要50筆左右。也
11/13 14:35, 18F

11/13 14:35, 3年前 , 19F
就兩倍於我的推論。後來我想了想如果把2、3也考慮進去,要
11/13 14:35, 19F

11/13 14:36, 3年前 , 20F
求抽樣50確實就合理(抽樣出123的概率,才能看出班佛定律的
11/13 14:36, 20F

11/13 14:36, 3年前 , 21F
趨勢嘛)。至於跨度,配合pansci那篇文章裡有一張取了log後
11/13 14:36, 21F

11/13 14:36, 3年前 , 22F
,粉紅色區間寬度都變得一樣的圖,會比較好理解。它就表現
11/13 14:36, 22F

11/13 14:36, 3年前 , 23F
出1和非1的數據分佈跨度,而且是標準化的(每個顏色間隔都固
11/13 14:36, 23F

11/13 14:36, 3年前 , 24F
定)。我現在想不到對應的數學理論或模型。但是同樣用概率
11/13 14:36, 24F

11/13 14:36, 3年前 , 25F
來說,我們從前面0開始,走到數據的後段x,會經歷過多少次<
11/13 14:36, 25F

11/13 14:36, 3年前 , 26F
1>的區間。假設同樣要求經過<1>的次數也是7~8次。那麼就是
11/13 14:36, 26F

11/13 14:36, 3年前 , 27F
從0到8。那就是10^0到10^8這樣的跨度。好像有點大,可能10^
11/13 14:36, 27F

11/13 14:36, 3年前 , 28F
0到10^5就差不多了。總之,我只是用最簡單的概率模型2項分
11/13 14:36, 28F

11/13 14:36, 3年前 , 29F
佈硬套在班佛定律身上推算的,肯定不準確,但是其中的數學
11/13 14:36, 29F

11/13 14:36, 3年前 , 30F
邏輯是比較接近的,所以推算的結果不會差得太遠。如果你深
11/13 14:36, 30F

11/13 14:36, 3年前 , 31F
入研究有關班佛定律的數學模型,肯定可以算出指定的信賴區
11/13 14:36, 31F

11/13 14:36, 3年前 , 32F
間、統計檢定範圍內,需要的樣本數和數據跨度是多少。
11/13 14:36, 32F

11/13 14:52, 3年前 , 33F
簡單了說吧,最最最簡陋的統計要求要3筆數據,才能定算出
11/13 14:52, 33F

11/13 14:53, 3年前 , 34F
有意義的平均值。為什麼要3筆,背後的邏輯就是要算出平均
11/13 14:53, 34F

11/13 14:53, 3年前 , 35F
值。那麼,要做出統計檢定p數值接近0.05需要多少樣本?p=0.
11/13 14:53, 35F

11/13 14:53, 3年前 , 36F
005又是多少樣本。這需要把統計模型丟進另一個統計模型去
11/13 14:53, 36F

11/13 14:53, 3年前 , 37F
推算。而這,已經有人做過了。所以他會告訴你,大約多少個
11/13 14:53, 37F

11/13 14:53, 3年前 , 38F
樣本數,你大概率(95%? 99.5%? 99.95%?)可以得到p<=0.05或0
11/13 14:53, 38F

11/13 14:53, 3年前 , 39F
.005或0.0005。這就是其背後的邏輯。樣本跨度也可以有自己
11/13 14:53, 39F

11/13 14:53, 3年前 , 40F
的模型,同樣是大概率(95%? 99.5%?),讓數據體現出其自然
11/13 14:53, 40F

11/13 14:53, 3年前 , 41F
的樣貌。
11/13 14:53, 41F

11/13 14:53, 3年前 , 42F
還有你的臭嘴,最好給我道歉
11/13 14:53, 42F
文章代碼(AID): #1XYfpENy (ask-why)
討論串 (同標題文章)
文章代碼(AID): #1XYfpENy (ask-why)