Re: [請益] 班佛定律至少要有3000樣本數是怎麼算的？

看板ask-why (知識奧秘)作者su31tak (su31tak)時間4年前 (2021/11/10 00:07)推噓0(0推 0噓 42→)

留言42則, 3人參與討論串2/6 (看更多)

※ 引述《souldragon (依法不依人)》之銘言： : 班佛定律老實說很冷門我看了1,20本經濟或統計的書也沒啥人引用過 : 有人說可以用來檢驗選舉或帳目有無人為篡改條件是隨機資料要有3000筆以上 : 隨機資料和隨機抽樣意思差不多就是不能有外部人為干預下自然產生的結果 : 比如統計樣本至少要有1068才能反應母體那3000這數字是怎麼得出來的？ : 若有這限制也無法用來檢驗選舉作票因為每投票所的人口不到3000 : 通常都在2000以下投票率七成則在1500以下數據永遠不到3000筆 : 至少每個投票所母數要有5000 投票率六成以上才能符合門檻值 : 樣本數量根本未達標還有人用這理論在檢驗不是很奇怪?? 這定律原意是當有很多筆數據時，1開頭的數據會佔個三成左右，2345依次遞減那，一坨數據裡面要有接近什麼%數的1開頭這種事，需要的是這坨數據夠大坨而不是這坨數據裡面每個資料值都超過3000 舉帳目造假的例子來說是賣場要有3000筆以上的銷售資料才能用它來驗算而不是3000元以上的帳單才能應用這個定律 ~~ 但這個定律除了數據要夠大坨之外，數據的跨度也要夠大才適用一樣用帳目造假為例如果大賣場的結帳金額跨度從幾十塊到上萬塊（兩個零到四個零），那麼一百多/一千多/一萬多佔比高是符合定律描述的但一個平價便當店，跨度才從五十塊到幾百塊（一個零到兩個零）那麼5678開頭的結帳單比1開頭的多也不是什麼奇怪事另一種情形是數據的產出本身就有刻意控制範圍假設一開始為了平均投票所負擔而故意讓各票所間的選民數在一定範圍內那麼看首數很顯然的也沒有太大意義 ~~ 回到選舉造假的問題，從維基百科附的新聞連結來看，當初抓舞弊的不是首數而是末兩位數（雖然我不確定看尾數還算不算班佛定律，人家是看首數，不過不管啦...）此時理論上就是全隨機了幾千幾百幾十「七」和幾萬幾千幾百幾十「三」的機率應該都是10% 幾千幾百「八十九」和幾萬幾千幾百「六十四」的機率也應該都是1% 但，人類在亂掰數字時很常不小心有偏好在伊朗的某場選舉之中，一百多個數據裡7結尾的票所有17%，5結尾的只有4% （相較之下美國每次投票看尾數，都不會有14%以上或6%以下的特定尾數）統計上出現這麼大偏差的機率只有4% 另一個檢查方式是看末兩位是否相鄰（37/29算不相鄰，21/22/23算有相鄰）人類亂掰兩位數也很容易有偏好，理論值是七成不相鄰但上面那場伊朗選舉只有62%，看起來大概也是掰出來的可能性比較大綜上兩點，任何一場正常選舉產出上面那個結果的可能性只有 1/200 加上當選人在反對派強勢地區的票數也高的不合理大概就是有造假無誤了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.190.152 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/ask-why/M.1636474062.A.5FC.html

→

su31tak

11/10 00:08, 4年前 , 1^F

11/10 00:08, 1^F

→

su31tak

11/10 00:08, 4年前 , 2^F

11/10 00:08, 2^F

→