Re: [請益] 班佛定律至少要有3000樣本數是怎麼算的?
※ 引述《souldragon (依法不依人)》之銘言:
: ※ 引述《su31tak (su31tak)》之銘言:
: : 這定律原意是
: : 當有很多筆數據時,1開頭的數據會佔個三成左右,2345依次遞減
: : 那,一坨數據裡面要有接近什麼%數的1開頭這種事,需要的是這坨數據夠大坨
: : 而不是這坨數據裡面每個資料值都超過3000
: : 舉帳目造假的例子來說
: : 是賣場要有3000筆以上的銷售資料才能用它來驗算
: : 而不是3000元以上的帳單才能應用這個定律
: 應該不是這樣喔 這定律是檢驗所有數字的頭1~9
: 1的比例約佔30% 一直遞減到9 原因是十進位都是從1開始累進
: 所以所謂的隨機數據一定要3000以上 若隨機數據只有1~9 則結果是各佔1/9
都說要看首數了,把一千多和兩千多直接砍掉你不覺得哪裡怪怪的嗎
: 0~100 1開頭的比例也不會有30% 一定要數據範圍夠大才會如此 3000應該是這樣來的
: (不然考試成績可以用班佛定律?? 最多人考10幾分 90幾分的人最少?? )
: 若帳單數字每筆都很小 例如文具店帳單 單筆幾乎都在500以內 就不能用班佛定律
數字大小不是重點,如果帳單改美金計價,但跨度一樣大,那還是能看首數
: 投票所人口也是如此 每個票所母數至少要5000 平均投票率六成以上才符合條件
你還是沒搞懂。
你講的就是我下面那段,數據跨度要夠大
賣場發票從幾十塊到幾萬塊跨了三個數量級
考試成績平均範圍和標準差就都在幾十分,沒有跨數量級的問題
另外,標準分布鐘型曲線也是本來就不能看班佛
引用不太能當reference (甚至還自己打citation needed的維基原文)
「數據至少3000筆以上」
: : 但這個定律除了數據要夠大坨之外,數據的跨度也要夠大才適用
: : 一樣用帳目造假為例
: : 如果大賣場的結帳金額跨度從幾十塊到上萬塊(兩個零到四個零),
: : 那麼一百多/一千多/一萬多佔比高是符合定律描述的
: : 但一個平價便當店,跨度才從五十塊到幾百塊(一個零到兩個零)
: : 那麼5678開頭的結帳單比1開頭的多也不是什麼奇怪事
: : 另一種情形是數據的產出本身就有刻意控制範圍
: : 假設一開始為了平均投票所負擔而故意讓各票所間的選民數在一定範圍內
: : 那麼看首數很顯然的也沒有太大意義
: 投票所分配人數大多在2000以下 根本不符合基本前提 一堆人還在那邊亂用??
www.washingtonpost.com/wp-dyn/content/article/2009/06/20/AR2009062000004.html
前篇回文下面那段你可以再看一次,wikipedia 上面附的新聞是看尾數
投票所總票數這種東西我是不知道有什麼好看首數的
至於亂用到底是什麼樣態,我也不知道,我只知道正確的用法不是看投票首數
~~
班佛原意是看「大跨度」、「隨機數據」的首數
各開票所總投票數跨度不夠大,加上本身就不是隨機數據
本來看首數就看不出個所以然。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.31.23 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/ask-why/M.1636566824.A.42A.html
再補一下
最後一段的意思是
如果你看到有人在喊說為什麼一千多票的票所佔不到三成
是不是有舞弊造假等等
那就可以確定他是個在唬爛的壞蛋,或者就只是個不知道班佛怎麼正確使用的笨蛋
原因「不是」票所票數不到三千票,而是投票所票數這個性質本來就不適用班佛
即便各票所人數翻三倍到上萬票也一樣不適用
但,如果他提出的證據是
在某場選舉中,三七結尾的票所顯著的比五零結尾的票所多,
那麼在報票數的這個過程就很有可能有「手動調整」過,但也僅止於報票過程。
如果是開票途中停電換票箱,或是有人趁機拿票起來整疊蓋什麼選項
而在開票報票數的過程中依然正常運作,那麼尾數是不會有問題的。
※ 編輯: su31tak (114.36.31.23 臺灣), 11/11/2021 02:04:30
→
11/11 13:28,
3年前
, 1F
11/11 13:28, 1F
→
11/11 13:29,
3年前
, 2F
11/11 13:29, 2F
討論串 (同標題文章)
ask-why 近期熱門文章
PTT職涯區 即時熱門文章
48
103