Re: [請益] 班佛定律至少要有3000樣本數是怎麼算的?
※ 引述《su31tak (su31tak)》之銘言:
: 這定律原意是
: 當有很多筆數據時,1開頭的數據會佔個三成左右,2345依次遞減
: 那,一坨數據裡面要有接近什麼%數的1開頭這種事,需要的是這坨數據夠大坨
: 而不是這坨數據裡面每個資料值都超過3000
: 舉帳目造假的例子來說
: 是賣場要有3000筆以上的銷售資料才能用它來驗算
: 而不是3000元以上的帳單才能應用這個定律
應該不是這樣喔 這定律是檢驗所有數字的頭1~9
1的比例約佔30% 一直遞減到9 原因是十進位都是從1開始累進
所以所謂的隨機數據一定要3000以上 若隨機數據只有1~9 則結果是各佔1/9
0~100 1開頭的比例也不會有30% 一定要數據範圍夠大才會如此 3000應該是這樣來的
(不然考試成績可以用班佛定律?? 最多人考10幾分 90幾分的人最少?? )
若帳單數字每筆都很小 例如文具店帳單 單筆幾乎都在500以內 就不能用班佛定律
投票所人口也是如此 每個票所母數至少要5000 平均投票率六成以上才符合條件
: 但這個定律除了數據要夠大坨之外,數據的跨度也要夠大才適用
: 一樣用帳目造假為例
: 如果大賣場的結帳金額跨度從幾十塊到上萬塊(兩個零到四個零),
: 那麼一百多/一千多/一萬多佔比高是符合定律描述的
: 但一個平價便當店,跨度才從五十塊到幾百塊(一個零到兩個零)
: 那麼5678開頭的結帳單比1開頭的多也不是什麼奇怪事
: 另一種情形是數據的產出本身就有刻意控制範圍
: 假設一開始為了平均投票所負擔而故意讓各票所間的選民數在一定範圍內
: 那麼看首數很顯然的也沒有太大意義
投票所分配人數大多在2000以下 根本不符合基本前提 一堆人還在那邊亂用??
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.234.142 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/ask-why/M.1636476681.A.CE2.html
※ 編輯: souldragon (118.168.234.142 臺灣), 11/10/2021 01:01:09
討論串 (同標題文章)
ask-why 近期熱門文章
PTT職涯區 即時熱門文章