精品随机数的首位数字出现概率统计分析Word格式文档下载.docx
《精品随机数的首位数字出现概率统计分析Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《精品随机数的首位数字出现概率统计分析Word格式文档下载.docx(9页珍藏版)》请在冰豆网上搜索。
3、分析问题
对于自然出现的这些数字0、1、2、3、4、5、6、7、8、9,如果按照一定的度量单位制,这里我们假设他们为十进制进位方式,且数字按固定比例增长,那么在首位数字较小时,首数增长得会很慢,这意味着首位数变化的速率会很慢,但是当首位数字增长后,随着首位数字变大,首位数字的值增长也会加快。
举个例子,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;
而由2000点上升到3000点只需要4年多时间;
但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。
也就是说,如果这些数据随机地出现,就算出现概率是等可能的,那么在一段时间内,我们看到的1出现的次数也将大于其他数字,所以这直接造成了首位数字是1出现的几率最大。
4、设计统计方案
我们猜想这些数字出现的规律满足由1开始逐渐递减,并且符合一定的函数关系。
为此,我们将采集大量数据,为了让数据满足“随机、自然出现”这个条件,我们对重庆沙坪坝、洋人街和北碚的商铺做了调查,调查对象为这些商店的月营业额.由于商店类型不同,所以它们的营销额差距也是相当大的,可以产生相差几个数量级的营销额,且不受太多人为因素的影响。
不要过多的选择同一地点且同一种商品的商店,那样可能将产生一些相似的数据。
按照不同的月份分为12组,那么每个商店将可以为我们提供出12个数据.例如,第一家一月份的营业额为38914元,第二家一月份营业额为4339元,第三家一月份营业额为985元,第四家……那第一组的数据便为:
38914、4339、985……之后,通过java编程统计,便能得到每个组中这九个数字在首位时
出现的概率。
之后再进行分析比对,于是得出结果。
为了验证该结果,我们同时也将对其他一些数据进行同样的统计分析,例如贴吧点击数、不同投票的结果等等。
5、统计结果
所有调查的商店每月份的营销额的首位数字数量及比列如下:
(第一行为首位数字,第二行为数据的个数,第三行为数据个数占总个数的百分数。
后面的表同此)
1
2
3
4
5
6
7
8
9
287
174
102
84
74
66
59
54
48
30。
4%
18。
10.7%
8。
8%
7.9%
6。
9%
6.3%
5。
6%
0%
6、通过对采集到的数据进行汇总和统计,我们发现在这些数据中,首位为1的出现概率远大于其他数字,并且接近于30%;
而2~9这些数字出现的概率不仅远小于1出现的概率,其出现概率也是符合逐级递减的规律。
并且符合数字越大递减的速率越慢的这一规律。
与前面的猜想一致。
7、误差分析
将我们得到的数据与标准值相比较得方差
σ=【(0。
304—0.301)^2+(0。
184-0。
176)^2+(0.107—0。
097)^2+(0.088—0.097)^2+(0。
079—0。
079)^2+(0.069—0。
067)^2+(0.063—0。
058)^2+(0.056-0。
051)^2+(0.050-0.046)^2】÷
9=0.0054
σ相对较小,所以此次验证比较准确。
于是我们得出结论,自然随机变量中,只要样本空间够大,那么数字1~9出现的概率并不是想象中的满足1/9,而是满足下图中所示线性规律:
7、资料搜索与自己理解
通过查阅相关资料,我们发现,自然出现的随机数据满足Benford定律——只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是1/9,而是30。
1%。
而以2为首的数字出现的频率是17。
6%,往后出现频率依次减少,9的出现频率最低,只有4。
6%。
对应不同的进位制其函数关系为:
其中,b为进位制,如采用10进位制,则b=10,如采用8进位制,则b=8;
d为首位数字(d=1、2、3·
·
b—1)
我们可以用使用二进制时来简单的检验一下这个结果
二进制中,以1开头的数占100%。
而按照本福特定律,二进制中,以1开头的数占P=ln2/ln2-ln1/ln2=100%.
完全符合.
从数数目来说,顺序从1开始数,1,2,3,...,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了.而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,.。
.,8起首的数.若果这样数法有个终结点,以1起首的数的出现率一般都比9大.
本福特定律产生的根源,就在于指数增长,如果要增长相同的高度,那么越在后面所需要的时间就会越少,也就是说从1增长到2所停滞的时间最长,所以这样的数据个数在自然界出现的概率也将会大一些。
然而从8到9的增长时间就很短了,这些数据自然会很少。
这幅图可以直观的显示,如果一个变量随时间成指数增长的话,那么这个变量开头的数字随着时间的变化就应该是如下图:
(横轴代表时间,纵轴代表那个变量)
显然,在某时刻你得到它以1开头的概率要大于9开头.而这是只取一个值的情况,如果是取大量的数据的话,在某时刻你观察到他以1开头的数据数量就大于以9开头的数量了.而指数增长的形式在自然界是十分普遍的,只要一个变量的增长率和他的大小成正比,结果就会是指数增长。
比如说人类科技发展的速度大致和已有的科技成果成正比,所以人类的科技发展就是个指数增长;
人口增长率会和已存在人口数成正比,因此没有资源限制的人口增长也是指数增长。
指数增长是自然中极为普遍的一种变化规律,而这种变化规律可以直接导致本福特定律。
而关于该定律严谨的证明,可以参考Hill,T。
P.“AStatisticalDerivationoftheSignificant-DigitLaw。
"
Stat。
Sci。
10,354—363,1996。
。
同时,我们也参考了2010年年末XX贴吧投票的结果,由于贴吧数量极大而且参与投票者极多,虽然存在刷票现象,但对整体并不造成极大影响。
但从减小误差考虑,我们只调查了当时贴吧人气大于1的部分参与人数多的贴吧,并按贴吧分类进行分组
动漫类贴吧:
首位数字数量及其比例
2286
843
723
441
427
383
278
258
176
39.3%
14.5%
12。
7.6%
7.3%
6%
4。
7%
4.5%
3。
人气为10000以上的贴吧数量:
2499
944
481
315
207
155
120
114
95
68
37。
8%
12.6%
3%
2%
3.8%
2。
于是不难发现,不管是营业额或者投票的排名都满足该定律,即首位出现1的概率最大,依次递减.
而对于那种按一定规律排序的,或者人为修饰过的数字则不满足上述规律,例如身份证号、电话号码等。
以下是对在校学生人数出生的数据统计分析得到的结果。
首位数字及其比例
988
1023
1056
946
1123
1307
896
954
1007
11.8%
12.0%
5%
11.2%
13.3%
15。
10。
11.3%
11。
可以看出,这种经过人为修饰后的数据与标准值相差甚大。
为什么会产生这样的原因?
人数之间数量级的波动并不大,几乎没有数量级的跨越,而且几乎是平均分配的,所以产生的比例也就接近于1:
1。
对于该定律的应用,发现在物理里面也同样满足,例如强子的宽度、统计物理的三个重要分布,Boltzmann—Gibbs分布,Bose—Einstein分布,Fermi—Dirac分布也基本遵循这个定律
8、数据仿真
采用1至100中的任意两个数、三个数、四个数·
十个数相乘产生
至
数量级的数字。
采用java编程,设计此程序,然后随机筛选出部分数据,按首位数进行统计得下表:
数据个数
3017
1765
1242
971
782
661
583
519
466
所占比例
0。
302
0.176
124
0.097
0.078
066
0.058
0.052
047
采用matlab作出函数图像如下:
得出其函数:
与已知的函数
相比较。
将两个函数作差得
将函数P(x)用泰勒公式在x=0处展开得:
所以g(x)几乎趋于0,也就是说f(x)与p(x)几乎相等。
所以模拟出来的结果与真实结果几乎相同。
9、理论分析
对此定律提出自己的看法,建立自己的模型。
设a〉1,
,
为以n为首的数字出现的概率。
则定义
为数a升到n的难度系数.那么再定义
为数字n—1上升到n的难度系数.那么我们可以想象从n—1上升到n的难度系数占总难度系数和的比例就是n—1为首的数字在所有随机出现的数字的概率。
因为上升的难度系数越大,首位数字停滞的时间越久,以此为开头的数据个数就越多。
对等式两边取b为底的对数得
令
得到
那么我们可以得到
10、最后化简可以得到公式
与已知公式完全一样.
11、总结
在贴吧的统计结果中,比标准值偏大,造成这项误差的原因,因为投票不可能是规律排布,所以只能是人为修饰,考虑到当时有刷票现象,所以判断出有可能是这个因素导致的误差偏大。
在处理一些数据时我们可以通过此方法来验证它是否造假。
所以综合以上所有统计结果,我们得出结论:
自然出现的数据满足Benford定律,即b进位制中,以数n起头的数出现的机率为
且有
与事实相符合。
而所选数据必须满足条件:
(1)数据不能是规律排序的;
(2)数据不能经过人为修饰。
通过此次统计调查,我们不但得出了随机数据出现的一般规律,而且也验证了Benford定律的正确性。
参考文献
[1]2005年6月2日明报D15版,《假帐克星—-本福特定律》,吴端伟博士
[2]2010年5月1日,新浪微博《Benford定律》,李淼
[3]FrankBenford:
Thelawofanomalousnumbers,ProceedingsoftheAmericanPhilosophicalSociety,78(1938),p.551
[4]TedHill:
Thefirstdigitphenomenon,AmericanScientist86(July—August1998),p。
358.
[5]HalVarian:
Benford'
slaw,AmericanStatistician26,p。
65。
[6]ScottPD&FasliM(2001)Benford'
sLaw:
Anempiricalinvestigationandanovelexplanation.CSMTechnicalReport349
[7]NigriniM(1996)AtaxpayercomplianceapplicationofBenford'
sLaw.JAmerTaxAssoc18,72—91
[8]ChoWKT,GainesBJ(2007)Breakingthe(Benford)law:
Statisticalfrauddetectionincampaignfinance。
AmerStat61,218–223
[9]Hill,T.P."
AStatisticalDerivationoftheSignificant—DigitLaw."
10,354-363,1996。
[10]LijingShao,Bo—QiangMa,FirstDigitDistributionofHadronFull