精品随机数的首位数字出现概率统计分析Word格式文档下载.docx

资源描述

精品随机数的首位数字出现概率统计分析Word格式文档下载.docx

《精品随机数的首位数字出现概率统计分析Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《精品随机数的首位数字出现概率统计分析Word格式文档下载.docx（9页珍藏版）》请在冰豆网上搜索。

精品随机数的首位数字出现概率统计分析Word格式文档下载.docx

3、分析问题

对于自然出现的这些数字0、1、2、3、4、5、6、7、8、9，如果按照一定的度量单位制，这里我们假设他们为十进制进位方式,且数字按固定比例增长，那么在首位数字较小时，首数增长得会很慢,这意味着首位数变化的速率会很慢，但是当首位数字增长后，随着首位数字变大,首位数字的值增长也会加快。

举个例子,假设股票市场上的指数一开始是1000点，并以每年10%的程度上升，那么要用7年多时间,这个指数才能从1000点上升到2000点的水平；

而由2000点上升到3000点只需要4年多时间；

但是，如果要让指数从10000点上升到20000点，还需要等7年多的时间。

也就是说，如果这些数据随机地出现，就算出现概率是等可能的，那么在一段时间内,我们看到的1出现的次数也将大于其他数字，所以这直接造成了首位数字是1出现的几率最大。

4、设计统计方案

我们猜想这些数字出现的规律满足由1开始逐渐递减,并且符合一定的函数关系。

为此，我们将采集大量数据，为了让数据满足“随机、自然出现”这个条件，我们对重庆沙坪坝、洋人街和北碚的商铺做了调查,调查对象为这些商店的月营业额.由于商店类型不同，所以它们的营销额差距也是相当大的，可以产生相差几个数量级的营销额，且不受太多人为因素的影响。

不要过多的选择同一地点且同一种商品的商店，那样可能将产生一些相似的数据。

按照不同的月份分为12组,那么每个商店将可以为我们提供出12个数据.例如，第一家一月份的营业额为38914元,第二家一月份营业额为4339元，第三家一月份营业额为985元，第四家……那第一组的数据便为：

38914、4339、985……之后，通过java编程统计，便能得到每个组中这九个数字在首位时

出现的概率。

之后再进行分析比对，于是得出结果。

为了验证该结果，我们同时也将对其他一些数据进行同样的统计分析，例如贴吧点击数、不同投票的结果等等。

5、统计结果

所有调查的商店每月份的营销额的首位数字数量及比列如下：

（第一行为首位数字，第二行为数据的个数，第三行为数据个数占总个数的百分数。

后面的表同此）

287

174

102

30。

4％

18。

10.7%

8。

8％

7.9%

6。

9％

6.3％

5。

6％

6、通过对采集到的数据进行汇总和统计，我们发现在这些数据中，首位为1的出现概率远大于其他数字，并且接近于30%；

而2～9这些数字出现的概率不仅远小于1出现的概率，其出现概率也是符合逐级递减的规律。

并且符合数字越大递减的速率越慢的这一规律。

与前面的猜想一致。

7、误差分析

将我们得到的数据与标准值相比较得方差

σ=【（0。

304—0.301）^2+（0。

184-0。

176）^2+（0.107—0。

097）^2+（0.088—0.097）^2+（0。

079—0。

079）^2+（0.069—0。

067）^2+（0.063—0。

058）^2+（0.056-0。

051）^2+（0.050-0.046）^2】÷

9=0.0054

σ相对较小，所以此次验证比较准确。

于是我们得出结论，自然随机变量中，只要样本空间够大，那么数字1~9出现的概率并不是想象中的满足1/9，而是满足下图中所示线性规律:

7、资料搜索与自己理解

通过查阅相关资料，我们发现，自然出现的随机数据满足Benford定律——只要数据的样本足够多，数据中以1为开头的数字出现的频率并不是1/9,而是30。

1％。

而以2为首的数字出现的频率是17。

6%，往后出现频率依次减少,9的出现频率最低，只有4。

6%。

对应不同的进位制其函数关系为：

其中,b为进位制，如采用10进位制,则b=10，如采用8进位制,则b=8;

d为首位数字（d=1、2、3·

b—1）

我们可以用使用二进制时来简单的检验一下这个结果

二进制中，以1开头的数占100%。

而按照本福特定律，二进制中，以1开头的数占P=ln2/ln2-ln1/ln2=100%.

完全符合.

从数数目来说，顺序从1开始数，1，2,3，...,9,从这点终结的话，所有数起首的机会似乎相同，但9之后的两位数10至19，以1起首的数又大大抛离了其他数了.而下一堆9起首的数出现之前，必然会经过一堆以2,3，4,.。

.，8起首的数.若果这样数法有个终结点，以1起首的数的出现率一般都比9大.

本福特定律产生的根源，就在于指数增长,如果要增长相同的高度，那么越在后面所需要的时间就会越少，也就是说从1增长到2所停滞的时间最长,所以这样的数据个数在自然界出现的概率也将会大一些。

然而从8到9的增长时间就很短了，这些数据自然会很少。

这幅图可以直观的显示,如果一个变量随时间成指数增长的话,那么这个变量开头的数字随着时间的变化就应该是如下图：

（横轴代表时间,纵轴代表那个变量）

显然，在某时刻你得到它以1开头的概率要大于9开头.而这是只取一个值的情况，如果是取大量的数据的话，在某时刻你观察到他以1开头的数据数量就大于以9开头的数量了.而指数增长的形式在自然界是十分普遍的，只要一个变量的增长率和他的大小成正比，结果就会是指数增长。

比如说人类科技发展的速度大致和已有的科技成果成正比，所以人类的科技发展就是个指数增长；

人口增长率会和已存在人口数成正比，因此没有资源限制的人口增长也是指数增长。

指数增长是自然中极为普遍的一种变化规律，而这种变化规律可以直接导致本福特定律。

而关于该定律严谨的证明，可以参考Hill,T。

P.“AStatisticalDerivationoftheSignificant-DigitLaw。

Stat。

Sci。

10，354—363，1996。

。

同时,我们也参考了2010年年末XX贴吧投票的结果，由于贴吧数量极大而且参与投票者极多,虽然存在刷票现象,但对整体并不造成极大影响。

但从减小误差考虑，我们只调查了当时贴吧人气大于1的部分参与人数多的贴吧,并按贴吧分类进行分组

动漫类贴吧：

首位数字数量及其比例

2286

843

723

441

427

383

278

258

176

39.3％

14.5%

12。

7.6％

7.3%

4。

7％

4.5％

3。

人气为10000以上的贴吧数量：

2499

944

481

315

207

155

120

114

37。

12.6%

3％

2％

3.8%

2。

于是不难发现，不管是营业额或者投票的排名都满足该定律，即首位出现1的概率最大,依次递减.

而对于那种按一定规律排序的，或者人为修饰过的数字则不满足上述规律，例如身份证号、电话号码等。

以下是对在校学生人数出生的数据统计分析得到的结果。

首位数字及其比例

988

1023

1056

946

1123

1307

896

954

1007

11.8％

12.0%

5％

11.2％

13.3％

15。

10。

11.3%

11。

可以看出，这种经过人为修饰后的数据与标准值相差甚大。

为什么会产生这样的原因?

人数之间数量级的波动并不大,几乎没有数量级的跨越,而且几乎是平均分配的，所以产生的比例也就接近于1：

1。

对于该定律的应用，发现在物理里面也同样满足,例如强子的宽度、统计物理的三个重要分布，Boltzmann—Gibbs分布，Bose—Einstein分布，Fermi—Dirac分布也基本遵循这个定律

8、数据仿真

采用1至100中的任意两个数、三个数、四个数·

十个数相乘产生

至

数量级的数字。

采用java编程,设计此程序，然后随机筛选出部分数据，按首位数进行统计得下表:

数据个数

3017

1765

1242

971

782

661

583

519

466

所占比例

0。

302

0.176

124

0.097

0.078

066

0.058

0.052

047

采用matlab作出函数图像如下：

得出其函数：

与已知的函数

相比较。

将两个函数作差得

将函数P（x）用泰勒公式在x=0处展开得：

所以g（x）几乎趋于0，也就是说f（x）与p（x）几乎相等。

所以模拟出来的结果与真实结果几乎相同。

9、理论分析

对此定律提出自己的看法,建立自己的模型。

设a〉1,

，

为以n为首的数字出现的概率。

则定义

为数a升到n的难度系数.那么再定义

为数字n—1上升到n的难度系数.那么我们可以想象从n—1上升到n的难度系数占总难度系数和的比例就是n—1为首的数字在所有随机出现的数字的概率。

因为上升的难度系数越大,首位数字停滞的时间越久，以此为开头的数据个数就越多。

对等式两边取b为底的对数得

令

得到

那么我们可以得到

10、最后化简可以得到公式

与已知公式完全一样.

11、总结

在贴吧的统计结果中，比标准值偏大，造成这项误差的原因，因为投票不可能是规律排布，所以只能是人为修饰,考虑到当时有刷票现象,所以判断出有可能是这个因素导致的误差偏大。

在处理一些数据时我们可以通过此方法来验证它是否造假。

所以综合以上所有统计结果，我们得出结论：

自然出现的数据满足Benford定律，即b进位制中,以数n起头的数出现的机率为

且有

与事实相符合。

而所选数据必须满足条件:

（1）数据不能是规律排序的；

（2）数据不能经过人为修饰。

通过此次统计调查，我们不但得出了随机数据出现的一般规律,而且也验证了Benford定律的正确性。

参考文献

［1］2005年6月2日明报D15版,《假帐克星—-本福特定律》,吴端伟博士

［2]2010年5月1日，新浪微博《Benford定律》，李淼

［3]FrankBenford:

Thelawofanomalousnumbers,ProceedingsoftheAmericanPhilosophicalSociety,78（1938），p.551

［4］TedHill：

Thefirstdigitphenomenon,AmericanScientist86（July—August1998），p。

358.

[5]HalVarian:

Benford'

slaw，AmericanStatistician26,p。

65。

[6］ScottPD＆FasliM（2001）Benford'

sLaw:

Anempiricalinvestigationandanovelexplanation.CSMTechnicalReport349

[7］NigriniM（1996）AtaxpayercomplianceapplicationofBenford'

sLaw.JAmerTaxAssoc18，72—91

[8］ChoWKT,GainesBJ（2007）Breakingthe（Benford）law：

Statisticalfrauddetectionincampaignﬁnance。

AmerStat61，218–223

[9]Hill,T.P."

AStatisticalDerivationoftheSignificant—DigitLaw."

10，354-363，1996。

［10]LijingShao，Bo—QiangMa，FirstDigitDistributionofHadronFull

展开阅读全文