精品随机数的首位数字出现概率统计分析.docx

上传人:b****5 文档编号:7382999 上传时间:2023-01-23 格式:DOCX 页数:9 大小:131.17KB
下载 相关 举报
精品随机数的首位数字出现概率统计分析.docx_第1页
第1页 / 共9页
精品随机数的首位数字出现概率统计分析.docx_第2页
第2页 / 共9页
精品随机数的首位数字出现概率统计分析.docx_第3页
第3页 / 共9页
精品随机数的首位数字出现概率统计分析.docx_第4页
第4页 / 共9页
精品随机数的首位数字出现概率统计分析.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

精品随机数的首位数字出现概率统计分析.docx

《精品随机数的首位数字出现概率统计分析.docx》由会员分享,可在线阅读,更多相关《精品随机数的首位数字出现概率统计分析.docx(9页珍藏版)》请在冰豆网上搜索。

精品随机数的首位数字出现概率统计分析.docx

精品随机数的首位数字出现概率统计分析

随机数的首位数字出现概率统计分析

西南大学2011级

朱熹朱心阳周亚晶

何龙刘伟田宸宇

内容摘要:

本文运用一系列统计方法对学生人数进行统计分析,以及自己对实验现象的隐含的原理的猜测、证明。

实验结果表明:

a)首位数字是1的数字出现的几率最大,依次是2至9逐个递减.并且满足一定的函数关系.b)所有数字所在的数量级一定要有很大的差距,不然无法得出这个结论。

c)所统计的数字一定不要受太大的人为因数影响。

以此定律,我们可以检验一些记账的数据是否被私自删改,以及比赛投票的结果的检验复查,防止一些简单的造假行为。

关键词:

统计分析;首位数字;数量级;随机

1、引言

2001年,美国最大的能源交易商安然公司宣布破产,当时传出了该公司高层管理人员涉嫌做假账的传闻。

事后人们发现,安然公司在2001年到2002年所公布的每股盈利数字就不符合本福特定律,这证明了安然的高层领导确实改动过这些数据。

如今做假账这些行为应当严厉打击,也许在次定律发现之前,做的一些假账逃过了法律的制裁。

传闻1935年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这就说明了前几页翻阅得跟多,由此本福特发现了这一定律.本福特定律看似不符合逻辑,实质上它是经得起检验的.为此我们作出此次统计调查再一次亲身感受结论的正确性,同时我们也将作出自己的猜想,以及自己对定律的理解。

2、提出问题

对于自然出现的数字的首位数,是否1~9这九个数字的出现概率一定为1/9?

如果不是,那它们将满足什么关系?

为什么会出现不等于1/9这种情况?

这种规律能否在实际生活工作中应用?

能不能对此有一个直观的理解?

这就是本次统计方案设计大赛我们队所研究的课题——首位数字出现几率的概率统计。

3、分析问题

对于自然出现的这些数字0、1、2、3、4、5、6、7、8、9,如果按照一定的度量单位制,这里我们假设他们为十进制进位方式,且数字按固定比例增长,那么在首位数字较小时,首数增长得会很慢,这意味着首位数变化的速率会很慢,但是当首位数字增长后,随着首位数字变大,首位数字的值增长也会加快。

举个例子,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由2000点上升到3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。

也就是说,如果这些数据随机地出现,就算出现概率是等可能的,那么在一段时间内,我们看到的1出现的次数也将大于其他数字,所以这直接造成了首位数字是1出现的几率最大。

4、设计统计方案

我们猜想这些数字出现的规律满足由1开始逐渐递减,并且符合一定的函数关系。

为此,我们将采集大量数据,为了让数据满足“随机、自然出现”这个条件,我们对重庆沙坪坝、洋人街和北碚的商铺做了调查,调查对象为这些商店的月营业额.由于商店类型不同,所以它们的营销额差距也是相当大的,可以产生相差几个数量级的营销额,且不受太多人为因素的影响。

不要过多的选择同一地点且同一种商品的商店,那样可能将产生一些相似的数据。

按照不同的月份分为12组,那么每个商店将可以为我们提供出12个数据.例如,第一家一月份的营业额为38914元,第二家一月份营业额为4339元,第三家一月份营业额为985元,第四家……那第一组的数据便为:

38914、4339、985……之后,通过java编程统计,便能得到每个组中这九个数字在首位时

出现的概率。

之后再进行分析比对,于是得出结果。

为了验证该结果,我们同时也将对其他一些数据进行同样的统计分析,例如贴吧点击数、不同投票的结果等等。

5、统计结果

所有调查的商店每月份的营销额的首位数字数量及比列如下:

(第一行为首位数字,第二行为数据的个数,第三行为数据个数占总个数的百分数。

后面的表同此)

1

2

3

4

5

6

7

8

9

287

174

102

84

74

66

59

54

48

30。

4%

18。

4%

10.7%

8。

8%

7.9%

6。

9%

6.3%

5。

6%

5。

0%

6、通过对采集到的数据进行汇总和统计,我们发现在这些数据中,首位为1的出现概率远大于其他数字,并且接近于30%;而2~9这些数字出现的概率不仅远小于1出现的概率,其出现概率也是符合逐级递减的规律。

并且符合数字越大递减的速率越慢的这一规律。

与前面的猜想一致。

7、误差分析

将我们得到的数据与标准值相比较得方差

σ=【(0。

304—0.301)^2+(0。

184-0。

176)^2+(0.107—0。

097)^2+(0.088—0.097)^2+(0。

079—0。

079)^2+(0.069—0。

067)^2+(0.063—0。

058)^2+(0.056-0。

051)^2+(0.050-0.046)^2】÷9=0.0054

σ相对较小,所以此次验证比较准确。

于是我们得出结论,自然随机变量中,只要样本空间够大,那么数字1~9出现的概率并不是想象中的满足1/9,而是满足下图中所示线性规律:

7、资料搜索与自己理解

通过查阅相关资料,我们发现,自然出现的随机数据满足Benford定律——只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是1/9,而是30。

1%。

而以2为首的数字出现的频率是17。

6%,往后出现频率依次减少,9的出现频率最低,只有4。

6%。

对应不同的进位制其函数关系为:

其中,b为进位制,如采用10进位制,则b=10,如采用8进位制,则b=8;d为首位数字(d=1、2、3······b—1)

我们可以用使用二进制时来简单的检验一下这个结果

二进制中,以1开头的数占100%。

而按照本福特定律,二进制中,以1开头的数占P=ln2/ln2-ln1/ln2=100%.

完全符合.

从数数目来说,顺序从1开始数,1,2,3,...,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了.而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,.。

.,8起首的数.若果这样数法有个终结点,以1起首的数的出现率一般都比9大.

本福特定律产生的根源,就在于指数增长,如果要增长相同的高度,那么越在后面所需要的时间就会越少,也就是说从1增长到2所停滞的时间最长,所以这样的数据个数在自然界出现的概率也将会大一些。

然而从8到9的增长时间就很短了,这些数据自然会很少。

这幅图可以直观的显示,如果一个变量随时间成指数增长的话,那么这个变量开头的数字随着时间的变化就应该是如下图:

(横轴代表时间,纵轴代表那个变量)

显然,在某时刻你得到它以1开头的概率要大于9开头.而这是只取一个值的情况,如果是取大量的数据的话,在某时刻你观察到他以1开头的数据数量就大于以9开头的数量了.而指数增长的形式在自然界是十分普遍的,只要一个变量的增长率和他的大小成正比,结果就会是指数增长。

比如说人类科技发展的速度大致和已有的科技成果成正比,所以人类的科技发展就是个指数增长;人口增长率会和已存在人口数成正比,因此没有资源限制的人口增长也是指数增长。

指数增长是自然中极为普遍的一种变化规律,而这种变化规律可以直接导致本福特定律。

而关于该定律严谨的证明,可以参考Hill,T。

P.“AStatisticalDerivationoftheSignificant-DigitLaw。

"Stat。

Sci。

10,354—363,1996。

同时,我们也参考了2010年年末XX贴吧投票的结果,由于贴吧数量极大而且参与投票者极多,虽然存在刷票现象,但对整体并不造成极大影响。

但从减小误差考虑,我们只调查了当时贴吧人气大于1的部分参与人数多的贴吧,并按贴吧分类进行分组

动漫类贴吧:

首位数字数量及其比例

1

2

3

4

5

6

7

8

9

2286

843

723

441

427

383

278

258

176

39.3%

14.5%

12。

4%

7.6%

7.3%

6。

6%

4。

7%

4.5%

3。

0%

人气为10000以上的贴吧数量:

2499

首位数字数量及其比例

1

2

3

4

5

6

7

8

9

944

481

315

207

155

120

114

95

68

37。

8%

37。

8%

12.6%

8。

3%

6。

2%

4。

8%

4。

6%

3.8%

2。

7%

于是不难发现,不管是营业额或者投票的排名都满足该定律,即首位出现1的概率最大,依次递减.

而对于那种按一定规律排序的,或者人为修饰过的数字则不满足上述规律,例如身份证号、电话号码等。

以下是对在校学生人数出生的数据统计分析得到的结果。

首位数字及其比例

1

2

3

4

5

6

7

8

9

988

1023

1056

946

1123

1307

896

954

1007

11.8%

12.0%

12。

5%

11.2%

13.3%

15。

5%

10。

6%

11.3%

11。

9%

可以看出,这种经过人为修饰后的数据与标准值相差甚大。

为什么会产生这样的原因?

人数之间数量级的波动并不大,几乎没有数量级的跨越,而且几乎是平均分配的,所以产生的比例也就接近于1:

1。

对于该定律的应用,发现在物理里面也同样满足,例如强子的宽度、统计物理的三个重要分布,Boltzmann—Gibbs分布,Bose—Einstein分布,Fermi—Dirac分布也基本遵循这个定律

8、数据仿真

采用1至100中的任意两个数、三个数、四个数······十个数相乘产生

数量级的数字。

采用java编程,设计此程序,然后随机筛选出部分数据,按首位数进行统计得下表:

1

2

3

4

5

6

7

8

9

数据个数

3017

1765

1242

971

782

661

583

519

466

所占比例

0。

302

0.176

0。

124

0.097

0.078

0。

066

0.058

0.052

0。

047

采用matlab作出函数图像如下:

得出其函数:

与已知的函数

相比较。

将两个函数作差得

将函数P(x)用泰勒公式在x=0处展开得:

所以g(x)几乎趋于0,也就是说f(x)与p(x)几乎相等。

所以模拟出来的结果与真实结果几乎相同。

9、理论分析

对此定律提出自己的看法,建立自己的模型。

设a〉1,

为以n为首的数字出现的概率。

则定义

为数a升到n的难度系数.那么再定义

为数字n—1上升到n的难度系数.那么我们可以想象从n—1上升到n的难度系数占总难度系数和的比例就是n—1为首的数字在所有随机出现的数字的概率。

因为上升的难度系数越大,首位数字停滞的时间越久,以此为开头的数据个数就越多。

对等式两边取b为底的对数得

得到

那么我们可以得到

10、最后化简可以得到公式

与已知公式完全一样.

11、总结

在贴吧的统计结果中,比标准值偏大,造成这项误差的原因,因为投票不可能是规律排布,所以只能是人为修饰,考虑到当时有刷票现象,所以判断出有可能是这个因素导致的误差偏大。

在处理一些数据时我们可以通过此方法来验证它是否造假。

所以综合以上所有统计结果,我们得出结论:

自然出现的数据满足Benford定律,即b进位制中,以数n起头的数出现的机率为

且有

与事实相符合。

而所选数据必须满足条件:

(1)数据不能是规律排序的;

(2)数据不能经过人为修饰。

通过此次统计调查,我们不但得出了随机数据出现的一般规律,而且也验证了Benford定律的正确性。

参考文献

[1]2005年6月2日明报D15版,《假帐克星—-本福特定律》,吴端伟博士

[2]2010年5月1日,新浪微博《Benford定律》,李淼

[3]FrankBenford:

Thelawofanomalousnumbers,ProceedingsoftheAmericanPhilosophicalSociety,78(1938),p.551

[4]TedHill:

Thefirstdigitphenomenon,AmericanScientist86(July—August1998),p。

358.

[5]HalVarian:

Benford'slaw,AmericanStatistician26,p。

65。

[6]ScottPD&FasliM(2001)Benford'sLaw:

Anempiricalinvestigationandanovelexplanation.CSMTechnicalReport349

[7]NigriniM(1996)AtaxpayercomplianceapplicationofBenford'sLaw.JAmerTaxAssoc18,72—91

[8]ChoWKT,GainesBJ(2007)Breakingthe(Benford)law:

Statisticalfrauddetectionincampaignfinance。

AmerStat61,218–223

[9]Hill,T.P."AStatisticalDerivationoftheSignificant—DigitLaw."Stat。

Sci。

10,354-363,1996。

[10]LijingShao,Bo—QiangMa,FirstDigitDistributionofHadronFull

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1