Excel中地描述统计分析报告工具.docx
《Excel中地描述统计分析报告工具.docx》由会员分享,可在线阅读,更多相关《Excel中地描述统计分析报告工具.docx(15页珍藏版)》请在冰豆网上搜索。
Excel中地描述统计分析报告工具
Excel中的描述统计分析工具
Excel描述统计工具计算与数据的集中趋势、离中趋势、偏度、峰度等有关的描述性统计指标。
使用:
工具--数据分析--描述统计—汇总统计
输出结果解释:
平均
平均数或均值,
标准误差
,求总体均值的置信区间
中值
中位数,Md
模式
众数,Mo
标准偏差
标准差,S
样本方差
峰值
峰度,K
偏斜度
SK
区域
最小值
最大值
求和
计数
总体单位数,或样本容量,n
示例:
10年校园调查汇总数据
第一次随堂作业的有关事宜通知
1、作业完成地点:
北京大学校内
2、随堂作业时间:
本周五下午2:
30-4:
30
3、作业内容:
对10年校园调查的汇总数据进行描述统计分析,完成对一个指定主题的深入分析。
4、作业的具体内容:
届时参见网络平台的“作业”版块。
5、其他要求:
独立完成,不得与别人讨论交流。
第三部分推断统计
第四章概率论与数理统计基础
§1了解和认识随机事件与概率
北京市天气预报:
明天白天降水概率40%,它的含义是:
A明天白天北京地区有40%的地区有降雨;
B明天白天北京地区有40%的时间要下雨;
C明天白天北京地区下雨的强度有40%;
D明天白天北京地区下雨的可能性有40%;
E北京气象局有40%的工程师认为明天会下雨。
一、 必然现象与随机现象
1、必然现象:
可事前预言,即在准确地重复某些条件下,它的结果总是可以肯定的。
例:
太阳每天从东方升起
在标准大气压下,水加热到100摄氏度,就必然会沸腾
在欧式几何中,三角形的内角和总是180°
在北京大学,不及格科目达到1/3,一定拿不到毕业证
事物间的这种联系是属于必然性的。
通常的自然科学各学科就是专门研究和认识这种必然性的,寻求这类必然现象的因果关系,把握它们之间的数量规律。
2、随机现象:
一种可能发生,也可能不发生;可能这样发生,也可能那样发生的不确定现象。
在随机现象中,可能结果不止一个,且事前无法预知确切的结果。
也称偶然现象。
在自然界,在生产、生活中,随机现象十分普遍,也就是说随机现象是大量存在的。
例:
高考的结果
掷骰子的结果
学生对手机品牌的选择
随机抽取的交作业名单
今天来上统计学课的学生人数
这类现象是即使在一定的相同条件下,它的结果也是不确定的。
举例来说,同一个工人在同一台机床上加工同一种零件若干个,它们的尺寸总会有一点差异。
在同样条件下,进行小麦品种的人工催芽试验,各颗种子的发芽情况也不尽相同,有强弱和早晚的分别等等。
3、为什么会有随机现象
在这里,我们说的“相同条件”是指一些主要条件来说的,除了这些主要条件外,还会有许多次要条件和偶然因素又是人们无法事先一一能够掌握的。
正因为这样,我们在这一类现象中,就无法用必然性的因果关系,对个别现象的结果事先做出确定的答案。
事物间的这种关系是属于偶然性的,随机性的。
在同样条件下,多次进行同一试验或调查同一现象,所的结果不完全一样,而且无法准确地预测下一次所得结果,随机现象这种结果的不确定性,是由于一些次要的、偶然的因素影响所造成的。
4、随机现象的规律性
随机现象从表面上看,似乎是杂乱无章的、没有什么规律的现象。
但实践证明,如果同类的随机现象大量重复出现,它的总体就呈现出一定的规律性。
大量同类随机现象所呈现的这种规律性,随着我们观察的次数的增多而愈加明显。
比如掷硬币,每一次投掷很难判断是那一面朝上,但是如果多次重复的掷这枚硬币,就会越来越清楚的发现它们朝上的次数大体相同。
我们把这种由大量同类随机现象所呈现出来的集体规律性,叫做统计规律性。
概率论和数理统计就是研究大量同类随机现象的统计规律性的数学学科。
例:
生日的巧合
根据数学中的“抽屉定理”,我们可以预言,在366个人当中,一定有两个人的生日相同。
但是,根据概率论的计算,在k个人群中,至少有2个人生日一样的概率为:
k
p
k
p
5
0.027
25
0.569
10
0.117
30
0.706
15
0.253
40
0.891
20
0.411
50
0.970
22
0.476
60
0.994
23
0.507
…
计算思路:
首先计算k个人群的生日搭配一共有
种可能的情况;
然后计算k个人群中,没有任何2个人生日一样的可能情况有
种
接下来计算k个人群中,没有任何2个人生日一样的概率为:
然后计算在k个人群中,至少有2个人生日一样的概率为:
“你信仰掷骰子的上帝,我却信仰完备的定律和秩序。
”——爱因斯坦致玻尔的信
“我无论如何深信上帝不是在掷骰子。
”——爱因斯坦
爱因斯坦始终不放弃科学的自然因果律和确定性原则,这是他与玻尔得分歧所在
二、随机事件
1、随机试验
(1)试验可以在相同条件下重复进行;
(2)试验的结果不止一个,但所有可能结果都是明确可知的;
(3)每次试验总是恰好出现这些可能结果中的一个,但在试验之前却不能肯定究竟是出现哪一个结果。
例:
抛硬币
让一位顾客从两种商品中选出他/她更喜欢的一种
股票市场价格指数每天的变化
2、基本事件:
一次随机试验的可能结果
例:
抛硬币只可能出现两种结果:
正面或反面
掷骰子可能出现1、2、3、4、5、6六种结果
股票市场价格指数可能取值在(0,+∞)
3、随机事件:
随机试验的结果,一个随机事件可以包含多个基本事件
例:
掷骰子,“出现奇数”和“出现不小于4的数”就是两个事件
三、随机事件的概率
1、事件A的概率是描述事件A在实验中出现的可能性大小的一种度量。
2、对概率定义的解释
(1)概率的统计定义:
频率解释
频率的稳定性是通过大量的试验所得到的随机事件的规律性,这种规律性因此称为统计规律性。
概率的统计定义:
在不变的一组条件S下,重复作n次试验,m是n次试验中事件A发生的次数,当试验次数n很大时,如果频率m/n稳定地在某一数值p的附近摆动,且随着试验次数的增多,摆动的幅度越来越小,则称p为事件A在条件组S下发生的概率,记作:
例:
以下是北大经济学院00级成人教育学生,通过调查访问所收集的北京市场上消费者购买冰箱的情况。
他们一共访问了457个对象。
次数与频率分布表随机变量的概率分布表
冰箱品牌
购买人数
比重%
冰箱品牌X
概率pi%
海尔
131
28.67
1
28.67
伊莱克斯
58
12.69
2
12.69
西门子
41
8.97
3
8.97
新飞
34
7.44
4
7.44
LG
30
6.56
5
6.56
容声
30
6.56
6
6.56
…
…
…
…
…
容事达
1
0.22
20
0.22
总计
457
100
--
100
例:
A1986articleinNewsweekbythemathematicianJohnPaulosmakesthepointthatmostpeoplehavenograspoftheprobabilitiesofeventsthatmayaffectthemandtendtohavegreatfearofpublicizedeventswithsmallprobability,whilenotworryingatallabouteventswithmuchhigherprobability.Asanexample,Paulosgivesthefollowingdata:
In1985,28millionAmericanstraveledabroad,and39ofthemwerekilledbyterrorists.Butinthesameyear,1in5300Americanswaskilledinanautomobileaccident.
Probabilityofbeingkilledbyterrorists=39/28,000,000=1.393*10-6
Probabilityofbeingkilledinanautomobileaccident=1/5300=1.887*10-4
(2) 概率的古典定义,起源与赌博,如掷硬币、掷骰子
核心思想:
等可能的结果,概率总和为1。
古典概率模型特点:
试验的结果有限、各个结果出现的可能性相等
m:
事件A所包含的基本事件的个数;
n:
随机实验所包含的全部基本事件的个数
(3)概率的几何定义
集合概率若随机试验中的基本事件有无穷多个,且每个基本事件发生是等可能的,这时就不能使用古典概率,于是产生了几何概率。
几何概率的基本思想是把事件与几何区域对应,利用几何区域的度量来计算事件发生的概率,
定义:
设区域G的长度(或面积、体积)为D,质点可以等可能地落在区域G中的任何一点,设事件A=“质点落在G内一个长度(面积、体积)为d的区域g内”,定义A的概率为:
P(A)=d/D为几何概率。
例:
一个质点在数轴上[0,5]区间上作随机运动,五分钟后停止,求下述事件的概率:
(1)A=“该点落在[1,2]上的概率”;
P(A)=(2-1)/(5-0)=0.2
(2)B=“该点落在(1,2)上的概率”;
P(B)=(2-1)/(5-0)=0.2
(3)C=“该点落在(0,5)上的概率”;
P(C)=5/5=1
(4)D=“该点落在3上的概率”
P(D)=0
(4)主观概率
面对不确定性,由个人判断某事件发生的可能性大小。
基于个人的经验、观点或对特定情况分析而作出的对某一事件发生可能性的推测。
例:
新产品市场成功的概率
经济增长波动的概率
四、 概率性质
对于概率的3个定义,概率具有下述性质:
性质1对于任一随机事件A,有:
性质2设事件
互不相容,即它们当中只能有一个最终发生,则
事件的和表示或者
,或者
,…,或者
发生。
性质3如果一个样本空间(一次随机试验所有可能结果的集合)所包括的所有事件为
,则
事件
称为必然事件。
补充说明:
必然事件发生的概率为1,不可能事件发生的概率为零,即
但要注意:
概率为1的事件并不必然发生,而概率为零的事件也绝不是不可能发生。
例如:
一个均匀的质点在区间[a,b]上作随机运动,它落在[a,b]区间内某一个具体的点,例如点c的可能性为零,但这绝不是不会发生的;落在开区间(a,b)内的可能性为1,但它还是有可能落在a或b这两个端点上,不在(a,b)内。
亚里斯多德说过:
“不可能事件(在这里,指的是概率为零的事件)将会发生,这正是概率的特性。
”
§2 随机变量与概率分布
一、随机变量
随机变量:
用数值描述事件的结果。
某个随机事件在试验中可能取得的不同数值。
由机会确定的具有不同取值的变量。
例:
用Z表示所调查对象的性别
Z=0,如果调查对象为女性;
Z=1,如果调查对象为男性。
用X表示消费者所购买的冰箱品牌
X=1,如果消费者购买的是海尔冰箱;
X=2,如果消费者购买的是新飞冰箱;
X=3,如果消费者购买的是西门子冰箱;
X=4,如果消费者购买的是伊莱克斯冰箱;
…
用Y表示消费者的家庭月收入
Y=1000,2000,…,12000,…
特点:
(1)变量的取值是随机的(变量出现什么值是随机的);
(2)变量出现某个数值的概率是确定的。
很多随机现象的试验结果都是可以用数值表示的,因此用随机变量来表示事件是没有问题的。
二、离散型随机变量与概率分布
1、离散型随机变量:
如果随机变量X只能取到有限个或可数个数值,则称X是离散型随机变量。
2、离散型随机变量的概率分布
用一系列等式或表格来表示每个随机变量X取值的概率,即为离散型随机变量X的概率分布。
X
…
…
…
…
例如:
10件同样的产品中有2件次品,从中任取2件,取出的两件产品中次品的个数X为随机变量,它的概率分布可以表示如下:
=28/45;
=16/45
由概率的性质可知,随机变量X的概率分布应满足以下条件:
(1)0P(Xi)1
(2)P(Xi)=1
3、离散型随机变量的累积概率分布
三、几种重要的离散型随机变量及其概率分布
1、贝努里分布JamesBernoulli
(1)定义
在许多试验中,对每次试验而言,试验结果只有两种可能:
yesorno;successorfailure。
如抛掷硬币、产品检验、新生儿性别等试验。
这种一次试验只有两种结果的试验称为贝努里试验。
若把贝努里试验中某事件出现的结果记为事件A,则另一种结果就是事件A的对立事件
,记事件A出现的概率为
,事件出现的概率为
,令试验结果为随机变量X并对其赋值为X=1(当事件A出现)或X=0(当事件A不出现),则X的概率分布为:
即
则称X服从参数为p的贝努里分布。
(2)对贝努里分布的实验观察
运用Excel中的随机数发生器工具
2、二项分布
故事:
一个由多国遗传学家组成的研究小组的研究显示,中亚有逾1600万男子拥有与历史上的蒙古领袖成吉思汗相同的男性Y染色体,这意味着,全球每200名在世的男性中,便有一人是成吉思汗的后人。
我们考虑这样一个问题。
现随机地从全世界选取50名男性,恰好有一人是成吉思汗后人的概率是多少?
两人、十人的概率又为多少?
对于随机试验中的每个男性,他是成吉思汗后人的的概率都是1/200,显然这个试验符合贝努里试验的条件,每次选取都相当于进行了1次贝努里试验,50人次的随机选区就相当于进行了50次独立的贝努里试验,n次随机选择相当于进行n次独立的贝努里试验,称为n重贝努里试验。
n重贝努里试验即意味着在相同的条件下独立地进行多次同样的试验,对于每次试验而言,试验的结果只有两个:
成功或失败,成功的概率为p(在这个例子中即为是成吉思汗后人的概率1/200),失败的概率为1-p,且每次试验结果是互不影响的。
类似的例子还有:
一批五件产品中合格品的个数
在33个考试题中回答正确的题数
100位进入店内的顾客中买东西的顾客人数
这样,在n重贝努里试验中,事件A发生的概率为p,则A在n次试验中发生x次的概率为:
(1)定义:
如果随机变量X的分布如下:
则称X服从参数为(n,p)的二项分布,用记号X~B(n,p)表示,n,p分别为二项分布的两个参数。
它的累积分布函数为
。
例:
掷一枚质地均匀的硬币,重复地掷5次,记正面向上的次数为随机变量X,
(1)求X=2的概率;
(2)若分币质地不均匀,出现正面的概率为2/3,求重复掷5次时X=2的概率。
解:
(1)
=5/16=0.3125
(2)
=40/243=0.165
当n=1时,随机变量X服从贝努里分布。
可见,参数为p的贝努里分布是二项分布的一个特例。
(2)二项分布图形的特征
服从二项分布的随机变量的概率分布受n和p的影响,所以n,p是二项分布的两个参数。
二项分布的图形就由这两个参数确定。
当p<0.5时,正偏(positiveskewness);p>0.5时,负偏(negativeskewness);当p=0.5时,对称(symmetric)
当p=0.5时,二项分布是一个对称的分布,当p0.5时,二项分布就不是对称的了;
此外,二项分布还随着n的增加而趋向对称,n越大,图形越对称。
一个小程序
http:
//ideal.stat.wvu.edu:
8080/ideal/resource/modules/Binomial/juveniles.html
(3)二项分布值的计算
运用函数Binomdist
Binomdist(x,n,p,false)=
,得到
的概率值
Binomdist(x,n,p,true)=
得到
的累积概率值
Falseortrue是对“输出结果是否为累积概率”的逻辑判断。
书上例子
例5.31某商店饮料的销售量中40%为果汁类饮料。
现随机调查5位顾客,问有2人购买果汁饮料的概率是多少?
2人以上购买果汁饮料的概率是多少?
解:
设随机变量X为购买果汁饮料的顾客人数,显然X~B(5,0.4),
P(X=2)==Binomdist(2,5,0.4,false)=0.3456
P(X2)=1-P(X2)=1-F(X=2)
=1-
=1-Binomdist(2,5,0.4,true)=0.31744