应用统计学.docx
《应用统计学.docx》由会员分享,可在线阅读,更多相关《应用统计学.docx(21页珍藏版)》请在冰豆网上搜索。
应用统计学
应用统计学
第一章
1•近代统计学的先驱,数理统计学派的奠基人:
凯特勒
2.SPSS是目前世界上最优秀的统计分析软件之一。
3•标志:
指用来说明总体单位属性或数量特征的概念或名称。
分类:
性质:
品质标志和数量标志变异情况:
不变标志和可变标志
4•指标:
是统计指标的简称,是综合反映统计总体数量特征的概念及其数值。
统计总体是指标的载体,是指标的承担者。
分类:
性质:
数量指标和质量指标
5.统计总体的特点:
(1)客观性
(2)大量性(3)同质性(4)差异性或变异性
第二章
1.统计调查:
是根据统计研究的目的和任务,运用科学的调查方式和
方法,有组织有计划地搜集被研究对象的有关数据的过程,又称统计
资料搜集。
2.统计调查的基本要求:
(1)准确性
(2)及时性(3)完整性(4)系统性(5)经济性
3•试述统计调查的种类
(一)按调查对象包括的范围的不同,分为全面调查和非全面调查
(二)登记时间的连续性不同,分为经常性调查和一次性调查
(三)组织方式不同,分为统计报表制度和专门调查
(四)搜索资料的方法不同,分为直接观察法、报告法、采访法、问卷法、通信法和网络调查法等
4.专门调查:
普查重点调查典型调查抽样调查
普查:
是为了某一特定的目的而专门组织的一次性全面调查。
抽样调查:
是指从研究的总体中抽取一部分单位作为样本进行调查,
以样本指标推算总体指标的一种非全面调查。
5•数据的量化尺度:
定类尺度、定序尺度、定距尺度、定比尺度
(由低到高,由粗略到精确)
第三章
1.统计整理的内容:
初级资料的整理和次级资料的整理
统计整理的程序:
1.设计整理方案2.审核统计资料3.统计分组和汇总
4.编制统计图表5.积累和保管统计资料
2.统计分组的作用:
(12届考试考点)
a.发现现象的特点和规律。
b.划分现象的类型
3选择分组标志的原则:
(1)应根据统计研究的目的和任务来选择分组标志。
(2)应选择最能够反映客观现象本质特征的标志作为分组标志
(3)应结合研究现象所处的历史条件或经济条件来选择分组标志
4.统计表的种类
(1)作用
调查表、整理或汇总表和分析表
(2)性质
时间数列表、空间数列表和时空数列结合表
(3)分组情况
简单表、简单分组表和复合分组表
异距数列
第四章
1•平均指标的作用:
反映总体分布的集中趋势
常用的平均指标:
算术平均数、调和平均数、几何平均数、众数、
中位数2.变异指标又称标志变动度,是反映总体单位变量值之间差异程度的综合指标。
变异指标的作用
A.是衡量平均指标代表性的尺度
B.可用来研究现象的稳定性和均衡性
C在抽样调查和相关分析中有着重要作用
3•判断平均指标代表性大小的方法:
全距、四分位差、平均差、方差、
标准差、变异系数
第六章
连续型随机变量概率分布
2.概率分布:
是由随机变量的所有可能取值及相应的概率所组成的分
布数列,反映随机变量的分布状况和特征期望值:
反映随机变量集中趋势变异数:
反映随机变量在均值周围的离散程度,即离散趋势第七章
1.正态分布:
又称常态分布或高斯分布,是一种非常重要的连续型随机变量的概率分布。
2.二项分布重要特征值和性质:
a.二项分布为离散型随机变量分布b.当p=0.5时图形对称
c.数学期望E(x)=[1=np变异数:
D(x)=c=npq
3.正态分布的重要特征值和性质
(1)期望值E(x)=1且i=Me=?
(2)方差(变异数)D(x)=
2
(3)偏态系数a=0(4)峰态系数B=3
重要性质:
(1)对称性,以x=1呈钟形对称
(2)在x=1处,概率密度?
(x)最大;离u越远,x的概率越小。
(3)正态分布曲线有两个拐点,分别在x=1±。
处,左右两尾与横轴渐近,但不与横轴相交
(4)正态分布曲线的位置是由1决定的,外形由c确定。
(5)正态分布曲线下的面积是固定的,与x轴所围成的面积恒等于1.
4.标准正态分布重要特征值和性质:
(p126)
特征值:
①曲线关于纵轴对称,最大值?
(z=0)=1②期望值E(Z)=0
方差D(Z)=1④?
(-z)二?
(z)
⑤(-汽0)严格上升,(0,+x)严格下降
⑥不与x轴相交
5.卡方分布片的重要性质:
是一种连续型随机变量的概率分布。
2(n)()2Zi2(i1,2,n)
①随机变量分布’不是正态分布,「恒为正值,总面积为1
*2,*分布呈L型;nix(n>30),
②期望值EC)二n方差DO)=2n③•分布是一个连续非对称分布,
:
趋于正态分布2(n)1(Z、-2n1)2
2
7■?
丁77
④*具有可加性X’(nJ+(n2)+•••+(ni)=(
⑤可推出样本方差S2分布,即:
(n?
S~2(n1)6.F分布重要性质:
是连续型随机变量的一种重要的小样本分布。
①F恒取正值,面积为1,
②连续的非对称分布,ni2,F分布呈L型,ni>2,F分布呈钟形,ni,
F趋于对称
③F分布具有一定的反对称性,即:
若F(ni,n»是F的分布函数,有
x
7.t分布重要性质:
t分布又称学生分布ts~t(n1)
/屛
1期望值E()=0(n>1)方差(变异数)D(t)二丄(n>2)
n2
n=1,期望值、方差不存在
2关于t=0对称(不是正态分布)故有t(n)t1(n)
N(0,1)n?
t分
③limf(t)1e"即:
t(n)n
n■.2
布趋近于标准正态分布(n>30)
第八章
1•原假设:
又称零假设或虚无假设,是需要通过样本区推断其正确与否的假设,用H。
表示。
备择假设:
也称为替换假设或研究假设,它是与原假设争锋相对的,是拒绝原假设后可供选择的假设,用H1表示。
显著性水平:
是假设检验中判断样本统计统计量与总体参数是否有显著性差异的标准。
小概率事件:
是指在一次试验中几乎不可能发生的,即发生概率很小
的随机事件
2•什么是假设检验?
假设检验的基本步骤有哪些?
是未知的总体参数及其分布先作出假设,然后抽取样本,利用样本提
供的信息对假设的正确性进行判断的过程与方法。
5个基本步骤:
1建立假设,即提出一个原假设和一个备择假设
2,确定检验统计量3,规定显著性水平
4计算检验统计量的值5,作出统计决策
3•如何建立原假设和备择假设?
(1)将你想要研究(或证明)的命题设为备择假设。
原假设和备择假设不是随意提出的,应根据所检验问题的具体背景来定。
常常是采取“不轻易拒绝原假设”的原则,即把没有充分理由不能轻易否定的命题作为原假设,相应地,把没有足
够把握就不能轻易肯定的命题作为备择假设。
要注意的是,原假设和备择假设应包括所要检验问题的所有可能结果。
(2)将等号放在原假设。
无论
是双侧还是单侧检验,原假设始终要包含总体参数等于某一数值。
一、单一总体均值的假设检验:
1.Z检验法:
Eg:
—街区的家庭的平均年收入是24500元,标准差是3000元,这次调查共随机抽取了100个家庭,样本的家庭平均年收入是25300元。
该研究人员是否有理由怀疑该样本有偏估(选用
0.05)
解:
建立假设:
由于研究者怀疑抽样调查对中上收入家庭抽的过多,所以采用右侧检验:
H。
:
24500元,Hi:
>24500
确定检验统计量:
由于总体是否为正态分布不清,但总体方差已
知且为大样本,故采用Z检验法
由题中0.05,因为是右侧检验,由P(Z>Z)=查表可知
Z1.65,故可接受区域为(-,65)拒绝区域为(1.65,)
由题意知:
x25300元,°24500元,3000,n100故检验统计
2530023400
3000—/<100
因为2.67>1.65,落在拒绝区域内,所以拒绝H。
,接受H1,即否定原假设,,该研究人员有理由怀疑该样本有偏估
2.t检验法:
2
条件:
总体分布、总体方差未知,已知小样本、
平均数,方差S2,自由度n-1的t分布
Eg:
已知初婚年龄服从正态分布,根据9个人的抽样调查有:
x23.0岁,S3岁。
问是否可以认为该地区平均初婚年龄已超过20
岁(0.01)?
解:
根据题意,采用右侧检验,故可作如下假设:
H0:
20岁,比:
20岁
由于n很小,又不知总体标准差,因此用样本标准差代替,采用
t检验统计量:
tX0S\n
由题中知:
0.01,自由度为n-仁8,因为是右侧检验,查表知:
t2.896故接受区域为t2.896,拒绝区域为t2.896
已知n=9,x23.0岁,S3岁。
代入t检验统计量,得:
由于t=3.0>2.896,所以拒绝原假设,接受备择假设,即可以认为
该地区平均初婚年龄已超过20
二、两个总体均值之差的假设检验:
婚后生活的态度分成“不满意”和“满意”两组。
从“不满意”组随机抽出500名妇女,其平均婚龄为X19.2年,标准差Si2.8年;从“满意”组抽出600名
妇女,其平均婚龄X28.5年,标准差为S22.3年,试问在0.05的显著性水平上两组是否存在显著性差异?
解:
问题归结为0.05下,检验假设:
Ho:
i2,Hi:
i2
原假设等价于120,而备择假设等价于120,因此以XiX2为
核心,通过包装确定检验统计量,由题意知:
2.3,n1500,n2600
4.47
X19.2,X28.5,S12.8,S2
将它们代入检验统计量Z中,得:
9.2-8.5
2.822.32
500600
由题中知,a=0.05,因为是双侧检验,查表可得,Z=1.96,故拒绝区域为|z|>1.96
因为Z=4.47>1.96落在拒绝区域内,所以拒绝原假设,接受备择假设,即可以认为在0.05的显著性水平上,婚龄对妇女婚后生活的态度是有影响的。
2.t检验法:
(人X2)(!
2)
条件:
两个总体方差未知但相等,小样本,样本方差作为总体方差的估计值。
Eg:
某市对儿童体重进行调查,抽查8岁的女孩20人,平均体重22.2kg,标准差2.46kg;抽查8岁男孩18人,平均体重21.3kg,标准差1.82kg。
若男女儿童体重的总体方差相等,问在显著性水平5%上,该年龄男女儿童之体重有无显著性差异?
解:
依题意设:
Ho:
12,H1:
12
将相关数据代入,计算检验统计量得:
(XiX2)(12)
因为a=0.05,自由度为20+18-2=36,查t分布表可得临界值
t=2.028,故拒绝区域为|t|>2.0280
由于t=1.27<2.028,落在接受区域内,所以接受H0,拒绝H1,即认为男女儿童平均体重无显著性差异。
三、单一总体成数的假设检验:
某保险公司希望估计一下其所在城市的居民参加财产保险的比例,以掌握财产保
险业务的潜力,据初步估算有80%以上的居民参加了财产保险。
为了掌握具体的统计资料,统计人员调查了150户居民,了解到有70%的居民参加了财产保险,试问在0.05的显著性水平下,调查得到的数据是否充分支持公司的初步估算“有80%以上的居民参加了财产保险”?
解:
根据题意可知,F0=0.8,n=150,p=0.7a=0.05由于该保险公司估算是否有80%以上的居民参加了财产保险,现在需要根据调查的数据检验该公司的估算是否属实。
我们希望其估算是正确的,因此采用总体
成数的右侧检验。
故可建立以下假设:
Ho:
P0.8,Hi:
P0.8
1500.3455,所以采用正态
由于np1500.71055,n(1p)
pP。
因为a=0.05,查Z值表得临界值Z=1.65,所以确定原假设得拒绝区域为[1.65,+
OO
将相关数据代入,计算检验统计量得:
因为-3.062<1.65(Z的取值落在接受区域内),所以接受H。
,而拒绝比,由此可判断参加财产保险的居民户数的比例小于或等于80%,即认为调查得到的数据无法
充分支持公司的估算
(重点)
四、两个总体成数之差的假设检验:
〜N(0,1)
(P1P2)(P1P2)
P(1PJP2(1P2)
条件:
大样本
np、山(1pJ、n2P2、匕(1p?
)
都大于或等于5
(老师说两个总体成数之差不考,你懂得)
五、单一正态总体方差假设检验:
卡方检验:
2(°1)S~2(n1)
Eg:
假设某台机器包装食盐时,每袋盐的净重服从正态分布,且规定其标准差不能超过0.02千克。
某天开工后,为检验该机器工作是否正常飞,从包装好的食盐中随机抽取9袋,测得其净重的标准差为0.032千克,试问在0.05的显著性水平下,判断这天该机器包装工作是否符合规定?
解:
根据题意,建立假设:
H。
:
20.022,Hi:
20.022
因为a=0.05,自由度n-仁8,查2分布表得到临界值
22
(n1)0.05(8)15.5,所以确定原假设的拒绝区域为[15.5,+%]。
根据相关数据,计算检验统计量的值:
2
(n1)S280.0322
2220.48
20.022
因为
220.48H°H1
,所以拒绝原假设而接受,即根据这些调
查数据,我们可以判断这天该机器包装工作不符合规定
六、两个总体方差之比的假设检验:
F
2〜F(n11,n2
S22
1),当12
2时,本式可化简为:
F
£〜F(n11,n2
S2
1)
Eg:
某学校从甲乙两个班中,
各随机抽取
13和16名同学给某些
任课教师的教学效果评分,加班评分的方差是52.5,乙班评分的
方差是35.00问是否可以认为这两个班的方差是同质的(a=0.1)
解:
根据题意可知:
ni13m16,Si252.5,Si235.0
建立假设H。
:
12;,出:
i2;
FSL空
计算检验统计量F得:
卜$3501.5
确定否定域:
因为a=0.1、自由度为(13-1,16-1)=(12,15),查F
分布表得到临界值F2(n11,n21)Fo.o5(12,15)248所以
确定原假设得拒绝区域为(2.48,+旳.
因为F=1.5<2.48,所以接受Ho,而接受H1,即在0.1显著性水平上,可以认为这两个班的方差是同质的。
第九章
1.点估计:
也叫点值估计或定值估计,是用样本统计量的某一数值直接作为相应的总体参数的估计值。
区间估计:
是用一个区间去估计未知参数。
无偏估计量:
就是要求估计量在未知参数真值附近摆动,也即希望它的数学期望值等于未知参数真值。
有效估计量:
即如果一个估计量除了满足无偏性外,其方差比其他估计量的方差小,则该估计量是被估计参数的有效估计量。
一致估计量:
抽样误差:
是指由于随机抽样的偶然因素所产生的样本统计量与总体参数之间的差别。
抽样平均误差:
是指所有可能组成样本的抽样指标与总体的平均离差,也就是抽样平均数与总体平均数的标准差。
抽样方法
重复抽样
不重复抽样
x
匚(重
占考
八、、P
点)
J(1N)
抽样极限误差:
就是变动的抽样指标与确定的总体指标之间抽样误差的可能
范围,也称为允许误差。
_X一,PpPPp
XX
2.影响样本容量的因素:
样本容量的多少与抽样极限误差、调查费用等都有直接的关系。
主要
有:
(1)总体各单位标志变异程度,即总体标准差或方差的大小。
(2)抽样推断的精确度高低,即允许误差范围的大小。
(3)抽样推断的可靠程度的高低,即概率度的大小。
3•单一总体均值区间估计:
S
⑴大样本(n^30),Z分布估计:
x\n,置信区间
[xZ_,xZ_]
XX
Eg:
某灯泡厂从一批灯泡中抽取100只进行使用寿命检查,测得其平
均寿命为1250小时,标准差为240小时。
试问99.73%的可靠程度推
断这批灯泡的使用寿命。
因为P(Z)=99.73%即卩可知Z=3
所以_zx32472(小
时)那么置信区间为
xx
xz_125072,即11781322
x
又计算可知,有99.73%的把握推断这批灯泡的使用寿命在1178~1322
小时之间。
⑵小样本(nv30),t分布估计:
xt,,2(n。
壬牛置信区间:
Eg:
在一个正态总体中随机抽取一个容量为25的样本,其均值是52,标准差是12,求置信水平为95%的总体均值的置信区间。
解:
根据题意可知,n25,x52,S12,总体方差为止,且为小样本,故
用t分布估计。
由95%置信水平和自由度n-1=24,查t分布表得:
t2(n1)to.°25(24)2.064
4.
两个总体均值区间估计
①两个样本:
Z分布估计,置信区间:
②小样本均值之差(n<30):
t分布估计,置信区间:
5.单一总体成数区间估计:
pz2、p(1P)(重复抽样)
pZp(1P)(1n)(不重复抽样)
\nN
6.两个总体成数之差的区间估计:
7.
总体方差的区间估计:
第十章
1.发展水平:
是指动态数列中的每一项指标数值。
平均发展水平:
又称序时平均数或动态平均数,是时间数列中各项发展水平
的平均数。
增长量:
是报告期水平与基期水平只差,说明社会现象在一定时期内增加(或减少)的绝对数量。
逐期增长量:
是报告期水平与前一期水平只差,说明本期比上期增长的绝对
数量
累计增长量:
是报告期水平与某一固定基期水平(一般是最初水平)只差,
说明本期比某一固定基期增长的绝对数量,也说明在某一段较长时期内总的增长量。
平均增长量:
是一定时期内平均每期增长水平。
年距增长量:
又称同比增长量,是报告期水平与上年同期水平只差。
发展速度:
是反映社会现象发展变化快慢程度的动态相对指标。
增长速度:
是增长量与基期水平之比,说明报告期水平比基期水平增加了或
降低了百分之几或多少倍
环比增长速度:
是逐期增长量与前一期水平之比,表明社会现象相对于前一
期的增长程度
定基增长速度:
是累计增长量与某一固定基期水平之比,表明社会现象在较
长时期内的增长程度
平均发展速度:
是各期环比发展速度的序时平均数。
平均增长速度:
增长1%的绝对值:
是逐期增长量与环比增长速度之比,用来说明增长速度与增长量之间的关系,即报告期与前期相比,每增长1%所包含的绝对值为多少。
2.动态数列水平分析有哪些分析指标?
主要有:
发展水平、平均发展水平、增长量、平均增长量和年距增长量五种。
3.逐期增长量和累计增长量有何关系?
(1)逐期增长量之和等于相应的累计增长量。
(2)相邻两期累计增长量之差等于相应的逐期增长量。
4.动态数列速度分析有哪些分析指标?
主要有:
发展速度、增长速度、平均增长速度、和增长1%的绝对值五种。
5.环比发展速度和定基发展速度的关系:
①定基发展速度等于相应的环比发展速度的连乘积。
即:
aja?
agajaj
a0a0a1a2ai1ai1
②两个相邻时期的定基发展速度之比等于相应的环比发展速度。
aiaiiai
即:
———
a0a0ai1
第十一章
1•总指数:
是反映复杂现象总体综合变动程度的相对数。
如零售物价总指数、
股价总指数等。
数量指标指数:
是反映现象的总体单位数、规模、物量等数量指标变动程度
的相对数。
如产量指数、职工人数等。
质量指标指数:
是反映现象的相对水平、平均水平等质量指标变动程度的相对数。
如劳动生产率指数、产品成本指数、商品价格指数等。
综合指数:
是总指数的一种基本形式,是通过两个总量指标对比计算出来的指数。
平均数指数:
指由个体指数加权平均的总指数。
总指数另一种重要形式。
同度量因素:
在编制综合指数时,变化的那个因素称为指数化因素,固定的那个因素为同度量因素。
2.广义统计指数和狭义统计指数?
广义指数是指一切能表明现象数量变动或数量对比关系的相对数,如发展速度、比较相对数、计划完成相对数等。
狭义指数是指表明不能直接加总的多种要素组成的复杂总体在时间或空间上综合变动程度的特殊相对数。
3•统计指数的作用是什么?
(1)综合反映复杂现象总体的变动方向和程度
(2)分析和测定现象总变动中各构成因素的影响程度和效果
(3)研究现象在较长时期内的发展变化趋势
4.综合指数编制的一般原则有哪些?
(一)划分数量指标指数和质量指标指数
(二)选择同度量因素
(三)选择同度量因素所属的时期
5.平均指标的变动进行因素分析?
6•什么是指数体系?
可变构成指数、结构影响指数和固定构成指
数有何关系?
指数体系是由三个或三个以上相互联系、相互制约的指数组成的有机整体。
关系:
可变构成指数=结构影响指数>固定构成指数