福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx

上传人:b****8 文档编号:9852839 上传时间:2023-02-07 格式:DOCX 页数:15 大小:91.22KB
下载 相关 举报
福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx_第1页
第1页 / 共15页
福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx_第2页
第2页 / 共15页
福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx_第3页
第3页 / 共15页
福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx_第4页
第4页 / 共15页
福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx

《福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx》由会员分享,可在线阅读,更多相关《福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx(15页珍藏版)》请在冰豆网上搜索。

福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围.docx

福州大学至诚学院财经系《统计学》王慧红老师期末复习资料范围

第一章:

数据类型和它的基本概念。

练习P10

统计数据的类型:

(1)分类数据:

是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。

例如,人口按性别分为男、女两类;企业按行业属性分为医药行业、家电行业、纺织品行业等,这些均属于分类数据。

可以用数字代码表示各个类别。

(2)顺序数据:

是只能归于某一有序类别的非数字型数据。

顺序数据虽然也是类别,但这些类别是有序的。

例如,将产品分为一等品、二等品、三等品、次品等;考试成绩可以分为优、良、中、及格、不及格等;一个人的受教育程度可以分为小学、初中、高中、大学及以上;一个人对某一事物的态度可以分为非常同意、同意、保持中立、不同意、非常不同意等。

也可以用数字代码表示。

(3)数值型数据:

是按数字尺度测量的观察值,其结果表现为具体的数值。

分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,所以可统称为定性数据或品质数据。

数值型数据说明的是现象的数量特征,所以也可称为定量数据或者数量数据。

(4)截面数据:

是在相同或近似相同的时间点上收集的数据。

(5)时间序列数据:

是在不同时间收集到的数据。

总体和单位相互关联,即若要统计城市交通事故情况,则总体为所有交通事故,单位为每一起交通事故。

变量是说明现象某种特征的概念。

(1)分类变量:

说明事物类别的一个名称,其取值是分类数据。

如“性别”是一个分类变量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。

(2)顺序变量:

说明事物有序类别的一个名称,其取值是顺序数据。

如“产品等级”就是一个顺序变量,其变量值可以为“一等品”、“二等品”、“三等品”、“次品”等;“受教育程度”也是一个顺序变量,其变量值可以为“小学”、“初中”、“高中”、“大学”等。

(3)数值型变量:

是说明事物数字特征的一个名称,其取值是数值型数据。

如“产品产量”、“商品销售额”、“零件尺寸”、“年龄”、“时间”等都是数值型变量。

数值型变量根据取值的不同,又可以分为离散型变量和连续性变量。

离散型变量只能取有限个值,可以一一列举,如“企业数”、“产品数量”、“人数”。

连续性变量是可以在一个或者多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举。

“年龄”、“温度”、“零件尺寸的误差”等都是连续性变量。

1.数据的误差:

调查误差:

是指在取得样本数据资料过程中产生的误差。

这部分误差通常与调查者、回答者、资料搜集方式和问卷等因素有关,它们会形成在调查过程中出现无回答和回答出现偏误等情况,进而形成系统性误差。

抽样误差:

是由抽样的随机性引起的样本结果与总体真值之间的误差。

误差的来源:

抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免,但可以控制。

要求的抽样误差越小,所需要的样本量就越大。

(1)样本量越大,抽样误差越小,当样本量大道与总体单位相同时,也就是抽样调查变成普查,这时抽样误差减少到0.

(2)总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大;总体的变异性越小,各单位之间越相似,抽样误差也就越小,如果所有的单位完全一样,调查一个就可以精确无误地推断总体,抽样误差也就不存在了。

对误差的理解:

登记性误差是是调查过程中由于调查者或被调查者的人为因素所造成的误差。

可以避免。

误差的控制:

抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。

但抽样误差是可以计算的,允许的抽样误差是多大,取决于对数据精度的要求。

一旦这个误差确定下来,就可以采用相应的措施来进行控制。

进行控制的一个主要方法是改变样本量,统计方法已经给出了计算样本量的公式(涉及参数估计)。

要求的抽样误差越小,所需样本量越大。

对非抽样误差的控制可以通过:

做好问卷调查设计、调查员的挑选、调查员的培训、督导员的调查专业水平、调查过程控制、调查结果进行检验、评估、现场调查人员进行奖惩的制度,来避免误差。

在调查中必须保证数值的正确性。

非抽样误差:

除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异

存在于所有的调查之中:

概率抽样,非概率抽样,全面性调查

有抽样框误差、回答误差、无回答误差、调查员误差、测量误差

第三章:

数据的搜集:

调查的种类:

调查的范围:

全面调查:

普查、全面统计报表

非全面调查:

抽样调查、重点调查、典型调查

第四章:

数据的整理:

如何进行分组:

单变量值分组:

(1)将一个变量值作为一组;

(2)适合于离散变量;(3)适合于变量值较少的情况。

组距分组:

(1)将变量值的一个区间作为一组;

(2)适合于连续变量;(3)适合于变量值较多的情况;(4)需要遵循“不重不漏”的原则;(5)可采用等距分组,也可采用不等距分组。

第一步:

确定组数:

不多于10个,3-7之间,一般5组。

第二步:

确定各组组距:

组距是一个组的上限与下限的差。

组距=(最大值-最小值)÷组数。

第一组下限应低于最小变量值,最后一组的上限应高于最大变量值。

第三步:

统计出各组的频数并整理成频数分布表:

1.下限:

一个组的最小值

2.上限:

一个组的最大值

3.组距:

上限与下限之差

4.组中值:

下限与上限之间的中点值

为解决不重的问题,统计分组时习惯上的规定“上组限不在内”,即党相邻两组上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而算在下一组内。

即分组后的变量值x满足a<=x

例如150这个数值不计算在140~150之间,而计算在150~160之间。

对于离散变量,可以采用相邻两组组限间断的办法解决不重的问题。

对于连续变量,可以采取相邻两组组限重叠的方法。

补充组中值的公式:

练习P672.3.4

第四章:

集中趋势:

众数、中位数、均值。

1.众数:

出现次数最多的变量值;是一个位置代表值,不受极端值的影响;一组数据可能没有众数或有几个众数;用于测度分类数据的集中趋势。

用Mo表示。

2.中位数:

排序后处于中间位置上的值;是一个位置代表值,不受极端值的影响;主要用于顺序数据,也可用数值型数据,但不能用于分类数据;各变量值与中位数的离差绝对值之和最小。

原始数据:

中位数:

n+1/2顺序数据:

n/2

可有余数。

P51

3.均值:

集中趋势的最常用测度值;一组数据的均衡点所在;体现了数据的必然性特征;

易受极端值的影响;用于数值型数据,不能用于分类数据和顺序数据。

1.各变量值与均值的离差之和等于零

2.各变量值与均值的离差平方和最小

调和平均数:

均值的另一种表现形式;易受极端值的影响;计算公式为

【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格

某日三种蔬菜的批发成交数据

蔬菜

名称

批发价格(元)

Mi

成交额(元)

Mifi

成交量(公斤)

fi

1.20

0.50

0.80

18000

12500

6400

15000

25000

8000

合计

36900

48000

几何平均数:

n个变量值乘积的n次方根;适用于对比率数据的平均;主要用于计算平均增长率;计算公式为:

【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。

求各年的年平均增长率。

年平均增长率=114.91%-1=14.91%

【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。

计算该投资者在这四年内的平均收益率

几何平均数:

算术平均数:

什么是算术平均数,算术平均数的影响因素

众数、中位数和均值的比较P82

标准差:

总体标准差、样本标准差

1.数据离散程度的最常用测度值;

2.反映了各变量值与均值的平均差异;

3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。

实践中总体标准差常常不知道,计算样本标准差,乘n-1,均值相等直接比较标准差大小,不等的话要计算标准差系数。

辨析题:

权数的变化必须是比重权数变化,如果是各组权数同等比例变化,均值不会改变。

85.86

计算均衡性、稳定性、差异性:

第一步:

计算平均数;第二步:

计算标准差;第三步:

计算标准差系数,即:

73

题型:

分组资料和未分组资料,分组更重要

P97.98

第七章:

参数估计与假设检验

估计量与估计值:

1.估计量:

用于估计总体参数的随机变量。

如样本均值,样本比例、样本方差等。

例如:

样本均值x就是总体均值的一个估计量

2.总体参数用表示,估计量用表示

3.估计值:

估计参数时计算的统计量的具体值。

如果样本均值x=80,则80就是的估计值。

一.点估计又称定值估计,用样本统计量的值直接作为总体参数的估计值

例如:

用样本均值直接作为总体均值的估计

例:

在某城市,随机抽取100户,调查其家庭收入,用这100户的平均家庭收入估计该城市所有家庭的平均收入。

例如:

用样本比例直接作为总体比例的估计

例:

某工厂要检验其产品的合格率,随机抽取了50个产品进行检测,发现有3个产品不合格,则样本产品合格率为94%,据此估计整批产品的合格率为94%。

点估计的特点:

能明确估计总体参数,但没有给出估计值接近总体参数程度的信息,无法知道估计的可靠性。

二.区间估计:

在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量的值加减抽样极限误差得到

区间估计有三项要素:

估计值,置信区间,置信概率(又称置信水平)1-。

影响区间宽度的因素:

⑴总体数据的离散程度,用总体标准差来测度

⑵样本容量n,影响样本均值的标准差(抽样平均误差),即

⑶置信水平(1-),影响z的大小

抽样平均误差与影响它的因素。

抽样平均误差是抽样平均数的标准差,反映了抽样指标与总体指标的平均误差程度。

多数样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽样平均误差就是将所有的误差综合起来,再求其平均数,所以抽样平均误差是反映抽样误差一般水平的指标。

重复抽样:

抽样平均误差与总体标准差成正比,与样本容量成反比。

(当总体标准差未知时,可用样本标准差代替)

不重复抽样:

抽样平均误差不仅与总体变异程度、样本容量有关,而且与总体单位数的多少有关。

采用不重复抽样比重复抽样的平均误差要小

准确度和精确度成反比,在样本容量一定的情况下,置信概率定得越大,概率保证程度越高,估计的可靠程度就越大,概率度就越大,则置信区间相应也越大,估计的准确性就越小。

因此对于可靠性和准确性,要结合具体问题、具体要求来综合考虑。

P176.P178

正态总体方差2已知总体均值的区间估计(例题)

【例】一家食品生产企业生产袋装食品,日产量约8000袋,规定每袋重量为100克。

为对产品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。

现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表。

已知产品重量的分布服从正态分布,且总体标准差为10克。

试估计该批产品平均重量的置信区间,置信水平为95%。

25袋食品的重量(克)

112.5

101.0

103.0

102.0

100.5

102.6

107.5

95.0

108.8

115.6

100.0

123.5

102.0

101.6

102.2

116.6

95.4

97.8

108.6

105.0

136.8

102.8

101.5

98.4

93.3

已知X~N(,102),n=25,1-=95%,查标准正态分布表得z/2=1.96。

根据样本数据计算得:

总体均值在1-置信水平下的置信区间为

非正态总体大样本总体方差2已知总体均值的区间估计(例题分析)

总体分布形式未知,但为大样本,已知n=36,

σ=8,1-=90%,查表得z/2=1.645。

根据样本数据计算得:

总体均值在1-置信水平下的置信区间为

某乡水稻面积20000亩,以不重复抽样法随机抽取400亩实割实测求得样本平均亩产为645公斤,总体标准差72.6公斤。

要求允许误差不超过7.2公斤,试对该乡水稻亩产和总产量作估计。

解:

已知=645,σ=72.6,Δ=7.2,n=400,

N=20000,则  ±Δ=645±7.2

平均亩产置信区间为:

637.8~652.2公斤

总产量置信区间为:

(637.8×20000,652.2×20000)

=(12756000,13044000) 

根据

查表得F

(2)=0.9545,即以95.45%的概率保证该乡水稻平均亩产在637.8~652.2公斤之间。

总体比例的区间估计

根据中心极限定理,当n很大时二项分布近似服从正态分布。

经验上在大样本下,若np>5,n(1-p)>5,则二项分布可用正态分布近似求解。

因而有样本比例分布为:

比例π的置信区间,即

置信区间:

总体比例π未知,可用样本比例p代替。

在1-α置信水平下,总体比例π的置信区间为:

例:

一项广告活动的跟踪调查,在随机调查的400人中,有240人能记起广告语。

试以95%的置信水平估计能记起广告语的人所占比例的置信区间。

解:

已知n=400,p=240/400=0.6,np=240>5,n(1-p)=160>5,1-α=0.95,查表得Z=1.96,则

即以95%的概率保证,估计能记起广告语的人数所占比例在55.2%~64.8%之间。

【例】某城市要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。

试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。

已知n=100,p=65%,

1-=0.95时,查表得z/2=1.96

该城市下岗职工中女性比例的置信区间为55.65%~74.35%

估计总体均值时样本容量的确定:

重复抽样下估计总体均值时样本容量:

例:

一家广告公司想估计某类商店去年平均每店广告费支出额。

经验表明,总体方差为1800000。

若置信水平取95%,允许误差为500元,问应抽取多少家商店作样本?

解:

已知σ2=1800000,α=0.05,

查表得zα/2=1.96,Δ=500,

∴应抽选28家商店作样本。

n应取整数

估计总体比例时样本容量的确定:

重复抽样下估计总体比例时样本容量:

某市场调研公司想估计某地区有家用计算机的家庭所占比例。

希望允许误差不超过0.05,可靠程度为95%,问应取多大容量的样本?

没有可利用的比例。

解:

已知:

Δp=0.05,α=0.05,zα/2=1.96,

用=0.5计算,则

∴应抽取385户家庭进行调查。

第八章:

假设检验

第一类错误是原假设H0为真时,检验结果把它当成不真而拒绝了。

犯这种错误的概率用α表示,也称作α错误或弃真错误。

第二类错误是原假设H0不为真时,检验结果把它当成真而接受了。

犯这种错误的概率用β表示,也称作β错误或取伪错误。

均值检验和比例检验主要有单侧和双侧;是否显著性差异用双侧,是否明显提高、明显下降用单侧的;注意区分是均值检验还是比例检验;把想要检验的放在备择假设。

假设检验的步骤

㈠根据研究需要提出原假设H0和备择假设H1

注意:

对任一假设检验问题,其所有可能结果均应包括在所提出的两个对立假设中,原假设与对立假设总有一个、也只能有一个成立。

原假设一定要有等号:

=或£或³。

例如,有研究预计,采用新技术生产后将会使某产品的使用寿命明显延长到1500小时以上。

则建立的原假设与备择假设应为:

H0:

m£1500H1:

m>1500

例如,有研究预计,改进生产工艺后会使某产品的废品率降低到2%以下。

则建立的原假设与备择假设应为:

H0:

m2%H1:

m<2%

例如,某种零件的尺寸,要求其平均长度为10厘米,大于或小于10厘米均属于不合格。

待检验问题是该企业生产的零件平均长度是10厘米吗?

(属于决策中的假设)则建立的原假设与备择假设应为

H0:

m=10H1:

m¹10

㈡确定适当的检验统计量

Z统计量和t统计量常用于均值和比例的检验

㈢确定显著性水平α和临界值及拒绝域

显著性水平α是当原假设为正确时被拒绝的概率,是由研究者事先确定的。

显著性水平的大小应根据研究需要的精确度和可靠性而定。

通常取α=0.05或α=0.01,即接受原假设的决定是正确的可能性(概率)为95%或99%。

根据给定的显著性水平,查表得出相应的临界值,同时指定拒绝域。

㈣根据样本数据计算检验统计量的值(或P值)

例如,总体标准差σ已知时根据样本均值计算统计量Z的公式为

㈤将检验统计量的值与临界值比较,作出拒绝或接受原假设的决策

如果检验统计量的值落入拒绝域,则拒绝原假设,接受备择假设;如果检验统计量的值落入接受域,则接受原假设,拒绝备择假设。

一个正态总体的参数检验

㈠总体方差σ2已知时均值的检验

假定条件:

总体服从正态分布;若总体不服从正态分布,可用正态分布来近似(要求n30)。

使用Z统计量

1.总体方差s2已知时均值的双侧检验(举例)

【例6-4】某机床厂加工一种零件,根据经验知道,以前加工零件的椭圆度近似服从正态分布,其总体均值为0=0.081mm,总体标准差为s=0.025。

今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度均值为0.076mm。

试问新机床加工零件的椭圆度均值与以前有无显著差异?

(=0.05)

已知:

0=0.081mm,s=0.025,n=200,

提出假设:

假定椭圆度与以前无显著差异

H0:

m=0.081

H1:

m0.081

a=0.05双侧检验/2a=0.025

查表得临界值:

Z0.025=±1.96

得两个拒绝域:

(-∞,-1.96)和(1.96,∞)

计算检验统计量值:

总体方差s2已知时均值的单侧检验(左检验举例)

【例6-5】某批发商欲从生产厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。

已知灯泡使用寿命服从正态分布,标准差为20小时。

在总体中随机抽取100只灯泡,测得样本均值为960小时。

批发商是否应该购买这批灯泡?

(=0.05)

总体方差s2已知时均值的单侧检验(右检验举例)

【例6-6】根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N~(1020,1002)。

现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1080小时。

试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?

(=0.05)

㈡总体方差s2未知时均值的检验

假定条件:

总体为正态分布

s2未知时检验所依赖信息有所减少,样本统计量服从t分布,与正态分布相比在概率相同条件下t分布临界点距中心的距离更远,意味着推断精度有所下降

使用t统计量,其自由度为n-1,s为样本标准差

n较小时t分布与z分布差异明显,随着n增大二者差异逐渐缩小,因此在大样本条件下s2未知也可以用z统计量进行检验

1.总体方差s2未知时均值的双侧检验(举例)

【例6-7】某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克。

某日随机抽查9包,测得样本平均重量为986克,样本标准差为24克。

试问在0.05的显著性水平上,能否认为这天自动包装机工作正常?

2.总体方差s2未知时均值的单侧检验(举例)

【例6-8】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个由20个轮胎组成的随机样本作了试验,测得平均值为41000公里,标准差为5000公里。

已知轮胎寿命的公里数服从正态分布,我们能否根据这些数据作出结论,该制造商的产品同他所说的标准相符?

(a=0.05)

总体比例的检验

1.假定条件

有两类结果;总体服从二项分布;可用正态分布来近似(要求大样本,np>5,n(1-p)>5)

2.使用Z统计量

π0为假设的总体比例。

分母为样本比例的抽样标准差,一般采用π0计算,也有人认为可以用样本比例p计算

总体比例的检验(双侧检验举例)

【例6-9】某研究者估计本市居民家庭的电脑拥有率为30%。

现随机抽查了200个家庭,其中68个家庭拥有电脑。

试问研究者的估计是否可信?

(a=0.05)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1