ImageVerifierCode 换一换
格式:DOCX , 页数:37 ,大小:487.34KB ,
资源ID:12230358      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/12230358.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(统计总复习资料 打印4份.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

统计总复习资料 打印4份.docx

1、统计总复习资料 打印4份 绪论(客观题)重点:统计学的定义与分类,分支 基本概念(总体、总体单位、样本、标志)一、统计学1统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。2统计的研究对象的特点:a)数量性。统计数据是客观事物量的反映。b)总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。c)变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。3统计学是关于数据的科学,研究如何收集、分析、表述数据,并通过数据得出基本结论。4统计分为描述统计,推断统计、核算统计、理论统计、应用统计描述统计:汇总的表、图和数

2、值。包括搜集数据、整理数据、展示数据推断统计:用样本数据对总体性质进行估计,检验核算统计:对国家或地区经济运行过程及各类总量进行描述和分析二、统计学中的几个主要概念1.总体:根据一定目的确定的所要研究的事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。总体单位(简称单位)是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。2.样本:由总体的部分单位组成的集合样本容量:样本所包含的总体单位数3.标志(变量):总体各单位普遍具有的属性或特征。标志的分类:品

3、质标志:单位属性方面的特征。品质标志的表现只能用文字、语言来描述四种计量尺度的比较 定类尺度定序尺度定距尺度定比尺度 分类(, ) 排序( ) 间距( + ,- ) 比值( ,) 数量标志:单位数量方面的特征。数量标志可以用数值来表现三、几种常用的统计软件SAS SPSS MINITAB STATISTICA Excel 数据 (选择,判断,简答)重点:1.数据及其相关概念 2.品质数据与数量数据 3.数据的计量尺度 4.统计调查方式 5.调查误差 6.数据分组一、数据及其相关概念1.数据:所收集、分析、汇总表述和解释的事实及数字数据是进行统计分析研究的基础数据是统计学研究对象的特征,是客观事

4、实数据不仅仅局限于数字范畴,包括非数字形式的其他信息2.个体总体单位:收集数据的实体,也就是数据的承载者 变量:个体的特征或者属性变量值:个体在变量上的具体表现指标亦称统计指标,是说明总体的综合数量特征的。标志:总体各单位普遍具有的属性或特征指标与标志的区别:标志是说明总体单位特征的,而指标是说明总体特征的。指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的。二、品质数据与数量数据 1.品质数据:不能用数字来表述的特征。如人的性别,民族,宗教信仰等 2.数量数据:用数字能够表述的特征,数值型特征,如人的身高,体重等3.区别:数量数据总是以数字形式表现,品质数据可以是数值型,也

5、可以是非数值型。只有数量数据可以进行数学运算三、数据的计量尺度 1. 数据的计量尺度分为定类尺度、定序尺度、定距尺度、定比尺度 2.定类变量:“名义型变量”,值只能用文字表述计量层次最低,对事物进行平行的分类,地位平等,没有高低优劣之分各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求,数据表现为“类别”具有=或的数学特性,如性别,民族,党派3.定序变量:“顺序型”变量,变量值只能用文字表述 对事物分类的同时给出各类别的顺序比定类尺度精确,但未测量出类别之间的准确差值数据表现为“类别”,但有顺序性具有或的数学特性,如优秀,良好,及格,不及格4.定距变量:变量值为数值型对事物的准确测度

6、,比定序尺度精确,没有绝对零点具有 + 或 - 的数学特性,如温度,公元纪年等极少数现象属于定距变量5.定比变量:数据表现为“数值”对事物的准确测度,与定距尺度处于同一层次,有绝对零点具有 或 的数学特性,可以进行任何形式的计算6.四种计量尺度的比较四、统计调查方式1.统计调查方式有普查、抽样调查、典型调查、重点调查2.普查:为特定目的专门组织的非经常性全面调查通常是一次性或周期性的;一般需要规定统一的标准调查时间应用范围比较狭窄,如人口普查,工业普查3.抽样调查:从总体中随机抽取一部分单位(样本)进行调查分重复抽样和不重复抽样目的是推断总体的未知数字特征遵循随机性原则;存在调查误差,并且可以

7、加以控制具有经济性、时效性强、适应面广、准确性高等特点4.典型调查:从调查对象的全部单位中选择少数典型单位进行调查目的是描述和揭示事物的本质特征和规律调查结果不能用于推断总体5.重点调查:从调查对象的全部单位中选择少数重点单位进行调查调查结果不能用于推断总体优点在于调查单位少,可以调查较多的项目和指标,了解较详细的情况。即用较少的人力和时间,取得较好的效果。组织重点调查的关键问题是确定重点单位。五、调查误差1.调查误差:收集的数据资料与真实情况之间的差距调查误差本身不确定,或者说是未知量表2 某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)1

8、071081101121131141151171181212111331191201211221231241251261271214432231281291301311331341351371392111221122.调查误差的种类:登记性误差和代表性误差登记性误差:由于调查者或被调查者的人为因素所造成的误差。理论上讲可以消除代表性误差:用样本数据进行推断时所产生的误差。通常无法消除,但事先可以进行控制和计算六、调查分组 1.分组方法:单变量值分组和组距分组(等距分组和异距分组)2.单变量值分组:将一个变量值作为一组适合于离散变量和变量值较少的情况单变量值分组表:3.组距分组:将变量值的一个区

9、间作为一组适合于连续变量和变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组4.组距分组步骤:(1) 确定组数:组数的确定没有专门的规定,应以能够显示数据的分布特征和规律为目的。建议组数:5-20组(2) 组限:变量值区间两端的值,上限和下限(3) 确定各组组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定注意:开口组只有一个组限,无法计算组距,开口组以相邻一组的组距作为其组距(4) 根据分组整理成频数分布表 编制频数分布表的步骤:确定组数确定组距计算频数编制表格5.下限:一个组的最小值 上限:一个组的最大值组距:上限与下限之差组距(

10、 最大值 - 最小值) 组数 组中值:下限与上限之间的中点值组中值=(下限值+上限值)/26.等距分组表(使用开口组)表5 某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110114115119120124125129130134135以上358141064610162820128第三章 单变量描述统计 (计算,客观题) 重点:1.频数与累计频数 2.集中趋势的度量 3.离散程度的度量 4.偏态与峰度的测度 一、频数与累计频数 1.频数次数:对总体经过分组后形成各组单位数在各组间的分布。也就是各类别中的数据个数。2.累计频数 (P62 表3-3) 向上累计:将各组

11、次数和比率,由变量值低的组向变量值高的组逐组累计。向下累计:将各组次数和比率,由变量值高的组向变量值低的组逐组累计。二、集中趋势1.定类数据:众数 (M0)众数:出现次数最多的变量值。不受极端值的影响,可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据对单项式分组数列确定众数:出现次数最多的标准值就是众数(书P63例3.2)对组距数列确定众数:出现次数最多的组作为众数所在组 2.定序数据:中位数和分位数 a.中位数(Me):排序后处于中间位置上的值.不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据中位数位置的确定: (看书P65 例3.4)未分组数据:

12、组距分组数据: (根据向上/下累计法确定中位数)未分组数据的中位数的计算公式:b四分位数:把数据分为4部分,处在分位点的数值第1个四分位数为下四分位数(QL),第3个为上四分位数(QU),间为QM=Me不受极端值的影响 主要用于定序数据,也可用于数值型数据,但不能用于定类数据四分位数位置的确定:未分组数据:下四分位数位置=(N+1)/4 上四分位数位置=3*(N+1)/4组距分组数据:下四分位数位置=N/4 上四分位数位置=3N/4 c.百分位数 P百分位数: p%据项的值小于等于P百分位数(100-p)%的数据项的值大于等于P百分位数3.定距和定比数据:均值 (P69 例3.10)a.值易受

13、极端值的影响用于数值型数据,不能用于定类数据和定序数据简单均值的计算公式为 权均值的计算公式为 各变量值与均值的离差之和等于零各变量值与均值的离差平方和最小b.调和平均数:于定比数据,能用于定类数据和定序数据 计算公式:=Xf/f=Xf/(1/X)*XF=m/(1/X)*m4.众数、中位数和均值的比较 对称分布:均值=中位数=众数 左偏分布:均值中位数中位数众数 三、离散趋势及其测度1.离中趋势:反映各变量值远离其中心值的程度。2.定类数据:异众比率 (P76 例3.14)异众比率:数组的频数占总频数的比率计算公式为越大代表性越不好,反之越少代表性越好3.定序数据:四分位差(QD)上四分位数与

14、下四分位数之差: QD = QU - QL反映了中间50%数据的离散程度(越少越好)4.定距和定比数据:方差及标准差a.极差(全距):组数据的最大值与最小值之差计算公式为:未分组数据 R = max(Xi) - min(Xi)组距分组数据 R 最高组上限 - 最低组下限 b平均差(A.D):各变量值与其均值离差绝对值的平均数.P78 例3.17)计算公式为:未分组数据组距分组数据 c.方差和标准差总体方差和标准差的计算公式:未分组数据: 组距分组数据:样本方差和标准差的计算公式: 未分组数据:组距分组数据:5.相对离散程度:离散系数 (P82 例3.19) 离散系数:用于对不同组别数据离散程度

15、的比较标准差系数:平均差系数:四、偏态与峰度 1.偏态:数据分布偏斜程度的测度。 (P88 例3.21) 计算公式为: 偏态系数=0为对称分布偏态系数 0为右偏分布偏态系数 0为左偏分布 2.峰度:次数分布曲线顶峰尖削程度的综合分布。(P89 例3.22)计算公式为:峰度系数=3,扁平程度适中,正态分布。扁平分布:偏态系数3,变量值的次数在众数周围分布集中。 课后练习 P97(2,3,5,6)2.解:(1)=(300*80+310*180+320*230+330*340+340*320+350*160+360*90)/(80+180+230+340+320+160+90)=330.57 中位数

16、的位次=(f+1)/2=(1400+1)/2=700.5根据向上累计次数可得,前3项累计次数为490700.5,所以Me=330 M0=330(2) 全距=极差=360-300=60(其他自己代入公式就可以了)3.解:(1) =Xf/f=(12.4*5+3.8*5+4.4*5+3.0*5)/(5+5+5+5) (2) H=(5+5+5+5)/(5/12.4+5/3.8+5/4.4+5/3.0)第四章 两变量描述统计(选择,判断,简答) 重点:1.相对指标 2.协方差和相关分析 相对指标1.相对指标:两个有联系的指标数值对比得到的综合指标2.相对指标的表现形式:无名数和有名数无名数:抽象掉分子和

17、分母的计量单位。表现为百分数,千分数,倍数,系数 有名数:保留分子和分母的计量单位。表现:密度3.相对指标的具体形式(6种) 结构相对数= (各部分比重和为1) 比例相对数= (三个或三个以上的连比)比较相对数= (横向比较,静态)动态相对数= (随时间发展的变化,动态)强度相对数= (两个性质不同但有一定联系的总量指标之比,有名数)计划完成程度相对数= (计划完成的程度)例 根据相对数来计算计划完成相对数某企业生产某产品,上年度实际成本为420元/吨,本年度计划单位成本降低6%,实际降低7.6%,则:比计划多完成1.71%;本题也可换算成绝对数计算:计划 -6% 394.8元/吨 (1-6%

18、) 420实际 7.6% 388.08元/吨 (1-7.6%) 420 二、协方差和相关分析1.样本协方差公式: 总体协方差公式: 协方差是一个绝对指标 2.总体相关系数 (总体相关系数记为)样本相关系数 (样本相关系数记为r)3.r 的取值范围是 -1,1|r|=1,为完全相关 r =1,为完全正相关r =-1,为完全负正相关 r = 0,不存在线性相关关系-1r0,为负相关 0r1,为正相关|的数值愈接近于1,x与y直线相关程度愈高|的数值愈接近于0,x与y直线相关程度愈低4. 相关程度评价标准: |0.3称为微弱相关0.3 |0.5称为低度相关0. |0.8称为显著相关0.8 |1称为高

19、度相关或强相关。第五章 概率与概率分布(选择,判断,) 重点:1.正态分布 2.中心极限定理(了解就可以了) 一、正态分布 1.正态分布的概率密度函数f(x) = 随机变量 X 的频数 = 总体方差 =3.14159; e = 2.71828x = 随机变量的取值 (- x 0正态曲线的最高点在均值,它也是分布的中位数和众数正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。 决定曲线的高度,同时决定曲线的平缓程度,即宽度曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交正态曲线下的总面积等于13正态分布的概率 P(axb)=abf(x)dx 4.标准正态

20、分布函数任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布的概率密度函数 标准正态分布的分布函数 5.标准正态分布表的使用将一个一般的转换为标准正态分布,计算概率时,查标准正态概率分布表对于负的 x ,可由 (-x) x得到对于标准正态分布,即X N(0,1),有P (a X b) b aP (|X| a) 2 a 1对于一般正态分布,即X N( , ),有例1 设X N(0,1),求以下概率: (1) P(X 2); (3) P(-1X 3) ; (4) P(| X | 2)解:(1) P(X 2)=1- P(X 2)=1-0.9973=0.0228 (3) P(-1

21、X 3)= P(X 3)- P(X -1)= (3)- (-1)= (3) 1-(1)= 0.9987-(1-0.8413)=0.8354 (4) P(| X | 2) = P(-2 X | 2)= (2)- (-2) = (2)- 1-(2)=2 (2)- 1=0.9544例2 设XN(5,32),求以下概率 (1) P(X 10) ; (2) P(2X 10) 解:(1) 二、中心极限定理 1. 中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。中心极限定理:第九章 抽样调查(计算题和客观题)重点

22、:1.抽样调查的基本问题 2.成数的概念和计算 3.抽样误差(主要是平均误差) 4.区间估计(总体均值得区间估计)一、抽样调查的基本问题:1. 抽样调查的意义:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。2. 抽样总体:抽取出来调查观察的单位。 抽样总体的单位数用n表示 n 30 大样本 n 30) 和无偏(n30)(公式见书P239-240)3.有偏样本方差和标准差是总体方差和标准差的一致、有效估计量,但不是无偏估计量无偏样本方差和标准差是总体方差和标准差的一致、有效、无偏估计量三、成数(看P243 例9

23、.2) 1. 总体成数(P) 每个总体单位标志值设为0或11:具有某种属性的总体单位标志值0:不具有某种属性的总体单位标志值 成数总体方差:P(1-P)样本成数(p) p=n1/n (n是总体容量,n1是具有某种属性的样本数)样本成数的方差和标准差样本成数的无偏方差(n30)样本成数的性质:成数是一种特殊的平均数总体中具有某个属性的单位占全体单位的比重样本成数p是总体成熟P的无偏、一致、有效估计量样本成数的无偏方差是成数总体方差的无偏估计量四、抽样平均误差 1. 重复简单随机抽样: 不重复简单随机抽样: 为总体方差 为不重复抽样的修正因子2. 样本成数的抽样平均误差 重复抽样条件下:不重复抽样

24、条件下: 例1 五、区间估计(P249例9.3)1.设总体参数为 ,由样本确定的两个统计量,对于给定的,有 则称 为参数的置信度为 的置信区间,该区间的两个端点 分别称为置信下限和置信上限,统称为置信限。 为显著性水平, 则称为置信度。2.总体未知参数落在区间内的概率,表示为 (1 - % )a a为显著性水平,是总体参数未在区间内的概率 常用的置信水平值有 99%, 95%, 90%,相应的 a为0.01,0.05,0.103.如果总体服从正态分布,且总体方差()已知如果不是正态分布,可以由正态分布来近似 (n 30) 那么总体均值 在1-置信水平下的置信区间为 例2:某种零件长度服从正态分

25、布,从该批产品中随机抽取件,测得其平均长度为21.4 mm。已知总体标准差 =0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。 解:已知x N(,0.152),x2.14, n=9, 1- = 0.95,/2=1.96,总体均值的置信区间为结论:我们可以95的概率保证该种零件的平均长度在21.30221.498 mm之间4.样本容量n与总体方差成正比与允许误差成反比与可靠性系数成正比书P280 5.解:(1)=215,因为样本均值是总体均值的一致、有效估计量=根号(202/50*(1-50/800)) (3) =(215-1.96*20/根号50,215+1.96*20

26、/根号50) 第十章 时间序列分析(计算题,客观题)重点:1.时间序列的定义与分类 2.水平分析(序时平均数的计算) 3. 速度分析(发展速度,增长速度,增长1%的绝对值)一、时间序列及其分类 1时间序列:同一现象在不同时间上的相继观察值排列而成的数列 2时间序列的分类 3. 时间序列的特点: 序列特 点时点不可加性不同时期资料不可加无关联性与时间的长短无关联间断登记资料的收集登记时期可加性、关联性、连续登记相对派生性由绝对数列派生而得不可加性平均二、时间序列的水平分析1.时间序列的水平指标:1. 发展水平 2.平均发展水平 序时(动态)平均数 3.增长水平 逐期增长量 累计增长量 平均增长量

27、2.序时平均数的计算总量指标时期数列的序时平均数算术平均连续时点数列的序时平均数算术平均连续时点间隔不相等时加权算术平间断时点数列的序时平均数时期序列:间隔相等 时,采用首末折半法计算(例:(月末+月初)/2)间隔不相等 时,采用时间间隔长度加权平均 yifi/fi (fi是权数)3. 逐期增长量:报告期水平与前一期水平之差人均国内生产总值速度计算表年 份20052006200720082009人均国内生产总值14185.016500.020169.023708.0 25575.0 发展速度(%) 环比定基 100116.3116.3122.2142.2117.5167.1107.9180.3增长速度(%) 环比定基 16.316.322.242.217.567.1

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1