统计学贾俊平版重点汇编Word文档下载推荐.docx
《统计学贾俊平版重点汇编Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《统计学贾俊平版重点汇编Word文档下载推荐.docx(9页珍藏版)》请在冰豆网上搜索。
简单随机抽样:
从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的
分层抽样:
优点:
保证样本的结构与总体的结构比较相近将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而提高估计的精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层
的目标量进行估计
整群抽样:
将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
抽样时只需群的抽样框,可简化工作量–调查的地点相对集中,节省调查费用,方便调查的实施–缺点是统计的精度较差
系统抽样:
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的
规则确定其它样本单位–先从数字1到k之间随机抽取一个数字r作为
初始单位,以后依次取r+k,r+2k…等单位
操作简便,可提高估计的精度
多阶段抽样:
先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查–群是初级抽样单位,第二阶段抽取的是最终抽样单位。
将该方法推广,使抽样的段数增多,就称为多阶段抽样
非概率抽样:
方便抽样(自行确定入抽样本单位),判断抽样(根据经验判断),自愿样本(被调查者自愿参加),滚雪球抽样(对稀少群体的调查),配额抽样(先将体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位)。
概率抽样与非概率抽样的比较
1.概率抽样
–依据随机原则抽选样本–样本统计量的理论分布存在–可根据调查的结果推断总体
2.非概率抽样
–不是依据随机原则抽选样本–样本统计量的分布是不确定的无法使用样本的结果推断总体
数据收集的方法:
自填式,面访式,电话式
数据误差:
抽样误差(样本量的大小),非抽样误差。
误差的控制
统计数据的质量要求
1.精度:
最低的抽样误差或随机误差2.准确性:
最小的非抽样误差或偏差3.关联性:
满足用户决策、管理和研究的需要4.及时性:
在最短的时间里取得并公布数据5.一致性:
保持时间序列的可比性
6.最低成本:
以最经济的方式取得数据
第三章
数据审核(完整性和准确性)数据筛选(符合特定条件)数据排序(那一定顺序)数据透视(按需要汇总)
频数(frequency):
落在各类别中的数据个数比例(proportion):
某一类别数据占全部数据的比值百分比(percentage):
将对比的基数作为100而计算的比值比率(ratio):
不同类别数值的比值
条形图:
用宽度相同的条形的高度或长短来表示
各类别数据的图形。
有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布,绘制时,条形图可以横置或纵置,纵置时也称为柱形图。
帕累托图:
按类别数据出现的频数多少排序后绘制的条形图
饼图:
也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用
组距分组:
将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组
分组数据:
直方图(用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图),折线图。
数值型数据:
茎叶图,箱线图,线图,
数值型数据多变量:
散点图(用横轴代表变量x,纵轴代表变量y,每组数据(xiyi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图),气泡图,雷达图(假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比)
一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则:
一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况
第四章
集中趋势:
一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测
众数:
1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据
中位数:
1.排序后处于中间位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据4.各变量值与中位数的离差绝对值之和最小
四分位数:
排序后处于25%和75%位置上的值.
平均数:
也称为均值,是集中趋势的最常用测度值,一组数据的均衡点所在。
体现了数据的必然性特征,易受极端值的影响。
有简单平均数和加权平均数(分组数据)之分。
几何平均数(计算平均比率主要用于计算平均增长率):
平均数的性质:
各变量值与均值的离差之和等于零
各变量与均值的离差平方和最小
调和平均数:
均值的另一种表现形式(直接掌握公式中分子资料,缺频数资料)
离散程度:
均值的另一种表现形式(直接掌握
公式中分子资料,缺频数资料)
异众比率(分类数据):
对分类数据离散程度的测度,是非众数组的频数占总频数的比率,用于衡量众数的代表性
四分位差(顺序数据):
对顺序数据离散程度的测度2.也称为内距或四分间距3.上四分位数与下四分位数之差QD=QU–QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性
1.极差:
一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布。
2.平均差:
各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少
3.方差,标准差
自由度:
自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差,当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值4.按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k
相对位置的度量:
标准分数也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理
经验法则:
经验法则表明:
当一组数据对称分布时1.约有68%的数据在平均数加减1个标准差的范围之内2.约有95%的数据在平均数加减2个标准差的范围之内3.约有99%的数据在平均数加减3个标准差的范围之内
相对离散程度:
标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.较用于对不同组别数据离散程度的比
峰态:
统计学家Pearson于1905年首次提出,数据分布扁平程度的测度峰态系数=0扁平峰度适中,峰态系数<
0为扁平分布,峰态系数>
0为尖峰分布
偏态:
统计学家Pearson于1895年首次提出,是数据分布偏斜程度的测度3偏态系数=0为对称分布偏态系数>
0为右偏分布偏态系数<
0为左偏分布4.偏态系数大于1或小于-1,被称为高度偏态分布;
偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;
偏态系数越接近0,偏斜程度就越低
第六章
统计量:
设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量2.统计量是样本的一个函数,是随机的。
3.统计量是统计推断的基础
常用:
均值,方差,变异系数,k阶距,k阶中心距,样本偏度和样本峰度
次序统计量:
中位数、分位数、四分位数等都是次序统
计量
充分统计量:
能把总体中包含的信息一点都不损失的提
取出来的统计量,称为充分统计量。
抽样分布:
1.样本统计量的概率分布,是一种理论分布2在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布3样本统计量是随机变量,样本均值,样本比例,样本方差等4.结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据
渐进分布:
1、统计学的抽样分布理论中,至今求出精确分布的并不多。
2、在实用中,常寻求样本容量无限大时,统计量的极限分布,以作为抽样分布的近似,称为渐进分布。
χ2分布:
由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来。
性质分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称
t分布:
1.高塞特(W.S.Gosset)于1908年在一篇以“Student”(
学生)为笔名的论文中首次提出t分布是类似正态分布的一对称分布,它通常要比正态分布平坦和分散4.一个特定的分布依赖于称之为自由度的参数。
随着自由度的增大,分布也逐渐趋于正态分布
F分布:
中心极限定理:
从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
1.样本均值的均值(数学期望)等于总体均值
2.样本均值的方差等于总体方差的1/n
样本比例抽样分布:
在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布2.一种理论概率分布3.当样本容量很大时,样本比例的抽样分布可用正态分布近似
样本方差分布:
在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布
第七章
估计量:
用于估计总体参数的随机变量,如样本均值,样本比例,样本方差等例如:
样本均值就是总体均值的一个估计量
估计值:
估计参数时计算出来的统计量的具体值
点估计:
用样本的估计量的某个取值直接作为总体参数的估计值
无法给出估计值接近总体参数程度的信息:
虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值,一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量
区间估计:
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量
置信水平:
将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平
置信区间:
由样本统计量所构造的总体参数的估计区间称为置信区间
用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值
无偏性:
估计量抽样分布的数学期望等于被估计的总体参数
有效性:
对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
一致性:
随着样本量的增大,估计量的值越来越接近被估计的总体参数
总体均值的区间估计
总体比例的区间估计
总体方差的区间估计
第八章
检验统计量:
总体参数点估计量的标准化值,其作用是用来衡量样本统计量与零假设差异的是否显著。
拒绝域:
能够拒绝原假设的统计量的所有可能取值的集合。
是由显著性水平α围城的区域。
第一类错误,弃真:
零假设为真,而根据样本做出拒绝零假设的推断。
第二类错误,取伪:
零假设为假,而根据样本做出接受零假设的判断
因为真实情况未知,所以两类错误不可避免;
要减小其中的一种错误,通常只能通过增加另一种错误的方法做到;
2、要使两类错误的概率同时减小,只能增加样本量,但实际中成本往往不允许。
P值:
是一个概率值,被称为观察到的(或实测的)显著性水平p值是在零假设成立的条件下,检验统计量会象实际观测结果zc那么极端或更极端的概率
第十三章
时间序列:
平稳序列(stationaryseries)基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以看成是随机的
非平稳序列(non-stationaryseries)有趋势的序列线性的,非线性的有趋势、季节性和周期性的复合型序列
成分:
趋势(trend)持续向上或持续下降的状态或规律2季节性(seasonality)也称季节变动(Seasonalfluctuation)时间序列在一年内重复出现的周期性波动3周期性(cyclity)也称循环波动(Cyclicalfluctuation围绕长期趋势的一种波浪形或振荡式变动4.随机性(random)也称不规则波动(Irregularvariations)除去趋势、周期性和季节性之后的偶然性波动
增长率:
也称增长速度2.报告期观察值与基期观察值之比减1,用百分比表示3.由于对比的基期不同,增长率可以分为环比增长率和定基增长率4.由于计算方法的不同,有一般增长率、平均增长率、年度化增长率
分为定基增长率和环比增长率
移动平均法:
对简单平均法的一种改进方法2.通过对时间序列逐期递移求得一系列平均数作为预测值(也可作为趋势值)3.有简单移动平均法和加权移动平均法两种
简单移动平均:
将最近k期数据平均作为下一期的预测值
加权移动平均法
指数平滑法:
是加权平均的一种特殊形式2.对过去的观察值加权平均进行预测的一种方法3.观察值时间越远,其权数也跟着呈现指数的下降,因而称为指数平滑4.有一次指数平滑、二次指数平滑、三次指数平滑5.一次指数平滑法也可用于对时间序列进行修匀,以消除随机波动,找出序列的变化趋势
1.只有一个平滑系数2.观察值离预测时期越久远,权数变得越小3.以一段时期的预测值与观察值的线性组合
作为第t+1期的预测值,其预测模型为
toleratevt.容忍;
忍受
blousen.女衬衫_Yt为第t期的实际观察值Ft为第t期的预测值a为平滑系数(0<
a<
1)
线性趋势:
现象随着时间的推移而呈现出稳定增长或下降的线性变化规律
vt.映射;
反射;
思考
sicknessn.疾病;
恶心季节指数:
刻画了序列在一个年度内各月份或季度的典型季节特征.
计算移动平均值(季度数据采用4项移动平均,月份数据采用12项移动平均)并将其结果进行“中心化”处理–将移动平均的结果再进行一次2项的移动平均,即得出“中心化移动平均值”(CMA)2.计算移动平均的比值,也称为季节比率–将序列的各观察值除以相应的中心化移动平均值,然后再计算出各比值的季度(或月份)平均值,即季节指数3.季节指数调整–各季节指数的平均数应等于1或100%,若根据第2步计算的季节比率的平均值不等于1时,则需要进行调整具体方法是:
将第2步计算的每个季节比率的平均值除以它们的总平均值
分离季节指数:
1.将原时间序列除以相应的季节指数2.季节因素分离后的序列反映了在没有季节因素影响的情况下时间序列的变化形态
第十四章
指数:
指数最早起源于测量物价的变动2.广义上,指任何两个数值对比形成的相对数3.狭义上,指用于测定多个项目在不同场合下综合变动的一种特殊相对数4.实际应用中使用的主要是狭义的指数
occupationn.工作;
职业;
占领加权综合指数:
1.通过加权来测定一组项目的综合变动2.因权数不同,有不同的计算公式3.有拉氏价格指数和帕氏价格指数
suckvt.&
vi.吮吸帕氏价格指数:
1.1874年德国学者帕煦(Paasche)所提出的一
enginen.引擎;
发动机种指数计算方法2.该方法在计算价格综合指数时,把作为权数的销售量固定在报告期
racialadj.人种的;
种族的拉氏价格指数:
1864年德国学者拉斯贝尔斯提出的一种价格指数计算方法2.该方法在计算一组商品价格的综合指数时,把作为权数的销售量固定在基期
拉式与帕氏比较:
1.拉氏指数以基期销售量为权数,可以消除销售量变动对价格指数的影响,从而使不同时期的指数具有可比性。
但拉氏指数也存在一定的缺陷。
它在假定销售量不变的情况下报告期价格的变动水平,这一指数尽管可以单纯反映价格的变动水平,但却不能反映出消费结构的变化。
因此,拉氏价格指数在实际中应用较少2.帕氏指数因以报告期销售量为权数,不能消除权数变动对价格指数的影响,因而不同时期的指数缺乏可比性。
但帕氏指数可以同时反映出价格和消费结构的变化,具有比较明确的经济意义,因此,在实际应用中,常采用帕氏公式计算价格指数
△nightfalln.黄昏加权平均指数:
以某一时期的销售额为权数对单个商品价格指数加权平均计算的
零售价格指数:
反映城乡商品零售价格变动趋势的一种经济指数2.它的变动直接影响到城乡居民的生活支出和国家财政收入,影响居民购买力和市场供需平衡以及消费和积累的比例3.是观察和分析经济活动的重要工具之一4.零售价格指数资料采用分层抽样的方法取得
automaticallyadv.无意识地;
消费价格指数:
反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度3.可就城乡分别编制编制过程与零售价格指数类似,不同的是它包括消费品价格和服务项目价格两个部分其权数的确定是根据9万多户城乡居民家庭消费支出构成确定的’
股票价格指数:
世界主要证券交易所的股票价格指数美国的道·
琼斯指数和标准普尔指数;
伦敦金融时报FTSE指数;
法兰克福DAX指数;
巴黎CAC指数;
瑞士的苏黎士SMI指数;
日本的日京指数;
香港的恒生指数我国上海和深圳两个证券交易所