统计学复习相关资料重点讲义资料Word文档格式.docx
《统计学复习相关资料重点讲义资料Word文档格式.docx》由会员分享,可在线阅读,更多相关《统计学复习相关资料重点讲义资料Word文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
分类变量(categoricalvariable):
说明事物类别的名称.如性别(男,女)特点:
只能用文字表示,无大小,平行排列
顺序变量(rankvariable):
说明事物有序类别的名称。
如产品等级。
特点:
只能用文字表示,有大小,可排序
数值型变量(metricvariable):
说明事物数字特征的名称。
如:
成绩、年龄、产量。
可用数字表示。
分类变量和顺序变量属于定性变量
数值型变量属于定量变量
第二章
5.①统计数据的分组:
是将预处理过的数据按照某种特征或标准分成不同的组别。
分组的作用:
突出了组间差异,而掩盖了组内差异
②按定性指标分组-------品质标志分组
按定量指标分组-------数量标志分组
③数量标志分组--编制次数分布表
单变量值分组:
指每个组值只用一个具体的变量值表现的数列
编制条件:
变量是离散变量,变量的不同取值个数较少。
同时具备
组距分组:
指每个组的变量值用一个区间来表现
变量是连续变量;
或:
总体单位数较多,变量不同取值个数也较多的离散变量。
等距分组:
变量值变动区间的长度相等
异距分组:
变量值变动区间的长度不完全相等
2.组限:
指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限
注意:
对于离散变量,相邻组组限可以间断,也可重叠;
对于连续变量,相邻组组限必须重叠
组距:
每组变量值变动区间的长度,为上下限之差
组中值:
每组变量取值范围的中点数值
3.图形图①条形图-----用于显示分类变量和顺序变量的次数分布
②饼图--------用于显示内部结构
③直方图-----用于显示数值型变量的次数分布
④茎叶图-----用于显示数值型变量的次数分布及具体构成
4.①众数:
指总体中出现次数最多的变量值,用表示,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。
组距分组众数的确定:
L表示众数所在组的下组限,表示众数组次数与前一组次数之差,表示众数组次数与后一组次数之差,i表示众数组的组距
②中位数:
将总体各单位标志值按大小顺序排列后,处于数列中间位置的标志值,用表示。
它不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。
未分组的数据
组距分组数据
L表示中位数所在组的下组限,表示中位数所在组一下各组的累积次数,表示中位数所在组的次数,i表示中位数所在组的组距。
中位数的数学性质:
各变量值与中位数的离差绝对值之和最小,即
应用:
主要用于定序数据,也可用数值型数据,但不能用于定类数据
5.均值的计算(前提:
数据呈对称分布)
①算术平均数
未分组的数据
:
加权均值------数据已分组
--------决定平均数的变动范围
-------起到权衡轻重的作用
②调和平均数:
调和平均数,是各数据倒数的(简单)算术平均数的倒数
加权调和平均数
=乘以
注意:
平均数=标志总量/单位数
如果知道分子,用加权调和平均数;
如果知道分母,用加权算术平均数
③几何平均数:
是N项变量值连乘积的开N次方根
用于计算现象的平均比率或平均速度
应用的前提条件:
各个比率或速度的连乘积等于总比率或总速度;
相乘的各个比率或速度不为零或负值
④切尾均值:
去掉大小两端的若干数值后计算中间数据的均值
⑤中位数、众数、均值三者的关系
6.离散程度
①极差:
指所研究的数据中,最大值与最小值之差(一般应用于对称、单峰、大样本)
优点:
计算方法简单、易懂;
缺点:
1、极差易受极端值的影响;
2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。
②四分位差—内距
内距=上四分位数-下四分位数
反映了中间50%数据的离散程度,不受极端值的影响,可用于衡量中位数的代表性(内距越小,中位数的代表性越强)
③标准差与方差(前提:
均值相等)
④离散系数(均值不等)
由于离散系数消除了数据本身和计量单位的影响,因此可以用它进行不同数据组的比较。
离散系数小的总体,其平均数的代表性大;
反之,亦然。
7.偏态的测定
偏态:
平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。
测定偏态的方法主要有两种:
(1)算术平均数与众数比较法,
(2)动差法。
(1)算术平均数与众数比较法
完全对称分布:
算术平均数、中位数、众数重合
非对称分布:
三者相互分离
偏态的绝对数:
偏态=算术平均数-众数
偏态的相对数
或者
(2)动差法
动差又称矩,可用来说明数据频数分布的特征。
一般地,取数据中的a点为中心点,所有数据与a之差的k次方的平均数:
称为数据X关于a的k阶动差(k阶矩)。
当a=0时,即数据以原点为中心,上式称为原点k阶动差(矩)
当时,数据以算术平均数为中心,上式称为中心k阶动差(矩)。
统计学中常以中心3阶动差(矩)来测度分布的偏态。
偏态系数:
sk=0时,为对称分布;
sk>
0时,为正偏(右偏)分布;
sk<
0时,为负偏(左偏)分布。
1阶原点动差--------平均数
2阶中心动差--------方差
3阶中心动差---------偏态系数
4阶中心动差--------峰度
峰度就是频数分布曲线顶端的尖峭程度。
峰度系数为0时,恰为正态分布
当峰度系数<
0时,为平顶分布曲线;
当峰度系数>
0时,为尖顶分布曲线;
当峰度系数接近于-1.2时,则频数分布曲线趋向于一条水平线;
当峰度系数小于-1.2时,为U型曲线。
8.箱线图:
是由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的。
9.简述众数、中位数和均值的特点和应用场合
①众数
不受极端值影响
具有不惟一性
数据分布偏斜程度较大时应用
②中位数
③均值
易受极端值影响
数学性质优良
数据对称分布或接近对称分布时应用
第三章
1.常用的抽样方法
①简单随机抽样(纯随机抽样)
对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本
仅适用于规模不大、内部各单位标志值差异较小的总体
是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式
②分层抽样
将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成样本。
抽样误差最小。
(先分层,再抽样,层与层差异大,层内差异小)
③系统抽样(机械抽样或等距抽样)
将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。
按无关标志排队,其抽样效果相当于简单随机抽样;
按有关标志排队,其抽样效果相当于分层抽样。
④整群抽样(集团抽样)(先分群,后抽样,群与群差异小,群内差异大)
将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位构成样本
简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差
第4章
1.参数估计研究的主要问题
①遵循随机原则从总体中抽取样本②用样本统计量推断总体参数
③给出估计的精度,置信水平④确定样本容量
精度与置信度的关系:
精度越高,置信度越低;
反之,精度越低,置信度越高。
2.总体均值的区间估计书128页
3.总体比率的区间估计书131页
4.样本量的确定书141页
第五章
1.假设检验:
事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立
2.两类错误
第一类错误(弃真错误)
原假设为真时拒绝原假设
第一类错误的概率为
被称为显著性水平
第二类错误(取伪错误)
原假设为假时接受原假设
第二类错误的概率为
3.如何决策
第一种双侧检验:
|统计量|>
临界值,拒绝H0
左侧检验:
统计量<
-临界值,拒绝H0
右侧检验:
统计量>
第二种若p值<
拒绝H0
4.总体均值的假设检验书157页
5.总体比率的假设检验书164页
第六章
1.方差分析:
是检验多个总体均值是否相等的统计方法。
它是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
第七章
1.相关系数的4个特点
r的取值范围是[-1,1]
r=0,不存在线性相关关系相关
-1<
r<
0,为负相关,0<
1,为正相关
r=1,为完全正相关,r=-1,为完全负正相关
2.回归分析与相关分析的联系
理论和方法具有一致性;
无相关就无回归,相关程度越高,回归越好;
相关系数和回归系数方向一致,可以互相推算。
区别:
相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;
相关分析中x、y均为随机变量,回归分析中只有y为随机变量;
相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。
3.回归分析书227页
4.拟合优度的度量
①SST=SSR+SSE
②判定系数
反映回归直线的拟合程度
取值范围在[0,1]之间
r2®
1,说明回归方程拟合的越好;
r2®
0,说明回归方程拟合的越差
判定系数等于相关系数的平方,即r2=(r)2
5.回归系数显著性的t检验书233页
6.一元线性回归方程:
7.书241页
第八章
1.时间序列:
按时间顺序记录并排列的数据序列
2.①时间序列的构成因素:
长期趋势、季节变动、循环变动、不规则变动
长期趋势:
现象在一段相当长的时期内所表现的沿着某一方向的持续发展变化。
季节变动:
客观现象因受自然因素或社会因素的影响,而形成的在一年内有规则的周期性变动。
循环变动:
现象以若干年为周期所呈现出的波浪起伏形态的有规律的变动
不规则变动:
是一种无规律可循的变动,包括严格的随机变动和不规则的突发性影响很大的变动两种类型
②时间序列构成因素的组合模型
加法模型:
Y=T+S+C+I
乘法模型:
Y=T·
S·
C·
I
3.移动平均法书263页
4.测定长期趋势的直线方程:
5.分析序列的数据特征:
如果序列各项数据的K次差大致为一个常数,一般来说,可考虑配合K次曲线;
若序列的环比发展速度大体为一个常数,或序列的对数一次差大体为一个常数,可考虑配合指数曲线。
第九章
1.指数:
是解决多种不能直接相加的事物动态对比的分析工具
2.指数体系与因素分析书305页
3.
4.