统计学复习资料Word文档下载推荐.docx

资源描述

统计学复习资料Word文档下载推荐.docx

《统计学复习资料Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《统计学复习资料Word文档下载推荐.docx（21页珍藏版）》请在冰豆网上搜索。

统计学复习资料Word文档下载推荐.docx

按质量标志分组和按数量标志分组。

按质量标志分组，多用于人文-经济地理领域，其组数取决于社会经济现象的基本类型和其在研究中的意义，而且不分组距。

如：

在人口地理研究中，将人口按性别、民族、职业进行分组。

按数量标志分组，是先依其变量类型不同，分为离散型变量和连续型变量，然后再根据其特征的不同进行分组。

离散型变量可采用单项式（每个变量为一组）和组距式（整个变量分成几个区间，每个区间为一组）处理。

连续型变量只能采取组距式分组。

又可分为等距和不等距分组两种。

组距分组：

第一步，求变量的全距RR=Xmax-Xmin

第二步，确定组数nn=1+3.32lgN（N为样本总量）

第三步，计算组距：

h=R/n

第四步，确定每组的上、下限

2、数据的合并与分割3、数据的函数变换4、数据的其他变换

数据的函数变换

是将原始数据的每一个数值通过特定的运算方式变换成新的数值。

在原有数据基本上，计算产生一些含有更丰富信息的新数据。

使数据更直观、更有效。

常见的数据变换有：

对数或多项式变换；

时间序列的平稳化处理；

利用区间变换压缩数据取值X围和标准化处理等。

包括算术表达式、条件表达式和函数三大部分。

第二节数据的分布特征

数据经过整理后，得出了频数分布的大致情况。

但为了确切地表示地理数据的分布性质和在数量上的特征，需要进一步定量计算其特征值。

在数据的分布性质中，最重要的两个性质是集中性和分散性。

反映数据集中性的特征值有：

平均值（均数）、中位数、众数等。

反映数据分散性的特征值有：

绝对离差度（离差、离差平方和、标准差、方差等）和相对离差度（变异系数）

1、平均数（均数，Mean）

可代表数据的一般水平，并可作为对比分析的指标。

主要包括算术平均数和几何平均数。

（1）简单算术平均数：

（2）加权算术平均数：

3）几何平均数

一般用来分析和研究国民经济、企业生产或人口等方面的平均发展速度和平均增长速度

2、中位数（Median）

也称中央值，它是数据按大小排序后位居中间的那个数值。

当一个数据变量值分布很偏时，以中位数表示集中趋势比算术平均数更合理。

如收入、分数的分布。

对于未分组的数据：

3、众数（Mode）

是数据中出现频数最多的那个数。

对于未分组的数据，可以根据每一个数据出现的频数大小直接确定众数。

对于分组数据，按以下公式计算众数：

三、数据的分布形态

1、偏度（Skewness）：

反映频数分布偏态方向和程度的测度

偏度值大于0，表示正偏差值大，称为右偏或正偏；

偏度值小于0，表示负偏差值大，为负偏或左偏。

（2）峰度（Kurtosis）：

指频数分布曲线高峰的形态，即反映分布曲线的尖峭程度的测度。

当β=0时，表示分布的峰度是正态分布的峰度；

当β>

0时，表示分布曲线的高峰是尖顶高峰；

当β<

0时，表示分布曲线的高峰是平顶高峰。

右面为箱图，图中方箱为四分位数，中心粗线为中位数，两端线为最大值与最小值，之外的圆圈代表可疑的离群值。

•交叉列联表的卡方（X2）检验

•在列联表确定的情况下，卡方统计量观测值的大小仅取决于观测频数与期望频数的总差值。

当总差值越大时，卡方值也就越大，实际分布与期望分布的差距越大，表明行列变量之间越相关。

反之，当总差值越小时，卡方值也就越小，实际分布与期望分布越接近，表明行列变量之间越独立。

卡方检验结果：

P=0<

α（0.05），则拒绝0假设，说明变量之间存在着显著联系，即强相关性。

第二章时间序列分析

数据的时间序列分析：

事物存在于空间和时间之中，对事物的空间分布和时间序列的描述和测度，是分析问题或现象研究结果的基础。

时间序列分析（TimeSeriesAnalysis）是研究事物发展变化规律的一种量化分析方法。

一、数据空间分布类型

1、点状分布2、线状分布3、面状分布：

包括离散型区域、连续型区域两种。

离散型区域是一种不连续的面状分布，两个相邻区域之间为不同的质量或性质差异的数据系统。

数据的时间序列分析

是一些有着严格先后顺序的数据，它们之间存在着某种前后相承的关系，而非互相独立。

2、时间序列分析方法

（1）时域分析：

认为时间序列是过去值和一些相关变量的函数，即当前的表现是由过去的状态和一些外部因素决定的，通过过去和当前的序列数据可以预知未来的表现。

（2）频域分析：

认为时间序列是由若干个具有不同周期的正弦波成分叠加而成，通过复杂的数学工具，对其周期成分进行识别和分解，可以认识时间序列的特性，掌握其变化规律。

时间序列——时域分析方法

简单回归分析法：

一种基于因果关系的分析方法，适合序列间的结构分析和较长期数列数据的预测。

趋势外推法：

对序列的长期趋势利用曲线进行拟合的分析方法，适用于精度要求不很高的中长期趋势预测。

自回归（Autoregression）方法：

引入了被解释就量某些阶数的滞后变量，适用于简单回归分析中残差项存在一阶自相关情况的序列。

自回归移动平均（ARMA）模型，也称B-J方法：

认为时间序列是若干白噪声序列的某种组合（MA模型），可以由其自身的某些滞后序列进行解释（AR模型）。

常用于随机性波动较频繁序列的短期预测。

时间序列的水平分析

主要指标——发展水平、平均发展水平、增减量、平均增减量基期、报告期（末期）

序时平均数：

不同时间上的指标数值的平均数。

时期数列：

时点数列：

增减量：

报告期与基期水平之差。

平均增减量

4、时间序列的速度分析

发展速度：

报告期水平与基期水平之比

增减速度：

由增减量与基期水平对比求得

平均发展速度

------几何平均法：

侧重于研究对象的最末期的发展水平，如生产能力、产值、人口增长等的统计。

------累计法：

侧重于研究对象各期发展水平的总和，如累计资产数、累计毕业生人数等的统计。

5、时间序列的趋势变动分析

1）长期趋势：

现象在相当长的时间内所表现的某一方向持续的变化。

增长趋势

①线性趋势

a、移动平均法

是扩大原时间序列的时间间隔，选定一定的时距项数n，采用逐次递移的方法对原数列递移的n项计算一系列序时平均数。

由于数据在某一时间段内的出现很大的波动，为了滤去数据中一些短期的不规则的变化，找出较长时间的变化规律。

该方法适用来分析时间序列的长期趋势，不适合对现象未来的发展趋势进行预测。

②滑动平均法

由于地理数据在某一时间段内的出现很大的波动，为了滤去数据中一些短期的不规则的变化，找出较长时间的变化规律，常用滑动平均法处理。

常用三年、五年、十年滑动平均数

③直线趋势方程拟合

3）线性拟合趋势分析

4）非线性趋势方程拟合

抛物线型

指数曲线型

指数平滑法：

又叫指数加权移动平均法，通过对时间数列中各个数据进行加权处理，愈近的数据其权数应愈大。

可以消除时间数列的偶然因素所引起的变动，进而找出预测对象的数据变化特征和趋势。

一次指数平滑法

6、时间序列——模型评价

预测精度：

误差平方和SSE、平均绝对百分误差MAPE、预测值的方差、拟合优度R2等

变量的相关性：

F统计量、变量系数的t统计量等；

变量因果数量关系：

显著性检验

Y=0.156*X-298.4920.156为B1，然后为常数。

SPSS时间序列的预处理——数据变换

主要包括序列的平稳化处理和序列的平滑处理等。

平稳化处理的目的是使处理后的序列成为平稳序列。

一般而言，均值平稳化采用差分（Difference）处理，方差平稳化运用Box-Cox变换处理。

第三章假设检验与均数比较

数据的统计推断与假设检验

1、空间类型的抽样设计

总体：

又称母体，即在数据统计中，把准备加以观测的一个满足指定条件的地理要素的集合。

是研究对象的某特征值的全体。

样本：

从总体中抽出的一部分个体。

从总体中取出部分个体的过程，称为“抽样”。

抽样过程必须力求样本对总体具有很好的代表性。

这种代表性不仅与样本容量有关，即样本越大，抽样误差越小，反之，误差越大，还受抽样方法的制约。

抽样方法

随机抽样法、系统点抽样法、分层区域抽样法、阶梯抽样法、横截面（线）法

3、假设检验

▪假设检验的思想：

首先提出假设，然后利用样本数据来检验假设，支持，则接受假设；

不支持，则推翻假设。

▪假设检验的基本信条：

小概率原理，即发生概率很小的随机事件，在一次实验中几乎不可能发生。

参数：

描述总体的数字特征，如总体均数。

统计量：

描述样本的数字特征，如样本均数。

置信度

：

样本统计量推断总体特征的可靠性程度

置信区间：

概率保证下的总体参数的可能取值X围，如本地男性平均初婚年龄有95％的可能性为25±

2周岁。

推断统计

推断统计：

由样本数据推断总体特征的方法。

在对样本数据描述的基础上，以概率形式对总体的数量特征进行表述。

1.总体数据无法获得

2.搜集总体数据投入较大

推断统计包括参数估计和假设检验两种形式，二者原理一致，仅表现形式不同。

均数比较过程是典型的参数检验，参数检验是推断统计的重要组成部分。

假设检验的思想：

假设检验的基本信条：

假设检验分为两类：

参数检验：

总体分布已知时（如正态分布），根据样本数据对某些总体参数（如均值）进行推断。

非参数检验：

总体分布未知或不符合参数检验的假定分布时。

其中，卡方检验是非参数检验

假设检验的基本步骤

提出无效（零）假设（H0）。

选择检验统计量，给定显著性水平α。

计算检验统计量的发生概率。

依据显著性水平，作出统计结论。

假设检验

无效假设H0：

关于总体参数的假设，必定包含等号H0:

μ＝某值；

H0:

μ≥某值；

μ≤某值；

对立假设H1：

H1:

μ≠某值；

μ<

某值；

μ>

检验水平α：

即显著性水平，一般取0.01、0.05或0.10。

假设检验基于小概率原理：

给定检验水平α，如果零假设成立条件下出现现有统计量的概率等于或小于α，则认为此事件可能性很小，因此就拒绝零假设。

均数比较

★正态分布：

概率分布密度曲线呈钟型，两头低中间高，左右对称，近似于数学上的正态曲线。

其性质和特点：

☆决定于均数μ和方差σ2、☆钟形曲线、☆位置特征量均数、中位数、众数相等

☆偏度和峰度均为零

均数比较的假设检验

数据类型：

服从正态分布的定距型变量

拟解决：

某样本均值是否来自某个已知的正态总体？

两个样本所代表的总体均值是否相同？

某样本所代表的总体均值是否发生了数量上的变化？

如果两个样本均数不同，可能

展开阅读全文

统计学 复习资料Word文档下载推荐.docx

统计学复习资料Word文档下载推荐.docx