统计学 复习资料Word文档下载推荐.docx

上传人:b****6 文档编号:15953641 上传时间:2022-11-17 格式:DOCX 页数:21 大小:278.17KB
下载 相关 举报
统计学 复习资料Word文档下载推荐.docx_第1页
第1页 / 共21页
统计学 复习资料Word文档下载推荐.docx_第2页
第2页 / 共21页
统计学 复习资料Word文档下载推荐.docx_第3页
第3页 / 共21页
统计学 复习资料Word文档下载推荐.docx_第4页
第4页 / 共21页
统计学 复习资料Word文档下载推荐.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

统计学 复习资料Word文档下载推荐.docx

《统计学 复习资料Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《统计学 复习资料Word文档下载推荐.docx(21页珍藏版)》请在冰豆网上搜索。

统计学 复习资料Word文档下载推荐.docx

按质量标志分组和按数量标志分组。

按质量标志分组,多用于人文-经济地理领域,其组数取决于社会经济现象的基本类型和其在研究中的意义,而且不分组距。

如:

在人口地理研究中,将人口按性别、民族、职业进行分组。

按数量标志分组,是先依其变量类型不同,分为离散型变量和连续型变量,然后再根据其特征的不同进行分组。

离散型变量可采用单项式(每个变量为一组)和组距式(整个变量分成几个区间,每个区间为一组)处理。

连续型变量只能采取组距式分组。

又可分为等距和不等距分组两种。

组距分组:

第一步,求变量的全距RR=Xmax-Xmin

第二步,确定组数nn=1+3.32lgN(N为样本总量)

第三步,计算组距:

h=R/n

第四步,确定每组的上、下限

2、数据的合并与分割3、数据的函数变换4、数据的其他变换

数据的函数变换

是将原始数据的每一个数值通过特定的运算方式变换成新的数值。

在原有数据基本上,计算产生一些含有更丰富信息的新数据。

使数据更直观、更有效。

常见的数据变换有:

对数或多项式变换;

时间序列的平稳化处理;

利用区间变换压缩数据取值X围和标准化处理等。

包括算术表达式、条件表达式和函数三大部分。

第二节数据的分布特征

数据经过整理后,得出了频数分布的大致情况。

但为了确切地表示地理数据的分布性质和在数量上的特征,需要进一步定量计算其特征值。

在数据的分布性质中,最重要的两个性质是集中性和分散性。

反映数据集中性的特征值有:

平均值(均数)、中位数、众数等。

反映数据分散性的特征值有:

绝对离差度(离差、离差平方和、标准差、方差等)和相对离差度(变异系数)

1、平均数(均数,Mean)

可代表数据的一般水平,并可作为对比分析的指标。

主要包括算术平均数和几何平均数。

(1)简单算术平均数:

(2)加权算术平均数:

3)几何平均数

一般用来分析和研究国民经济、企业生产或人口等方面的平均发展速度和平均增长速度

2、中位数(Median)

也称中央值,它是数据按大小排序后位居中间的那个数值。

当一个数据变量值分布很偏时,以中位数表示集中趋势比算术平均数更合理。

如收入、分数的分布。

对于未分组的数据:

3、众数(Mode)

是数据中出现频数最多的那个数。

对于未分组的数据,可以根据每一个数据出现的频数大小直接确定众数。

对于分组数据,按以下公式计算众数:

三、数据的分布形态

1、偏度(Skewness):

反映频数分布偏态方向和程度的测度

偏度值大于0,表示正偏差值大,称为右偏或正偏;

偏度值小于0,表示负偏差值大,为负偏或左偏。

(2)峰度(Kurtosis):

指频数分布曲线高峰的形态,即反映分布曲线的尖峭程度的测度。

当β=0时,表示分布的峰度是正态分布的峰度;

当β>

0时,表示分布曲线的高峰是尖顶高峰;

当β<

0时,表示分布曲线的高峰是平顶高峰。

右面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。

•交叉列联表的卡方(X2)检验

•在列联表确定的情况下,卡方统计量观测值的大小仅取决于观测频数与期望频数的总差值。

当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关。

反之,当总差值越小时,卡方值也就越小,实际分布与期望分布越接近,表明行列变量之间越独立。

卡方检验结果:

P=0<

α(0.05),则拒绝0假设,说明变量之间存在着显著联系,即强相关性。

第二章时间序列分析

数据的时间序列分析:

事物存在于空间和时间之中,对事物的空间分布和时间序列的描述和测度,是分析问题或现象研究结果的基础。

时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析方法。

一、数据空间分布类型

1、点状分布2、线状分布3、面状分布:

包括离散型区域、连续型区域两种。

离散型区域是一种不连续的面状分布,两个相邻区域之间为不同的质量或性质差异的数据系统。

数据的时间序列分析

是一些有着严格先后顺序的数据,它们之间存在着某种前后相承的关系,而非互相独立。

2、时间序列分析方法

(1)时域分析:

认为时间序列是过去值和一些相关变量的函数,即当前的表现是由过去的状态和一些外部因素决定的,通过过去和当前的序列数据可以预知未来的表现。

(2)频域分析:

认为时间序列是由若干个具有不同周期的正弦波成分叠加而成,通过复杂的数学工具,对其周期成分进行识别和分解,可以认识时间序列的特性,掌握其变化规律。

时间序列——时域分析方法

简单回归分析法:

一种基于因果关系的分析方法,适合序列间的结构分析和较长期数列数据的预测。

趋势外推法:

对序列的长期趋势利用曲线进行拟合的分析方法,适用于精度要求不很高的中长期趋势预测。

自回归(Autoregression)方法:

引入了被解释就量某些阶数的滞后变量,适用于简单回归分析中残差项存在一阶自相关情况的序列。

自回归移动平均(ARMA)模型,也称B-J方法:

认为时间序列是若干白噪声序列的某种组合(MA模型),可以由其自身的某些滞后序列进行解释(AR模型)。

常用于随机性波动较频繁序列的短期预测。

时间序列的水平分析

主要指标——发展水平、平均发展水平、增减量、平均增减量基期、报告期(末期)

序时平均数:

不同时间上的指标数值的平均数。

时期数列:

时点数列:

增减量:

报告期与基期水平之差。

平均增减量

4、时间序列的速度分析

发展速度:

报告期水平与基期水平之比

增减速度:

由增减量与基期水平对比求得

平均发展速度

------几何平均法:

侧重于研究对象的最末期的发展水平,如生产能力、产值、人口增长等的统计。

------累计法:

侧重于研究对象各期发展水平的总和,如累计资产数、累计毕业生人数等的统计。

5、时间序列的趋势变动分析

1)长期趋势:

现象在相当长的时间内所表现的某一方向持续的变化。

增长趋势

①线性趋势

a、移动平均法

是扩大原时间序列的时间间隔,选定一定的时距项数n,采用逐次递移的方法对原数列递移的n项计算一系列序时平均数。

由于数据在某一时间段内的出现很大的波动,为了滤去数据中一些短期的不规则的变化,找出较长时间的变化规律。

该方法适用来分析时间序列的长期趋势,不适合对现象未来的发展趋势进行预测。

②滑动平均法

由于地理数据在某一时间段内的出现很大的波动,为了滤去数据中一些短期的不规则的变化,找出较长时间的变化规律,常用滑动平均法处理。

常用三年、五年、十年滑动平均数

③直线趋势方程拟合

3)线性拟合趋势分析

4)非线性趋势方程拟合

抛物线型

指数曲线型

指数平滑法:

又叫指数加权移动平均法,通过对时间数列中各个数据进行加权处理,愈近的数据其权数应愈大。

可以消除时间数列的偶然因素所引起的变动,进而找出预测对象的数据变化特征和趋势。

一次指数平滑法

6、时间序列——模型评价

预测精度:

误差平方和SSE、平均绝对百分误差MAPE、预测值的方差、拟合优度R2等

变量的相关性:

F统计量、变量系数的t统计量等;

变量因果数量关系:

显著性检验

Y=0.156*X-298.4920.156为B1,然后为常数。

SPSS时间序列的预处理——数据变换

主要包括序列的平稳化处理和序列的平滑处理等。

平稳化处理的目的是使处理后的序列成为平稳序列。

一般而言,均值平稳化采用差分(Difference)处理,方差平稳化运用Box-Cox变换处理。

第三章假设检验与均数比较

数据的统计推断与假设检验

1、空间类型的抽样设计

总体:

又称母体,即在数据统计中,把准备加以观测的一个满足指定条件的地理要素的集合。

是研究对象的某特征值的全体。

样本:

从总体中抽出的一部分个体。

从总体中取出部分个体的过程,称为“抽样”。

抽样过程必须力求样本对总体具有很好的代表性。

这种代表性不仅与样本容量有关,即样本越大,抽样误差越小,反之,误差越大,还受抽样方法的制约。

抽样方法

随机抽样法、系统点抽样法、分层区域抽样法、阶梯抽样法、横截面(线)法

3、假设检验

▪假设检验的思想:

首先提出假设,然后利用样本数据来检验假设,支持,则接受假设;

不支持,则推翻假设。

▪假设检验的基本信条:

小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。

参数:

描述总体的数字特征,如总体均数。

统计量:

描述样本的数字特征,如样本均数。

置信度

样本统计量推断总体特征的可靠性程度

置信区间:

概率保证下的总体参数的可能取值X围,如本地男性平均初婚年龄有95%的可能性为25±

2周岁。

推断统计

推断统计:

由样本数据推断总体特征的方法。

在对样本数据描述的基础上,以概率形式对总体的数量特征进行表述。

1.总体数据无法获得

2.搜集总体数据投入较大

推断统计包括参数估计和假设检验两种形式,二者原理一致,仅表现形式不同。

均数比较过程是典型的参数检验,参数检验是推断统计的重要组成部分。

假设检验的思想:

假设检验的基本信条:

假设检验分为两类:

参数检验:

总体分布已知时(如正态分布),根据样本数据对某些总体参数(如均值)进行推断。

非参数检验:

总体分布未知或不符合参数检验的假定分布时。

其中,卡方检验是非参数检验

假设检验的基本步骤

提出无效(零)假设(H0)。

选择检验统计量,给定显著性水平α。

计算检验统计量的发生概率。

依据显著性水平,作出统计结论。

假设检验

无效假设H0:

关于总体参数的假设,必定包含等号H0:

μ=某值;

H0:

μ≥某值;

μ≤某值;

对立假设H1:

H1:

μ≠某值;

μ<

某值;

μ>

检验水平α:

即显著性水平,一般取0.01、0.05或0.10。

假设检验基于小概率原理:

给定检验水平α,如果零假设成立条件下出现现有统计量的概率等于或小于α,则认为此事件可能性很小,因此就拒绝零假设。

均数比较

★正态分布:

概率分布密度曲线呈钟型,两头低中间高,左右对称,近似于数学上的正态曲线。

其性质和特点:

☆决定于均数μ和方差σ2、☆钟形曲线、☆位置特征量均数、中位数、众数相等

☆偏度和峰度均为零

均数比较的假设检验

数据类型:

服从正态分布的定距型变量

拟解决:

某样本均值是否来自某个已知的正态总体?

两个样本所代表的总体均值是否相同?

某样本所代表的总体均值是否发生了数量上的变化?

如果两个样本均数不同,可能

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 化学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1