常用统计方法文档格式.docx
《常用统计方法文档格式.docx》由会员分享,可在线阅读,更多相关《常用统计方法文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
4.主成分Fi表达式;
5.主成分Fi命名;
回归分析
回归分析(regressionanalysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;
按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
方差齐性
线性关系
效应累加
变量无测量误差
变量服从多元正态分布
观察独立
模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)
误差项独立且服从(0,1)正态分布。
现实数据常常不能完全符合上述假定。
因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。
研究一个或多个随机变量Y1,Y2,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法。
又称多重回归分析。
通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。
回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。
最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ2与X的值无关。
若进一步假定随机误差遵从正态分布,就叫做正态线性模型。
一般的情形,差有k个自变量和一个因变量,因变量的值可以分解为两部分:
一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;
另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。
当函数形式为未知参数的线性函数时,称线性回归分析模型;
当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。
当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
回归分析的主要内容为:
①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。
估计参数的常用方法是最小二乘法。
②对这些关系式的可信程度进行检验。
③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
④利用所求的关系式对某一生产过程进行预测或控制。
回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
[编辑本段]
回归分析的应用
相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。
而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。
比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;
如果能够很好的拟合,则可以根据自变量作进一步预测。
例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;
质量为自变量,记为X。
根据图8-3的散点图,可以建立下面的线性关系:
Y=A+BX+§
式中:
A和B为待定参数,A为回归直线的截距;
B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;
§
为依赖于用户满意度的随机误差项。
在SPSS软件里可以很容易地实现线性回归,回归方程如下:
y=0.857+0.836x
回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;
或者说质量每提高1分对用户满意度的贡献是0.836分。
740)this.width=740"
>
上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍。
此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值。
R2又称为方程的确定性系数(coefficientofdetermination),表示方程中变量X对Y的解释程度。
R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。
通常将R2乘以100%来表示回归方程解释Y变化的百分比。
F检验是通过方差分析表输出的,通过显著性水平(significantlevel)检验回归方程的线性关系是否显著。
一般来说,显著性水平在0.05以下,均有意义。
当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。
同样地,T检验可以通过显著性水平或查表来确定。
在上面所示的例子中,各参数的意义如表8-2所示。
表8-2线性回归方程检验
指标
显著性水平
意义
R
0.89
“质量”解释了89%的“用户满意度”的变化程度
F
276.82
0.001
回归方程的线性关系显著
T
16.64
回归方程的系数显著
示例SIM手机用户满意度与相关变量线性回归分析
我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。
从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。
利用SPSS软件的回归分析,得到回归方程如下:
用户满意度=0.008×
形象+0.645×
质量+0.221×
价格
对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;
其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;
而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。
方程各检验指标及含义如下:
R2
“质量”和“形象”解释了89%的“用户满意度”的变化程度
248.53
T(形象)
0.00
1.000
“形象”变量对回归方程几乎没有贡献
T(质量)
13.93
“质量”对回归方程有很大贡献
T(价格)
5.00
“价格”对回归方程有很大贡献
从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除。
所以重新做“用户满意度”与“质量”、“价格”的回归方程如下:
用户满意度=0.645×
用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为“形象”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)。
374.69
15.15
5.06
判别分析
1、定义
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。
据此即可确定某一样本属于何类。
2、分类
根据判别中的组数,可以分为两组判别分析和多组判别分析;
根据判别函数的形式,可以分为线性判别和非线性判别;
根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;
根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等
3、应用
在气候分类、农业区划、土地类型划分中有着广泛的应用。
在市场调研中,一般根据事先确定的因变量(例如产品的主要用户、普通用户和非用户、自有房屋或租赁、电视观众和非电视观众)找出相应处理的区别特性。
在判别分析中,因变量为类别数据,有多少类别就有多少类别处理组;
自变量通常为可度量数据。
通过判别分析,可以建立能够最大限度的区分因变量类别的函数,考查自变量的组间差异是否显著,判断那些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值将样本归类。
系统聚类分析
是一门多元统计分类法,根据多种地学要素对地理实体进行划分类别的方法。
对不同的要素划分类别往往反映不同目标的等级序列,如土地分等定级、水土流失强度分级等。
系统聚类的步骤一般是首先根据一批地理数据或指标找出能度量这些数据或指标之间相似程度的统计量;
然后以统计量作为划分类型的依据,把一些相似程度大的站点(或样品)首先聚合为一类,而把另一些相似程度较小的站点(或样品)聚合为另一类,直到所有的站点(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。
其相似程度由距离或者相似系数定义。
进行类别合并的准则是使得类间差异最大,而类内差异最小。
特点:
事先无须知道分类对象的分类结构,而只需要一批地理数据;
然后选好分类统计量,并按一定的方法步骤进行计算;
最后便能自然地、客观地得到一张完整的分类系统图。
相关分析
目录[隐藏]
相关分析定义
相关分析的分类
相关分析与回归分析的关系
复相关
相关分析定义
相关分析(correlationanalysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
相关分析的分类
1、线性相关分析:
研究两个变量间线性关系的程度。
用相关系数r来描述。
-正相关:
如果x,y变化的方向一致,如身高与体重的关系,r>
0;
一般地,
·
|r|>
0.95存在显著性相关;
|r|≥0.8高度相关;
0.5≤|r|<
0.8中度相关;
0.3≤|r|<
0.5低度相关;
|r|<
0.3关系极弱,认为不相关
负相关:
如果x,y变化的方向相反,如吸烟与肺功能的关系,r<
无线性相关:
r=0。
如果变量Y与X间是函数关系,则r=1或r=-1;
如果变量Y与X间是统计关系,则-1<
r<
1。
r的计算有三种:
Pearson相关系数:
对定距连续变量的数据进行计算。
Spearman和Kendall相关系数:
对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。
2、偏相关分析:
研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。
如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。
3、距离分析:
是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。
分为观测量之间距离分析和变量之间距离分析。
-不相似性测度:
a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。
b、对计数数据使用卡方。
c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。
-相似性测度:
a、等间隔数据使用统计量Pearson相关或余弦。
b、测度二元数据的相似性使用的统计量有20余种。
相关分析与回归分析的关系
相关分析与回归分析在实际应用中有密切关系。
然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。
而在相关分析中,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。
例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。
复相关
研究一个变量x0与另一组变量(x1,x2,…,xn)之间的相关程度。
例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。
复相关系数R0.12…n的测定,可先求出x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。
复相关系数为
R0.12…n的取值范围为0≤R0.12…n≤1。
复相关系数值愈大,变量间的关系愈密切。
偏相关研究在多变量的情况下,当控制其他变量影响后,两个变量间的直线相关程度。
又称净相关或部分相关。
例如,偏相关系数r13.2表示控制变量x2的影响之后,变量x1和变量x3之间的直线相关。
偏相关系数较简单直线相关系数更能真实反映两变量间的联系。
时间序列分析
时间序列分析(Timeseriesanalysis)是一种动态数据处理的统计方法。
该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。
它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。
经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。
后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。
例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。
参考自:
科学技术方法大辞典
时间序列是按时间顺序的一组数字序列。
时间序列分析就是利用这组数列,应用数理统计方法加以处理,以预测未来事物的发展。
时间序列分析是定量预测方法之一,它的基本原理:
一是承认事物发展的延续性。
应用过去数据,就能推测事物的发展趋势。
二是考虑到事物发展的随机性。
任何事物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理。
该方法简单易行,便于掌握,但准确性差,一般只适用于短期预测。
时间序列预测一般反映三种实际变化规律:
趋势变化、周期性变化、随机性变化。
时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。
它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。
时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。
时间序列建模基本步骤是:
①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。
②根据动态数据作相关图,进行相关分析,求自相关函数。
相关图能显示出变化的趋势和周期,并能发现跳点和拐点。
跳点是指与其他数据不一致的观测值。
如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。
拐点则是指时间序列从上升趋势突然变为下降趋势的点。
如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。
③辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。
对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。
对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。
当观测值多于50个时一般都采用ARMA模型。
对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。
时间序列分析主要用于:
①系统描述。
根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述。
②系统分析。
当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理。
③预测未来。
一般用ARMA模型拟合时间序列,预测该时间序列未来值。
④决策和控制。
根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
方差分析(AnalysisofVariance,简称ANOVA)
什么是方差分析
方差分析(ANOVA)又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。
由于各种因素的影响,研究所得的数据呈现波动状。
造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
一个复杂的事物,其中往往有许多因素互相制约又互相依存。
方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。
方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。
对变差的度量,采用离差平方和。
方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。
经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。
若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。
1、多个样本均数间两两比较
多个样本均数间两两比较常用q检验的方法,即Newman-kueuls法,其基本步骤为:
建立检验假设-->
样本均数排序-->
计算q值-->
查q界值表判断结果。
2、多个实验组与一个对照组均数间两两比较
多个实验组与一个对照组均数间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);
若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q'
界值表。
方差分析的基本思想
通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
下面我们用一个简单的例子来说明方差分析的基本思想:
如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下:
患者:
0.841.051.201.201.391.531.671.801.872.072.11
健康人:
0.540.640.640.750.760.811.161.201.341.351.481.561.87
问该地克山病患者与健康人的血磷值是否不同?
从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均数的变异情况,则总变异有以下两个来源:
组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等;
组间变异,即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。
而且:
SS总=SS组间+SS组内