ImageVerifierCode 换一换
格式:DOCX , 页数:69 ,大小:440.42KB ,
资源ID:7357416      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7357416.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(教育多元统计学与SPSS软件67相关回归.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

教育多元统计学与SPSS软件67相关回归.docx

1、教育多元统计学与SPSS软件67相关回归第六章 相关分析我们在实际工作中所遇到的变量,都是相互联系、相互制约的,从而它们之间存在着一定的关系。人们通过各种实践,发现变量之间的关系大致可以分为两种: 确定性的关系,即函数关系; 非确定性的关系,即相关关系。相关分析是研究相关关系的一种常用的统计方法,分为简单相关分析与偏相关分析。第一节 简单相关分析1相关系数相关关系:变量之间有关,但又不能由一个或几个变量去完全惟一确定另一个变量取值的关系(或很难用函数关系表达出来)。相关关系的密切程度用简单相关系数(在不引起混淆的情况下,简称相关系数)反映,用r表示,其值在-1到+1之间,绝对值愈接近1,表明密

2、切程度愈高,关系愈密切;愈接近0,表明密切程度愈低,关系愈不密切。这里的密切是指线性关系,当r的值很小时,只能说明无线性关系,事实上有可能存在其他的关系,如曲线关系等。r的符号表示两个变量的相关方向:r0时,两变量存在着正相关关系,一个变量的取值随着另一个变量取值的增大而增大;rr,则显著。注:若n很大,即使r很小,也很容易得到“显著”的结论。因而在相关分析的过程中,除说明是否显著外,还应对r 的大小加以说明。一般情况下,可以这样判断:|r|0.7,高度相关;0.4|r|0.7,中度相关;|r|0.4,低度相关。2SPSS软件操作步骤选择“Analyze”“Correlate”“Bivaria

3、te”项,弹出如图6.1.1所示的对话框。图6.1.1 相关系数计算对话框21 Variables框存放变量。22 Correlation Coefficients项 Pearson积差相关,用于连续变量或等间距测度的变量。 Kendalls tau-b等级相关,计算分类变量间的秩相关。 Spearman等级相关,计算斯皮尔曼相关。当变量不服从正态分布或总体分布未知时,可使用Kendalls tau-b 或Spearman相关。23 Test of Significance项 Two-tailed双尾检验,用于事先不知道相关方向(即正相关还是负相关)的情况。 One-tailed单尾检验,用于

4、事先知道相关方向的情况。双尾、单尾检验也称为双侧、单侧检验。双侧检验时,当原假设被拒绝后,还有两种可能,显著性水平分布在图形的两侧。有时在进行检验前,可以判定一种情况不成立,当原假设被拒绝后,只剩下一种情况了。在同一显著性水平下,由于单侧检验的临界值比双侧检验的临界值靠近总体均值,因此,容易检验出显著性差异来。24 Flag significant Corrlations项在相关系数右上方用“*”标出检验结果。“*”表示显著性水平为0.05;“*”表示显著性水平为0.01。25 Options按钮图6.1.2 Options对话框 Statistics项 Means and standard

5、deviations输出均值与标准差。 Cross-product deviations and covariances输出叉积离差阵和协方差阵。 Missing Values项 Exclude cases pairwise剔除本计算变量含有缺失值的数据。 Exclude cases listwise剔除所有计算变量含有缺失值的数据。3应用举例 例6.1.1 为研究学生的平时作文成绩x与高考作文成绩y的关系,随机抽取50名考生,数据见表6.1.1,试进行相关分析。表6.1.1 平时作文成绩x与高考作文成绩y序号12345678910x80789092827290846476y292430322

6、82527301525注:为节省篇幅与输入量,本例只取了10人,实际问题中应尽量多取一些。选择“Analyze”“Correlate”“Bivariate”项,将变量x、y放入“Variables”框;选中“pearson”、“Two-tailed”。按“Options”按钮,选中“Means and standard deviations”与“Cross-product deviations and covariances”。计算结果如下。表6.1.2 平均数与标准差Descriptive StatisticsMeanStd. DeviationN X80.8000008.80403910

7、Y26.5000004.79003610 表6.1.3 相关系数与检验结果CorrelationsXY XPearson Correlation1.0000.869 Sig. (2-tailed).0.001 Sum of Squares and Cross-products697.600330.000 Covariance77.51136.667 N1010 YPearson Correlation0.8691.000 Sig. (2-tailed)0.001. Sum of Squares and Cross-products330.000206.500 Covariance36.6672

8、2.944 N1010 * Correlation is significant at the 0.01 level (2-tailed).Sum of Squares and Cross-products:积差平方和Covariance:协方差平时作文成绩x与高考作文成绩y的相关系数为0.869,P=0.0010.01,高度显著,说明两者之间存在着线性相关关系,又相关系数值较大,说明高度相关。第二节 偏相关分析1偏相关系数相关分析的结果往往因为第3个变量的作用,使得相关系数不能真正反映两个变量之间的相关程度,而偏相关系数反映的是除去其他变量的影响后两个变量的真正关系。偏相关系数用r表示,如x

9、1、x2在除去x3的影响后的偏相关系数称为x1、x2对x3的偏相关系数,记为r12,3,其计算公式为: r12-r13r23r12,3= (1-r213)(1-r223)其中,r12、r13、r23为简单相关系数。偏相关系数计算公式的一般形式为: -dijrij = diidjj称为变量xi与xj在除去其他变量的影响后的偏相关系数,dij为简单相关系数矩阵R(p+1阶)的逆矩阵的元素。2SPSS软件操作步骤选择“Analyze”“Correlate”“Partial”项,弹出如图6.2.1所示的对话框。21 Valiables框存放偏相关分析的变量。22 Controlling for框存放控

10、制的变量。23 Test of Significance项含义同第一节。图6.2.1 偏相关系数计算对话框24 Display actual significance level在显示相关系数的同时,显示实际的显著性概率,不选此项,用“*”代替。25 Options按钮Zero-order correlation:显示零阶相关矩阵,即Pearson相关矩阵。其余各项的含义同第一节。3应用举例例6.2.1 某地29名13岁男童身高(X1)、体重(X2)与肺活量(y)的数据见表6.2.1,试进行控制体重影响作用的身高与肺活量的相关分析。表6.2.1 身高体重肺活量(1)序身高体重肺活量序身高体重肺

11、活量1135.132.01750.016153.047.21750.02139.930.42000.017147.640.52000.03163.646.22750.018157.543.32250.04146.533.52500.019155.144.72750.05156.237.12750.020160.537.52000.06156.435.52000.021143.031.51750.07167.841.52750.022149.433.92250.08149.731.01500.023160.840.42750.09145.033.02500.024159.038.52500.0表

12、6.2.1 身高体重肺活量(2)序身高体重肺活量序身高体重肺活量10148.537.22250.025158.237.52000.011165.549.53000.026150.036.01750.012135.027.61250.027144.534.72250.013153.341.02750.028154.639.52500.014152.032.01750.029156.532.01750.015160.547.22250.0选择“Analyze”“Correlate”“Partial”项,将用于偏相关分析的变量x1与y放入“Valiables”框,用于控制的变量x2放入“Contro

13、lling for”框,选中“Display actual significance level”。按“Options”按钮,选中“Means and standard deviations”与“Zero-order correlation”。计算结果如下。Variable Mean Standard Dev CasesX1 152.5759 8.3622 29Y 2206.8966 448.5541 29X2 37.6517 5.7455 29以上是平均数、标准差。Zero Order Partials X1 Y X2X1 1.0000 0.5884 0.7194 ( 0) ( 27) (

14、27) P= . P=0.001 P=0.000Y 0.5884 1.0000 0.6127 ( 27) ( 0) ( 27) P=0.001 P= . P=0.000X2 0.7194 0.6127 1.0000 ( 27) ( 27) ( 0) P=0.000 P=0.000 P= .(Coefficient / (D.F.) / 2-tailed Significance) . is printed if a coefficient cannot be computed以上是简单相关系数。身高与肺活量的相关系数为0.5884,身高与体重的相关系数为0.7194,体重与肺活量的相关系数为0

15、.6127。P值均小于0.01,高度显著。表明身高、体重、肺活量之间均存在着线性相关关系,特别是身高与体重关系较为密切。Controlling for. X2 X1 YX1 1.0000 0.2688 ( 0) ( 26) P= . P=0.167(不显著)Y 0.2688 1.0000 ( 26) ( 0) P=0.167 P= .(Coefficient / (D.F.) / 2-tailed Significance)以上是偏相关系数,在除去体重的影响后,身高与肺活量的偏相关系数为0.2688,检验结果为不显著,表明身高与肺活量之间不存在线性相关关系。这是因为身高与体重之间的关系较为密切

16、,在分析身高与肺活量之间的相关关系时,也包括了体重的正效应,当排除了体重的影响后,身高与肺活量就不存在相关关系了。由本例知,身高与肺活量的相关系数为0.5884、偏相关系数为0.2688,系数值相差很大,有的问题甚至两者的符号不同,此时,应该以偏相关系数的结论为准。因为偏相关系数才能真正反映两个变量的本质联系,而简单相关系数则可能由于其他变量的影响,反映的只是表面的非本质的联系,甚至可能完全是假象。第三节 距离分析距离分析用来研究变量或观测值之间的相似性,其结果可用于因子分析、聚类分析等较为复杂的分析过程。距离分析根据计算的变量或观测值之间的相似系数,对其进行分类。计算调用“Analyze”“

17、Correlate”“Distances”项。详见有关参考文献。第七章 回归分析回归分析是研究变量之间关系的一种统计方法,利用它可以给出预测方程,根据一个或几个自变量的值预测因变量的值,并且可以确定这种预测的精度;还可以进行因素分析,对于共同影响因变量的诸多因素,找出哪些是主要因素、哪些是次要因素。回归分析的内容较多,常用的有线性回归、曲线回归、非线性回归、Logistic回归、Cox回归、概率单位回归等,本章只介绍常用的几种方法。第一节 线性回归分析线性回归分析研究的是因变量与自变量之间的线性依存关系。1 一元线性回归分析11 一元线性回归方程 Y=a+bx其中,x为自变量,Y为因变量,a为

18、回归常数,b为回归系数。12 确定回归直线的原则具有线性相关关系的两个变量可以用直线来表示它们之间的关系,这样的直线可以作出许多条,但用哪一条直线表示它们之间的关系好呢?这就需要有一个明确的原则:使所配的这条直线要与所有的散点最接近,也即要使平方和:Q=( yi- yi )2 达到极小值,常用的方法是最小二乘法。其中,yi为观测值,yi为预测值。13关系描述仍用相关系数r描述因变量与自变量之间的关系。14 检验对计算出的回归方程,要进行检验,若回归方程显著,才能进行预测,方法见下面的“多元线性回归分析”。15 应用举例例7.1.1 一般来说,物理成绩受数学成绩的影响较大,今收集到20名学生的物

19、理、数学成绩,试建立用数学成绩预测物理成绩的回归方程。表7.1.1 20名学生物理数学成绩数学X78678976839174699466物理Y74637075818667638962数学X77866793856590837581物理Y79886590786780917382选择“Analyze ”“Regression”“Linear”项,将因变量Y放入“Dependent”框,自变量X放入“Independents”框。在“Method”中选择默认的方法“Entre”,回归方程中保留全部自变量。按“Statistics”按钮,除了两个默认项“Estimates”、“Model fit”外,另

20、外选择“R squared change”、“Descriptives”、“Casewise diagnostic”中的“All Cases”项,输出回归分析的一些常用结果与每一例的标准化残差、实测值、预测值及残差。按“Save”按钮,选择两个“Unstandardized”项,保存未标准化的预测值与残差。计算结果如下。表7.1.2 相关系数Model SummaryModelRR SquareAdjusted R SquareStd. Error of the Estimate 10.8360.6990.6835.4694 a Predictors: (Constant), X相关系数为0.

21、836,说明物理成绩与数学成绩确实存在着较高的线性相关关系。表中各项分别为:复相关系数、判定系数、调整的判定系数、剩余标准差。表7.1.3 方差分析表ANOVAModelSum of SquaresdfMean SquareFSig. 1 Regression ResidualTotal1252.09511252.09541.8560.000 538.4551829.914 1790.55019 a Predictors: (Constant), Xb Dependent Variable: Y P=0.000F,回归方程显著。其中n为人数,p为自变量个数。 回归系数经检验具有显著意义的回归方

22、程,只是对p个自变量这一整体而言的,并不能说明每个自变量对因变量的影响都是显著的,那么,哪些自变量的影响显著、哪些自变量的影响不显著呢?这就需要对回归系数进行检验,从方程中剔除那些影响不显著的自变量。23 复相关系数RR表示因变量与所有自变量之间的线性相关的密切程度,其取值范围在01之间,愈接近1,表明线性关系愈密切,愈接近0,表明线性关系愈不密切。复相关系数的计算公式为: U R= LyyR2称为判定系数,它是回归平方和在总平方和中所占的比率,体现了回归模型所能解释的因变量变异性的比率,如例7.1.1中的R2=0.699,说明因变量Y的变异中有69.9%是由自变量引起的。SPSS软件中给出的

23、“Adjusted R Square”是消除了自变量个数影响的R2的修正值,其计算公式为: n-1AR2=1-(1-R2) n-p-1其中n 为人数,p为自变量个数。24 剩余标准差Sy剩余标准差表示观测值偏离回归直线的平均误差,用来衡量预测的精确度,其值愈小愈精确。在用回归方程进行预测时,不要只满足检验的结论是否显著,还应结合剩余标准差Sy 的大小进行分析,虽回归方程显著,但若其值较大,仍不能用于预测。剩余标准差的计算公式为: Q Sy= n-p-1Sy只能用于同类问题的比较,不同的问题不便于比较。有学者通过研究,引进了标准剩余标准差Sy的概念:Sy= Sy /100%(为因变量的平均数)若

24、Sy在(0,1%)、(1%,2%)、(2%,3%)、(3%,4%)、(5%,)范围内,则结论分别为预测精度高、较高、一般、较低、低。用建立的回归方程说明问题,最好标明Sy、Sy,否则,既影响了研究课题本身的质量,又给使用回归方程的人带来一定的困惑。25 残差图利用残差图可以判断模型的拟合效果,若各点呈随机分布,并大部分在26的范围内(68%的在6内,96%的点在26内),说明模型的拟合效果好,若大部分在该范围外,说明模型的拟合效果不好。26 共线性指自变量之间的相关关系太高,这种情况会给回归分析带来困扰。实际问题中尽量挑选关系不密切的变量作为自变量。3逐步回归分析多元回归方程中包含了所有的自变量,这似乎是较为理想的方程,然而事实上并不尽如此。若回归方程中含有对因变量不显著的自变量,反而

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1