1、7922.069.6比较好91.6好246.798.3非常好61.7 其次对原有数据中的积极性进行频数分析,结果如下表 :其次对原有数据中的是否进通道进行频数分析,结果如下表 :Statistics通道ValidMissingFrequencyPercentValid PercentCumulative Percent没走通道29381.66618.4Total这说明,在该地区被调查的359个人中,有没走通道的占81.6%,占绝大多数。上表及其直方图说明,被调查的359个人中,对与旅游积极性差的组频数最高的,为171 人数的47.6%,其次为积极性一般和比较好的,占比例都为22.0%,积性为好
2、的和非常好的比例比较低,分别为24人和6人,占总体的比例为6.7%和1.7%。2、 描述统计分析。再通过简单的频数统计分析了解了职工在性别和受教育水平上的总体分布状况后,我们还需要对数据中的其他变量特征有更为精确的认识,这就需要通过计算基本描述统计的方法来实现。下面就对各个变量进行描述统计分析,得到它们的均值、标准差、片度峰度等数据,以进一步把我数据的集中趋势和离散趋势。描述统计量极小值极大值均值标准差方差偏度峰度标准误收入7.4266250.0001032.93021762.523942581442.7621.790.1296.869.257旅游花费211006116.41130.71617
3、086.7043.14513.401有效的 N (列表状态)如表所示,以起始工资为例读取分析结果,359个人中收入最小值为7.426¥,最大值为6250.00000¥,平均1032.9302¥,标准差为762.5239¥偏度系数和峰度系数分别为1.790和6.869。其他数据依此读取,则该表表明该地区旅游花费的详细分布状况。3、 探索性数据分析(1) 交叉分析。通过频数分析能够掌握单个变量的数据分布情况,但是在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多个变量的联合分布特征,进而分析变量之间的相互影响和关系。就本数据而言,需要了解现工资与性别、年龄、受教育
4、水平、起始工资、本单位工作经历、以前工作经历、职务等级的交叉分析。现以现工资与职务等级的列联表分析为例,读取数据(下面数据分析表为截取的一部分):Count 性别* 积极性 交叉制表计数9647411227532384上联表及Bar Chart涉及两个变量,即性别与积极性的二维交叉,反映了在不同的性别对于旅游积极性分布情况。上表中,性别成为行向量,积极性列向量。(2)性别与收入的探索性分析Case Processing SummaryCases100.0%.0%DescriptivesStatisticStd. ErrorMean1005.2856249.51479695% Confidenc
5、e Interval for MeanLower Bound907.63853Upper Bound1102.932725% Trimmed Mean957.92011Median937.50000Variance485439.577Std. Deviation696.734940MinimumMaximum3125.000Range3117.574Interquartile Range937.563Skewness.896.173Kurtosis.310.3441066.9279165.993219936.597791197.25802986.95497701171.907837.36008
6、258.6306191.370718.7502.370.19110.166.380Stem-and-Leaf Plots收入 Stem-and-Leaf Plot for性别= 女 Frequency Stem & Leaf 13.00 1 . 0000000001111 4.00 1 . 7777 5.00 1 . 88888 .00 2 . 4.00 2 . 5555 1.00 2 . 6 2.00 2 . 88 3.00 Extremes (=3000) Stem width: 1000.000 Each leaf: 1 case(s)性别= 男 13.00 1 . 0000000000
7、011 2.00 1 . 77 6.00 1 . 888889 6.00 2 . 000111 12.00 Extremes (=2351)结果分析如下 收入 女 男平均数 1005.28562 1066.92791 均数的95%可信区间 (907.63853,1102.93272) (936.59779,1197.25802)5%的调整均数 957.92011 986.95497 中位数 937.50000 937.50000标准差 696.734940 837.360082标准差 485439.577 701171.907最小值 7.426 58.630最大值 3125.000 6250.
8、000极差 3117.574 6191.370四分位数间距 937.563 718.750偏度系数 2.370 2.370峰度系数 .310 10.166(3)p-p图分析Age结果分析年龄在正态p-p图的散点近似成一条直线,无趋势正态p-p图的散点均匀分布在直线y=0的上下,故可认为本资料服从正态分布4、 相关分析。相关分析是分析客观事物之间关系的数量分析法,明确客观事之间有怎样的关系对理解和运用相关分析是极其重要的。函数关系是指两事物之间的一种一一对应的关系,即当一个变量X取一定值时,另一个变量函数Y可以根据确定的函数取一定的值。另一种普遍存在的关系是统计关系。统计关系是指两事物之间的一种
9、非一一对应的关系,即当一个变量X取一定值时,另一个变量Y无法根据确定的函数取一定的值。统计关系可分为线性关系和非线性关系。事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强有的关系弱,程度各有差异。如何测度事物之间的统计关系的强弱是人们关注的问题。相关分析正是一种简单易行的测度事物之间统计关系的有效工具。Correlations额外收入Pearson Correlation1.140*.853*Sig. (2-tailed).008.000.183*. Correlation is significant at the 0.01 l
10、evel (2-tailed).上表是对本次分析数据中,旅游花费、收入、额外收入的相关分析,表中相关系数旁边有两个星号(*)的,表示显著性水平为0.01时,仍拒绝原假设。一个星号(*)表示显著性水平为0.05是仍拒绝原假设。先以现旅游花费这一变量与其他变量的相关性为例分析,由上表可知,旅游花费与额外收入的相关性最大,5.回归分析有相关性分析可得收入,旅游花费呈线性相关,因此作回归分析Variables Entered/RemovedbModelVariables EnteredVariables RemovedMethod收入a.Entera. All requested variables
11、entered.b. Dependent Variable: 旅游花费Model SummarybRR SquareAdjusted R SquareStd. Error of the Estimate.140a.020.017129.604a. Predictors: (Constant), 收入ANOVAbSum of SquaresdfMean SquareFSig.Regression120443.8097.170.008aResidual5996596.23935716797.1886117040.048358CoefficientsaUnstandardized Coefficie
12、ntsStandardized CoefficientstBBeta(Constant)91.56311.5287.943.024.009.1402.678a. Dependent Variable:Residuals StatisticsaPredicted Value91.74241.9018.342Std. Predicted Value-1.3456.8421.000Standard Error of Predicted Value6.84047.3629.0483.426Adjusted Predicted Value92.09271.79116.5319.018-193.90489
13、1.785129.423Std. Residual-1.4966.881.999Stud. Residual-1.6076.8911.002Deleted Residual-223.789894.316-.117130.229Stud. Deleted Residual-1.6117.390.0041.025Mahal. Distance46.811.9972.955Cooks Distance.199.003.015Centered Leverage Value.131Charts 由上图可知回归方程:y=91.563+ 0.024 (x1) , (P(Sig=0.000)0.01)即 旅游花费=91.563+0.024*收入 ( p0.05旅游花费不成显著性差异,由图中可知旅行的旅游花费较高。学号: 姓名 : 班级 :
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1