1、数据分析实验报告第一次试验报告习题1.31建立数据集,定义变量并输入数据并保存。2数据的描述,包括求均值、方差、中位数等统计量。分析描述统计频率,选择如下:输出:统计量全国居民农村居民城镇居民N有效222222缺失000均值1116.82747.862336.41中值727.50530.501499.50方差1031026.918399673.8384536136.444百分位数25304.25239.75596.2550727.50530.501499.50751893.501197.004136.753画直方图,茎叶图,QQ图。(全国居民)分析描述统计探索,选择如下:输出:全国居民 Ste
2、m-and-Leaf Plot Frequency Stem & Leaf 9.00 0 . 122223344 5.00 0 . 56788 2.00 1 . 03 1.00 1 . 7 1.00 2 . 3 3.00 2 . 689 1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s)分析描述统计QQ图,选择如下:输出:习题1.14数据正态性的检验:KS检验,W检验数据:取显着性水平为0.05分析描述统计探索,选择如下:(1)KS检验单样本 Kolmogorov-Smirnov 检验身高N60正态参数a,b均值139.00标准差7.064最极端差
3、别绝对值.089正.045负-.089Kolmogorov-Smirnov Z.686渐近显着性(双侧).735a. 检验分布为正态分布。b. 根据数据计算得到。结果:p=0.735 大于0.05 接受原假设,即数据来自正太总体。(2)W检验正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.身高.08960.200*.97260.174a. Lilliefors 显着水平修正*. 这是真实显着水平的下限。结果:在Shapiro-Wilk检验结果,p=0.174大于0.05 接受原假设,即数据来自正太总体。习题1.55多维正态数据的统计量
4、数据:统计量x1x2x3x4N有效21212121缺失0000均值18.21927.8674.50533.767均值向量为:项间协方差矩阵x1x2x3x4x13.5092.7071.0191.266x22.7073.5591.1391.289x31.0191.1391.9981.740x41.2661.2891.7404.032相关性x1x2x3x4x1Pearson 相关性1.766*.385.336显着性(双侧).000.085.136N21212121x2Pearson 相关性.766*1.427.340显着性(双侧).000.054.131N21212121x3Pearson 相关性.
5、385.4271.613*显着性(双侧).085.054.003N21212121x4Pearson 相关性.336.340.613*1显着性(双侧).136.131.003N21212121*. 在 .01 水平(双侧)上显着相关。结果:x4与其他数据无相关性,其他三组数据线性相关相关系数x1x2x3x4Spearman 的 rhox1相关系数1.000.790*.434*.431Sig.(双侧).000.049.051N21212121x2相关系数.790*1.000.511*.488*Sig.(双侧).000.018.025N21212121x3相关系数.434*.511*1.000.6
6、91*Sig.(双侧).049.018.001N21212121x4相关系数.431.488*.691*1.000Sig.(双侧).051.025.001.N21212121*. 在置信度(双测)为 0.01 时,相关性是显着的。*. 在置信度(双测)为 0.05 时,相关性是显着的。结果:由Spearman相关矩阵的输出结果看,取显着性水平0.1,p值皆小于0.1,所以数据相关性显着习题2.46线性回归线的拟合,回归系数的区间估计与假设检验,回归系数的选择、逐步回归。7残差分析 分析回归线性,选择如下:输出:逐步回归结果:两变量的系数p值均小于0.05均有统计学意义。结果:由残差统计量表看出
7、,数据无偏离值,标准差比较小,认为模型健康。概率论课本习题7.58一个正态总体独立样本均值的t检验与区间估计分析比较均值独立样本T检验:输出:One-Sample StatisticsNMeanStd. DeviationStd. Error Mean折断力102833.5035.04411.082结果:样本均值为2833.50与总体均值2820比较接近One-Sample TestTest Value = 2820 tdfSig. (2-tailed)Mean Difference95% Confidence Interval of the DifferenceLowerUpper折断力1.2189.25413.500-11.5738.57结果:t值为1.218小于临界值2.26,且P值为0.254大于显着性水平0.05,接受原假设,即认为样本均值与总体均值之差可能是抽样误差所导致概率论课本习题7.79两个正态总体均值差异比较的t检验与配对检验分析均值比较独立样本T检验,选择如下:输出:结果:P值为1大于显着性水平0.05,认为方差相等。此时,p值(Sig. (2-tailed))为0.229大于显着性水平0.05,认为样本均值是相等的,即电阻均值没有显着性差异。分析比较均值配对样本T检验,选择如下:输出:结果同上:认为样本均值是相等的,即电阻均值没有显着性差异。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1