1、数据分析实验报告第一次试验报告习题L31建立数据集,定义变量并输入数据并保存。HD 0Frsj momo mcic wncti e r53 Eti e? n11 S7*O10-41 DD-4-00N1NON1 se4:3V3 SJDUI231 7D-41 98-12621 99S62S1 902?2曰4221ees01 9033 113-46SO3T1门曰“9占4QSQGGaG1 m曰与3-4 XQIOZ201 QQG;-*ies97 GOZ?O1 O1 曰7GOO4-1 X1 0031 11 seaeoaSOS1-4-3 11 2!1 sos7*02GGZ1 ODD1 n1 990QO3S7
2、 I曰曰曰1 41 SS1DECSC52 11SI2O1 9921 07*0z-i e1 S1 9931 331e53ON71 7i1 X-461 1 -1 s339 11曰1 QQS1 43/1Z1E17/11 Oi mmmzaenna 了曰曰S-43O201 QQ7-1 Q7GG7-QG;21i m曰曰N 曰了;2a eo曰wa 了NN1 mmm3FE3OiQosn中位数等统计量。2数据的描述,包括求均值、方差、 分析一描述统计一频率,选择如下:盘频率:统计量百分住值集中趋势匹分銭为阖U): $分銭(B厳小值最大值L.助值的核龛扇:0 WM)台讣匚鱼为组的中点(U输出:统计援全国居民农村居
3、民城镇居民N有效222222缺失000均值1116.82747.862336.41中值727.50530.501499.50方盪1031026.918399673.8384536136.444百分位数25304.25239.75596.2550727.50530.501499.50751893.501197.004136.753画直方图,茎叶图,QQ图。(全国居民) 分析一描述统计一探索,选择如下:皓唸谡的正态圉伸購与纟脇I I eveng脸3S0 &0?水字分纽(E) 不分组O无O孚花计QO已恬検滋|白热对菽O*WU)描述性(D)输出:rcz/rfl怀1015395N-22全国居民 Stcm
4、-and-Lcaf PlotFrequencyLeaf9.005.002.001.001.003.001.000 1222233440 5678810317232 68931Stem width: 1000Each leaf:1 casc(s)分析一描述统计一00图,选择如下:输出:金国居风的正念Q-QPH1 high变量变量变量变量126149L143414151276123113781329135101341 -11花习题1.14数据正态性的检验:KS检验,W检验数据:取显著性水平为0.05分析一描述统计一探索,选择如下:-Kta;E:R)(i ) KS检验单样本 Kolmogorov-S
5、mirnov 检验身高N60正态参数均值139.00标准濫7.064最极端盪别 绝对值.089正.045负089KolmogorovSmi rnov Z.686渐近显著性(双側).735a 检验分布为正态分布。b.根据数据计算得到。结果:p=0.735大于0.05接受原假设,即数据来自正太总体。(2) W检验正态性检验KolmogorovSmi rnovShapiro-Wilk统计虽dfSig.统计虽dfSig.身高.08960.200*.97260.174a. Li 11 iefors显著水平修正*.这是真实显著水平的卜限。结果:在Shapiro-Wilk检验结果w0 = 0.972 , p
6、二0.174大于0.05接受原假设,即数据来自正 太总体。习题1.55多维正态数据的统计量数据:x1x2x3x4118.828.15.135.1217.425.64.933.9316.027.45.032.2419.329.51.729.1517.427.44.535.6615.325.33.632.2716.725.84.433.0R17 4?A744昭fl统计量xlx2x3x4N 有效21212121缺失0000均值18.21927.8674.50533.767均值向量为:X =(18.21977.836,4.505,33.767)项间协方差矩阵xlx2x3x4xl3.5092.7071.
7、0191.266x22.7073.5591.1391.289x31.0191.1391.9981.740x41.2661.2891.7404.032相矢性X1x2x3x4X1Pearson相尖性1766.385.336显著性(双側).000.085.136N21212121x2Pearson相矢性.766“1.427.340显著性(双侧).000.054.131N21212121x3Pearson相尖性.385.4271.613”显著性(双侧).085.054.003N21212121x4Pearson相尖性.336.340.613“1显著性(双側).136.131.003N21212121和
8、在01水平(双侧)上显著柑矢。结果:x4与其他数据无相关性,其他三组数据线性相关相矢系数XIx2x3x4Spearman 的 rho xl相矢系数1.000.790“.434*.431Sig.(双侧).000.049.051N21212121x2相矢系数 790“1.000.511.488Sig.(双側).000.018.025N21212121x3相矢系数.434.5111.000.69广Sig.(双侧).049.018.001N21212121x4相矢系数.431.488.691“1.000Sig.(双侧).051.025.001N21212121和.在呂信度(双测)为0.01时,相尖性是
9、显著的。*.在宜信度(双测)为005时,相尖性是显著的“结果:由Spearman相关矩阵的输出结果看,取显著性水平0.1, p值皆小于0.1,所以数 据相关性显著习题24citynumberpeopleincome1116227424502212018032543322337538024413120528385567862347661692663782778196nQmnndcn6线性回归线的拟合,回归系数的区间估计与假设检验,回归系数的选择、逐步回归。7残差分析分析一回归一线性,选择如下:输出:系数m樟型非标淮化系数标准系数tSig.B标准误差试用版1 (常呈)人数22.959.5283.7
10、41.014.9956.13737.663OQQ2 OB)人数收入3.548.495.0092.470.006.001.934.1091.43680.6059.379.176CIOOOOQ乩因变昼销量逐步回归结果:y = 0.495 X + 0.009 x2 + 3.548两变量的系数p值均小于0.05均有统计学意义。残差统计呈*极小值极丈值均值标准偏差N预测值52.93253.66150.6062.01515残差-3.8703.313.0002.04915标准预测值-1.5751.662.0001.00015标准残差-1.7491.497.000.92615a.因麦亘销量结果:山残差统汁量表
11、看出,数据无偏离值,标准差比较小,认为模型健康。概率论课本习题75numbernvar1128302228003327954427855528208 个正态总体独立样本均值的t检验与区间估计分析一比较均值一独立样本T检验: 输出:One-Sample StatisticsNMeanStd. DeviationStd. Error Mean折断力102833.5035.04411.082结果:样本均值为2833.50与总体均值2820比较接近One-Sample TestTest Value = 2820tdfSig. (2-tailed)Mean Differenee95% Confidenc
12、e Interval of theDifferenceLowerUpper折断力1.2189.25413.500 11.5738.57结果:t值为1.218小于临界值2.26,且P值为0.254大于显著性水平0.05,接受原假设,即认为样本均值与 总体均值之差可能是抽样误差所导致概率论课本习题7.7nRvar1I応I0.14020.138310.143410.141510.144610.1377n9两个正态总体均值差异比较的t检验与配对检验分析一均值比较一独立样本T检验,选择如下:曹定义俎 区G使用招定徴输出:俎统计量批次N标淮差均值的标准误电阴 16.14050.002739.0011182
13、6.13850.002665.001088独立祥本检验方差方程的Levene检验均值方程的t检验差分的的9。置信区间FSiq.tdf均值差值标准饯差值下限上限电阻假设方差相等.0001.0001.28210.229.002000.001560-.001476.005476假设方差不相等1.2829.992.229002000 001560-.001476.005476结果:P值为1大于显著性水平0.05,认为方差相等。此时,p值(Sig. (2-tailed)为0.229大于显 著性水平0.05,认为样本均值是相等的,即电阻均值没有显著性差异。分析一比较均值一配对样本T检验,选择如下:戒对爽量(Q:成对祎本统计量均值N标准差均值的标准误对1 第一批.140506.002739.001118第二批.138506.002665.001088成对祎本相关系数N相关系数Sici.对1 第一批&第二批6-.041.938成对存本检验成对差分tdfSici.OSJtl)均值葆准差均佰的标准愎差分的95%置信区间下限上限对1 第一批-第二批.002000.003899.001592-.002091.0060911.2575.264结果同上:认为样本均值是相等的,即电阻均值没有显著性差异。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1