统计学R语言作业答案.docx
《统计学R语言作业答案.docx》由会员分享,可在线阅读,更多相关《统计学R语言作业答案.docx(10页珍藏版)》请在冰豆网上搜索。
统计学R语言作业答案
第二章
2、
(1)
>data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE)
>平均数=mean(data[,2]);方差=var(data[,2]);标准差=sd(data[,2]);中位数=median(data[,2]);离散系数=标准差/平均数;全距=max(data[,2])-min(data[,2]);四分位距=quantile(data[,2],probs=0.75)-quantile(data[,2],probs=0.25)
>data=data[,-1]
>不及格率=length(data[data<60])/length(data)
>平均数;方差;标准差;中位数;四分位距;离散系数;全距;不及格率
[1]79.2977
[1]167.7606
[1]12.95224
[1]80.975
75%
15.975
[1]0.1633369
[1]72.8
[1]0.08865248
(2)
>data=read.csv("管理学院2007级学生统计学课程成绩.csv",head=TRUE)
>data=data[,-1]
>data1=data[1:
141]
>data2=data[142:
282]
>平均数1=mean(data1);平均数2=mean(data2)
>平均数1;平均数2
[1]81.90816
[1]76.68723
>方差1=var(data1);方差2=var(data2)
>方差1;方差2
[1]113.2225
[1]209.7706
>标准差1=sd(data1);标准差2=sd(data2)
>标准差1;标准差2
[1]10.64061
[1]14.48346
>中位数1=max(data1)-min(data1);中位数2=max(data2)-min(data2)
>中位数1;中位数2
[1]54.2
[1]72.8
>四分位距1=quantile(data1,probs=0.75)-quantile(data1,probs=0.25);四分位距2=quantile(data2,probs=0.75)-quantile(data2,probs=0.25)
>四分位距1;四分位距2
75%
12.35
75%
18.8
>离散系数1=标准差1/平均数1;离散系数2=标准差2/平均数2
>离散系数1;离散系数2
[1]0.129909
[1]0.188864
>全距1=max(data1)-min(data1);全距2=max(data2)-min(data2)
>全距1;全距2
[1]54.2
[1]72.8
>不及格率1=length(data1[data1<60])/length(data1);不及格率2=length(data2[data2<60])/length(data2)
>不及格率1;不及格率2
[1]0.03546099
[1]0.141844
(3)
>plot.new()
>figureparameter=par(mfrow=c(2,2),bg="lightgreen",cex.lab=1,font=3)
>hist(data1);hist(data2)
分析:
会计学和经济大类都是左偏分布,成绩集中分布于80~90分,可见普遍成绩较好。
经济大类的高分段(90~95)比例又高于会计学,同时不及格率也高于会计学,可见经济大类的成绩离散程度高于会计,这从上面得出的数据中也可以得到验证
(4)
>样本=sample(data,40,replace=FALSE)
>均值=mean(样本);均值
[1]81.07125
>方差=var(样本);方差
[1]148.8133
>标准差=sd(样本);标准差
[1]12.19891
>中位数=median(样本);中位数
[1]81.425
>四分位距=quantile(样本,probs=0.75)-quantile(样本,probs=0.25);四分位距
75%
17.7
>离散系数=标准差/均值;离散系数
[1]0.1504714
>全距=max(样本)-min(样本);全距
[1]55.9
>不及格率=length(样本[样本<60])/length(样本);不及格率
[1]0.05
>summary(data);summary(样本)
Min.1stQu.MedianMean3rdQu.Max.
27.2072.8080.9779.3088.78100.00
Min.1stQu.MedianMean3rdQu.Max.
44.1074.3581.4381.0792.05100.00
经对比,可以看出样本得出的均值、中位数、四分位距高于总体数据,方差、标准差、离散系数、全距均、不及格率低于总体数据,原因推测为总体为左偏分布,所以高分同学被抽取的概率大于低分同学导致样本总体测值偏高,所以我认为可行的改进方法是进行分层抽样,这样抽到的数据更有代表性。
第三章作业
1、
(1)
>下侧分位点=qchisq(0.025,10);上侧分位点=qchisq(0.975,10);下侧分位点;上侧分位点
[1]3.246973
[1]20.48318
(2)
>pnorm(1.96,0,1)
[1]0.9750021
(3)
>pt(1.96,5)
[1]0.946356
(4)
>pt(1.96,15)
[1]0.9655779
(5)
>pt(1.96,45)
[1]0.9718971
2、
(1)
>data=read.csv("概率论与数理统计课程成绩数据.csv",head=TRUE)
>x=data[,1]
>hist(x,probability=TRUE,main=paste("Histogramof","概率论与数理统计课程成绩"),xlab="分数")
(2)
>xbar=mean(x);sdx=sd(x);xbar;sdx
[1]80.57143
[1]12.61278
(3)
>p1=length(x[x<=70])/length(x);p2=length(x[x<=75])/length(x);p1;p2
[1]0.2176871
[1]0.2721088
(4)
>p1=pnorm(70,xbar,sdx);p2=pnorm(75,xbar,sdx);p1;p2
[1]0.2009726
[1]0.3293427
第四章作业
3、
(1)
>x=c(202,209,214,198,206,210,196,208,200,207)
>xbar=mean(x);var=var(x);n=length(x);df=n-1
>t=qt(0.975,df);t
[1]2.262157
>max=xbar+t*sqrt(var/n);min=xbar-t*sqrt(var/n)
>min;max
[1]200.8699
[1]209.1301
所以,置信区间是(200.8699,209.1301)
(2)
>z1=qt(0.025,n-1);z2=qt(0.975,n-1);z1;z2
[1]-2.262157
[1]2.262157
>z=(xbar-200)/sqrt(var/n);z
[1]2.738613
>z>z1
[1]TRUE
>z[1]FALSE
所以,平均抗拉强度与200之间存在显著差异
(3)
>r=t*sqrt(var/n);r
[1]4.130115
>t=qt(0.995,df);t
[1]3.249836
>n=var*t^2/r^2;n
[1]20.63846
所以,应抽取21根材料进行测试
第五章作业
1、
>data=read.csv("CH8偏相关商客旅.csv")
>data=data[,2:
4]
>data=scale(data)
>协方差=cov(data);协方差
商业投资游客增率经济增率
商业投资1.00000000.79085550.6436569
游客增率0.79085551.00000000.7733829
经济增率0.64365690.77338291.0000000
>相关系数=cor(data);相关系数
商业投资游客增率经济增率
商业投资1.00000000.79085550.6436569
游客增率0.79085551.00000000.7733829
经济增率0.64365690.77338291.0000000
>data=read.csv("某矿2006年1月三项数据.csv")
>data=scale(data[,2:
4])
>协方差=cov(data);协方差
生产原煤掘进进尺检修时间
生产原煤1.0000000-0.27354970-0.15627328
掘进进尺-0.27354971.000000000.01287778
检修时间-0.15627330.012877781.00000000
>相关系数=cor(data);相关系数
生产原煤掘进进尺检修时间
生产原煤1.0000000-0.27354970-0.15627328
掘进进尺-0.27354971.000000000.01287778
检修时间-0.15627330.012877781.00000000
经过对比,可得:
对于标准化数据来说,变量之间的协方差矩阵就是其相关系数矩阵
2、
(1)
>data=read.csv("CH8偏相关商客旅.csv")
>data=data[,2:
4]
>协方差=cov(data);相关系数=cor(data)
>data2=5*data
>协方差2=cov(data2);相关系数2=cor(data2)
>协方差2/协方差
商业投资游客增率经济增率
商业投资252525
游客增率252525
经济增率252525
>相关系数2/相关系数
商业投资游客增率经济增率
商业投资111
游客增率111
经济增率111
综上:
把三个变量的值同乘常数5后,其协方差矩阵扩大25倍,扩大的倍数分别为各自相关变量扩大倍数的乘积、相关系数矩阵不变。
(2)
>data3=data[,-3]
>data3=5*data3
>data4=8*data[,3]
>data3=cbind(data3,data4)
>协方差3=cov(data3);相关系数3=cor(data3)
>协方差3/协方差
商业投资游客增率data4
商业投资252540
游客增率252540
data4404064
>相关系数3/相关系数
商业投资游客增率data4
商业投资111
游客增率111
data4111
综上:
前两个变量乘以常数5,最后一个变量乘以常数8后,其协方差矩阵中,商业投资和游客增长率的协方差扩大25倍,商业投资和游客增长率与经济增率的协方差分别扩大40倍,经济增率扩大64倍,扩大的倍数分别为各自相关变量扩大倍数的乘积,相关系数矩阵不变。
第六章作业
VariablesEntered/Removedb
Model
VariablesEntered
VariablesRemoved
Method
1
掘进进尺ma
.
Enter
a.Allrequestedvariablesentered.
b.DependentVariable:
生产原煤t
ModelSummary
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
.919a
.845
.833
3521271.109
a.Predictors:
(Constant),掘进进尺m
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
8.809E14
1
8.809E14
71.043
.000a
Residual
1.612E14
13
1.240E13
Total
1.042E15
14
a.Predictors:
(Constant),掘进进尺m
b.DependentVariable:
生产原煤t
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
469247.547
1533441.666
.306
.764
掘进进尺m
220.098
26.113
.919
8.429
.000
a.DependentVariable:
生产原煤t
方程为:
y=469247.547+220.098x
因为P值为0.00,所以拒绝原假设