统计学R语言实验5Word文档格式.docx
《统计学R语言实验5Word文档格式.docx》由会员分享,可在线阅读,更多相关《统计学R语言实验5Word文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
2
4
3
7
5
6
8
10
12
11
9
注:
平均存活天数其实应该是均值,但当不知道总体的分布时,通常是比较中位数。
因此,这里考虑用箱线图中的中位数来进行比较。
解:
源代码:
y<
-c(2,4,3,2,4,7,7,2,2,5,4,
5,6,8,5,10,7,12,12,6,6,
7,11,6,6,7,9,5,5,10,6,3,10)
f<
-factor(c(rep(1,11),rep(2,10),rep(3,12)))
plot(f,y)
A<
-c(2,4,3,2,4,7,7,2,2,5,4)
B<
-c(5,6,8,5,10,7,12,12,6,6)
C<
-c(7,11,6,6,7,9,5,5,10,6,3,10)
boxplot(A,B,C)
运行截图:
结论:
从箱线图中可以看到,菌型2和3的平均存活天数无显著差异,但是与菌型1的有显著差异
3.(习题3.6)绘出习题3.16关于3项指标的离散图,从图中分析例3.16的结论的合理性。
序号
硬度X1
变形X2
弹性X3
65
45
27.6
70
30.7
48
31.8
69
46
32.6
66
50
31.0
67
31.3
68
47
37.0
72
43
33.6
33.1
34.2
1.绘出的图形类似教材P133页的图3.8。
2.把上述表格分复制到记事本中即可实现表格转化为文本,再用read.table()函数存入到数据框中即可,避免输入麻烦。
>
df<
-read.table("
例3.6_data"
header=T)
df
pairs(df)
具有相关关系的两个变量的散点图要么是从左下角到右上角(即正相关关系),要么是从左上角到右下角(即负相关关系)。
但从上图可知所有的图中都没有这样的趋势,故均不相关。
4.(习题3.7)某校测得19名学生的四项指标,性别、年龄、身高(cm)和体重(lb),具体数据如下表所示。
(1)试绘出体重对于身高的散点图;
(2)绘出不同性别情况下,体重与身高的散点图;
(coplot(a~b|c))
(3)绘出不同年龄段的体重与身高的散点图;
(4)绘出不同性别和不同年龄段的体重与身高的散点图。
(coplot(a~b|c+d))
学号
姓名
性别
年龄
身高
体重
01
Alice
F
13
56.5
84.0
02
Becka
65.3
98.0
03
Gail
14
64.3
90.0
04
Karen
56.3
77.0
05
Kathy
59.8
84.5
06
Mary
15
66.5
112.0
07
Sandy
51.3
50.5
08
Sharon
62.5
112.5
09
Tammy
62.8
102.5
Alfred
M
69.0
Duke
63.5
Guido
67.0
133.0
James
57.3
83.0
Jeffrey
John
59.0
99.5
16
Philip
72.0
150.0
17
Robert
64.8
128.0
18
Thomas
57.5
85.0
19
William
ef<
-read.table(file.choose(),header=T);
ef
attach(ef)
plot(体重~身高)
coplot(体重~身高|性别)
coplot(体重~身高|年龄)
coplot(体重~身高|年龄+性别)
5.(习题3.8)画出函数z=x4−2x2y+x2−2xy+2y2+9x/2−4y+4在区域−2≤x≤3,−1≤y≤7上的三维网格曲面和二维等值线,其中x与y各点之间的间隔为0.05,等值线的值分别为0,1,2,3,4,5,10,15,20,30,40,50,60,80,100,共15条。
(注:
在三维图形中选择合适的角度)
x<
-seq(-2,3,0.05)
-seq(-1,7,0.05)
-function(x,y)x^4-2*x^2*y+x^2-2*x*y+2*y^2+9*x/2-4*y+4
z<
-outer(x,y,f)
contour(x,y,z,levels=c(0,1,2,3,4,5,10,15,20,30,40,50,60,80,100),col="
black"
persp(x,y,z,theta=30,phi=30,expand=0.7,col="
lightblue"
6.(习题3.9)用Pearson相关检验法检验习题3.7中的身高与体重是否相关。
cor.test(身高,体重)
其P值为7.887e-07<
0.05,拒绝原假设,认为变量身高与体重相关。
7.(习题3.10)绘出例3.17中48号求职者数据的星图。
(数据见文档最后)
(1)以15项自变量FL,APP,…,SUIT为星图的轴;
(2)以G1,G2,…,G5为星图的轴。
(提示:
先)
通过这些星图,能否说明应选哪6名应聘者。
为使星图能够充分反映应聘者的情况,在作图中可适当调整各种参数。
提示:
第
(2)小题,先利用教材P153页的公式,计算出48个求职者这5个变量的值,公式如下:
G1<
-(SC+LC+SMS+DRV+AMB+GSP+POT)/7
G2<
-(FL+EXP+SUIT)/3
G3<
-(LA+HON+KJ)/3
G4<
-AA
G5<
-APP
再将G1,…,G5这5个列向量(即48行5列数据)赋值一个新的数据框,再按第
(1)小题的方法绘出星图。
X<
-read.csv("
applicant.csv"
stars(X)
attach(X)
X$G1<
X$G2<
X$G3<
X$G4<
X$G5<
rt<
-scale(X[,17:
21])
stars(rt)
思考:
1.R语言的高水平作图函数与低水平作图函数的主要区别是什么?
所谓高水平函数是与低水平作图函数相对应的,即所有的绘图函数均可产生图形,可以有坐标轴,以及图和坐标轴的说明文字。
2.plot()函数除了能画出散点图外,还能画什么图?
能画出曲线图吗?
曲线图,箱线图;
能
3.多元数据主要有哪三个数据特征指标?
均值向量、协方差矩阵、相关系数矩阵
4.相关检验的原假设是什么?
总体X,Y不相关
5.多元数据的图形表示方法主要有哪几种图?
轮廓图,星图,调和曲线图
三、实验小结(必写,但字数不限)
本次实验,主要是在星图方面有些阻碍,用不同的函数读取的结果会不一样,有时还读不出来,最终还是把数据存入excel中,才能成功。
要学会描述性统计分析中常用的统计量,高水平作图函数与低水平图函数的区别。
附:
48名应聘者的得分情况
ID
FL
APP
AA
LA
SC
LC
HON
SMS
EXP
DRV
AMB
GSP
POT
KJ
SUIT
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
44