生物统计学版杜荣骞课后习题答案统计数据的收集与整理.docx
《生物统计学版杜荣骞课后习题答案统计数据的收集与整理.docx》由会员分享,可在线阅读,更多相关《生物统计学版杜荣骞课后习题答案统计数据的收集与整理.docx(18页珍藏版)》请在冰豆网上搜索。
生物统计学版杜荣骞课后习题答案统计数据的收集与整理
第一章 统计数据得收集与整理
1.1算术平均数就是怎样计算得?
为什么要计算平均数?
答:
算数平均数由下式计算:
含义为将全部观测值相加再被观测值得个数除,所得之商称为算术平均数。
计算算数平均数得目得,就是用平均数表示样本数据得集中点,或就是说就是样本数据得代表。
1.2既然方差与标准差都就是衡量数据变异程度得,有了方差为什么还要计算标准差?
答:
标准差得单位与数据得原始单位一致,能更直观地反映数据地离散程度。
1。
3标准差就是描述数据变异程度得量,变异系数也就是描述数据变异程度得量,两者之间有什么不同?
答:
变异系数可以说就是用平均数标准化了得标准差。
在比较两个平均数不同得样本时所得结果更可靠。
1、4完整地描述一组数据需要哪几个特征数?
答:
平均数、标准差、偏斜度与峭度。
1。
5 下表就是我国青年男子体重(kg)。
由于测量精度得要求,从表面上瞧像就是离散型数据,不要忘记,体重就是通过度量得到得,属于连续型数据。
根据表中所给出得数据编制频数分布表。
66
69
64
65
64
66
68
65
62
64
69
61
61
68
66
57
66
69
66
65
7
67
66
66
62
66
66
64
62
62
65
64
65
66
72
6
67
62
65
65
61
64
62
64
65
62
65
68
68
65
67
68
62
63
7
62
63
68
65
68
57
67
66
68
63
64
66
68
64
63
6
67
67
65
67
67
66
68
64
67
59
66
65
63
56
66
63
63
66
67
63
7
69
67
67
66
68
64
65
71
61
63
61
64
64
67
69
7
70
64
62
69
7
64
68
69
65
63
67
63
70
65
68
67
69
66
65
67
66
74
64
69
65
64
65
65
68
67
65
65
66
67
72
65
67
62
67
71
69
65
65
75
62
69
68
68
65
63
66
66
65
62
61
68
65
64
67
66
64
6
65
6
69
60
63
59
67
61
68
69
66
64
69
65
68
67
64
64
66
69
73
68
60
60
63
38
62
67
65
65
69
65
67
65
72
66
67
64
61
64
66
63
63
66
66
66
63
65
63
67
68
66
62
63
61
66
61
63
68
65
66
69
64
66
70
69
7
67
65
66
62
61
65
65
6
答:
首先建立一个外部数据文件,名称与路径为:
E:
\data\exer1-5e.dat。
所用得SAS程序与计算结果如下:
procformat;
valuehfmt
56—57=’56-57’ 58—59='58-59' 60-61='60-61’
62-63='62-63' 64-65='64-65'66—67=’66-67'
68-69=’68—69'70-71=’70-71’ 72-73='72-73'
74—75='74—75';
run;
dataweight;
infile'E:
\data\exer1-5e。
dat';
inputbw@@;
run;
procfreq;
tablebw;
format bwhfmt、;
run;
TheSASSystem
Cumulative Cumulative
BW FrequencyPercent FrequencyPercent
——---—----——-----—------—---——---—-—---——-—---—------
56-57 3 1、0 3 1、0
58-59 4 1。
3 7 2、3
60-61 227。
3 29 9、7
62-63 4615。
3 75 25、0
64-65 83 27。
7 158 52。
7
66-6777 25.7 235 78。
3
68-69 45 15.0 28093、3
70-71 13 4.3 293 97、7
72-73 5 1。
7 298 99。
3
74—75 2 0。
7 300 100。
0
1、6 将上述我国男青年体重瞧作一个有限总体,用随机数字表从该总体中随机抽出含量为10得两个样本,分别计算它们得平均数与标准差并进行比较、它们得平均数相等吗?
标准差相等吗?
能够解释为什么吗?
答:
用means过程计算,两个样本分别称为与,结果见下表:
The SASSystem
VariableN Mean StdDev
——--—--——-----—--—-——--—---—-———-——-—---
Y1 1064、5000000 3。
5039660
Y2 10 63。
9000000 3、1780497
--——--—-———--——-—-——-—-—----—-—--------—
随机抽出得两个样本,它们得平均数与标准差都不相等。
因为样本平均数与标准差都就是统计量,统计量有自己得分布,很难得到平均数与标准差都相等得两个样本、
1。
7 从一个有限总体中采用非放回式抽样,所得到得样本就是简单得随机样本吗?
为什么?
本课程要求得样本都就是随机样本,应当采用哪种抽样方法,才能获得一随机样本?
答:
不就是简单得随机样本。
从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不就是相互独立得,后一次得抽样结果与前一次抽样得结果有关联,因此不就是随机样本。
应采用随机抽样得方法抽取样本,具体说应当采用放回式抽样。
1、8证明若用或编码时,前式就是否仍然相等?
答:
(1)令
则 平均数特性之③。
(2)令
则平均数特性之②。
用第二种编码方式编码结果,两式不再相等、
1.9有一个样本:
设B为其中任意一个数值。
证明只有当
最小。
这就是平均数得一个重要特性,在后面讲到一元线型回归时还会用到该特性。
答:
令, 为求使p达最小之B,令
则 。
1.10 检测菌肥得功效,在施有菌肥得土壤中种植小麦,成苗后测量苗高,共100株,数据如下[1]:
10。
0
9、3
7。
2
9。
1
8、5
8。
0
10、5
10.6
9。
6
10。
1
7、0
6.7
9.5
7、8
10、5
7。
9
8。
1
9.6
7。
6
9.4
10.0
7。
5
7、2
5、0
7.3
8、7
7。
1
6、1
5、2
6、8
10。
0
9.9
7。
5
4。
5
7.6
7。
0
9.7
6、2
8、0
6。
9
8、3
8。
6
10。
0
4、8
4.9
7、0
8。
3
8、4
7.8
7、5
6、6
10.0
6。
5
9、5
8、5
11。
0
9。
7
6.6
10。
0
5、0
6、5
8.0
8。
4
8、3
7.4
7。
4
8。
1
7.7
7。
5
7。
1
7.8
7、6
8.6
6、0
7、0
6。
4
6。
7
6。
3
6。
4
11、0
10、5
7。
8
5.0
8。
0
7、0
7、4
5。
2
6。
7
9、0
8.6
4、6
6.9
3.5
6。
2
9。
7
6。
4
5。
8
6、4
9、3
6.4
编制苗高得频数分布表,绘制频数分布图,并计算出该样本得四个特征数。
答:
首先建立一个外部数据文件,名称与路径为:
E:
\data\exr1—10e。
dat。
SAS程序及结果如下:
optionsnodate;
procformat;
valuehfmt
3.5—4、4='3、5-4、4' 4、5-5。
4='4。
5-5、4' 5、5-6、4='5。
5—6、4'
6、5—7.4=’6、5-7.4’ 7。
5—8.4='7.5-8。
4' 8.5-9。
4='8、5—9、4'
9、5-10.4=’9.5-10。
4'10、5—11。
4='10、5-11、4’;
run;
datawheat;
infile'E:
\data\exr1-10e.dat';
inputheight @@;
run;
procfreq;
tableheight;
format heighthfmt、;
run;
proc capabilitygraphicsnoprint;
varheight;
histogram/vscale=count;
insetmeanvar skewnesskurtosis;
run;
TheSASSystem
TheFREQProcedure
CumulativeCumulative
heightFrequency Percent Frequency Percent
---——--—---—---—-—--—-------———--————----———-------—---——-—---——---——
3。
5—4.4 1 1。
00 1 1。
00
4。
5-5.4 9 9.00 10 10。
00
5。
5-6、4 11 11、00 21 21。
00
6。
5-7、4 23 23。
00 44 44.00
7。
5-8。
4 24 24.00 6868、00
8。
5—9.4 1111。
00 79 79。
00
9。
5-10、4 15 15。
00 94 94。
00
10、5—11、4 6 6、00 100 100.00
1、11 北太平洋宽吻海豚羟丁酸脱氢酶(HDBH)数据得接收范围频数表[2]如下:
(略作调整)
HDBH数据得接收范围/(U·L-1)
频数
<214
1
〈245。
9091
3
<277.8182
11
<309.7273
19
〈341、636 4
26
<373。
5455
22
<405、4545
11
<437。
363 6
13
<469、2727
6
〈501.1818
3
〈533、0909
2
根据上表中得数据作出直方图、
答:
以表中第一列所给出得数值为组界,直方图如下:
1。
12 灵长类手掌与脚掌可以握物一侧得皮肤表面都有突起得皮肤纹嵴。
纹嵴有许多特征,这些特征在胚胎形成之后就是终生不变得。
人类手指尖得纹型,大致可以分为弓、箕与斗三种类型。
在手指第一节得基部可以找到一个点,从该点纹嵴向三个方向辐射,这个点称为三叉点、弓形纹没有三叉点,箕形纹有一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心得纹嵴数目称为纹嵴数(fingerridgecount,FRC)。
将双手十个指尖得全部箕形纹得纹嵴数与/或斗形纹两个纹嵴数中较大者相加,称为总纹嵴数(totalfingerridgecount,TFRC)。
下表给出了大理白族人群总纹嵴数得频数分布[3]:
TFRC分组
中值
频数
11~30
20
2
31~50
40
1
51~70
60
8
71~90
80
29
91~110
100
54
111~130
120
63
131~150
140
68
151~170
160
51
171~190
180
18
191~210
200
6
首先判断数据得类型,然后绘出样本频数分布图,计算样本得四个特征数并描述样本分布形态、
答:
总纹脊数属计数数据。
计数数据得频数分布图为柱状图,频数分布图如下:
样本特征数(以TFRC得中值计算)SAS程序:
optionsnodate;
datatfrc;
doi=1to10;inputy@;
inputn ;
doj=1 to n;
output;
end;
end;
cards;
202
401
608
8029
100 54
120 63
140 68
160 51
180 18
200 6
;
run;
proc meansmeanstdskewnesskurtosis;
vary;
run;
结果见下表:
TheSASSystem
AnalysisVariable :
Y
Mean StdDev Skewness Kurtosis
-——-—--—-—--——-——-—-—---——--—-—--—----————---—-—-----—
126、5333333 32。
8366112 —0。
2056527-0。
0325058
——-———------———-——----—-——--——————----——-—----—--—-——-
从频数分布图可以瞧出,该分布得众数在第七组,即总纹脊数得中值为140得那一组。
分布不对称,平均数略小于众数,有些负偏。
偏斜度为—0、2056527,偏斜得程度不就是很明显,基本上还可以认为就是对称得,峭度几乎为零。
1。
13 海南粗榧叶长度得频数分布[4]:
叶长度/mm
中值
频 数
2。
0~2。
2
2、1
390
2、2~2.4
2、3
1434
2.4~2。
6
2、5
2 643
2。
6~2、8
2、7
3546
2.8~3。
0
2。
9
5692
3.0~3。
2
3、1
5187
3、2~3。
4
3、3
4 333
3、4~3.6
3。
5
2 767
3.6~3、8
3.7
1677
3。
8~4、0
3.9
1137
nag
4、0~4。
2
4.1
667
4。
2~4。
4
4、3
346
4、4~4。
6
4、5
181
绘出频数分布图,并计算偏斜度与峭度、
答:
表中第一列所给出得数值为组限,下图为海南粗榧叶长度得频数分布图、
计算偏斜度与峭度得SAS程序与计算结果如下:
optionsnodate;
data length;
do i=1to13;input y ;
inputn;
doj=1ton;
output;
end;
end;
cards;
2.1390
2。
31434
2、52643
2、73546
2。
95692
3、15187
3.34333
3.52767
3。
71677
3.9 1137
4、1667
4。
3346
4.5181
;
run;
procmeansnskewnesskurtosis;
vary;
run;
The SASSystem
AnalysisVariable:
Y
n Skewness Kurtosis
-—--—----—--—--—--———----—-—---—-
30000 0.4106458 0.0587006
—-————--—--—--—--——--————-----—-—
样本含量n=30000,就是一个很大得样本,样本得偏斜度与峭度都已经很可靠了。
偏斜度为0。
41,有一个明显得正偏、
1。
14 马边河贝氏高原鳅繁殖群体体重分布如下[5]:
体质量/g
中值
雌 鱼
雄鱼
2、00~3、00
2。
50
1
4
3、00~4.00
3.50
6
7
4。
00~5。
00
4。
50
13
11
5、00~6。
00
5。
50
30
25
6、00~7.00
6。
50
25
25
7。
00~8、00
7、50
16
23
8、00~9、00
8.50
21
17
9、00~10。
00
9。
50
18
16
10.00~11。
00
10.50
12
4
11。
00~12、00
11、50
3
12。
00~13、00
12、50
2
首先判断数据得类型,然后分别绘制雌鱼与雄鱼得频数分布图,计算样本平均数、标准差、偏斜度与峭度并比较两者得变异程度。
答:
鱼得体重为度量数据,表中第一列所给出得数值为组限。
在下面得分布图中雌鱼与雄鱼得分布绘在了同一张图上,以不同得颜色表示、
计算统计量得SAS程序与前面得例题类似,这里不再给出,只给出结果。
雌鱼:
The SAS System
Analysis Variable:
Y
N Mean Std Dev Skewness Kurtosis
——----——----—-—------—---—---———-———-------———-———--—------
1477、2414966 2、14568200、2318337 -0、6758677
——---—————--————---—-—-—-------—-—--————-—---------—-----—-
雄鱼:
TheSASSystem
AnalysisVariable :
Y
N Mean StdDev Skewness Kurtosis
--——-----—--—-—----——---—-——————---------—--—----------——-—
132 6.78030301。
9233971-0。
1322816 -0。
5510332
---—--—-———---——--—----—-—-—-—--—-—-—--—-—-——-——-—----—--——
直观地瞧,雄鱼得平均体重低于雌鱼。
雌鱼有一正偏,雄鱼有一负偏。
因此,相对来说雌鱼低体重者较多,雄鱼高体重者较多。
但两者都有很明显得负峭度,说明“曲线"较平坦,两尾翘得较高。
1.15黄胸鼠体重得频数分布[6]:
组界/g
频 数
0<≤15
10
15〈≤30
26
30<≤45
30
45<≤60
22
60〈≤75
22
75<≤90
17
90<≤105
16
105<≤120
14
120<≤135
6
135<≤150
4
150<≤165
2
总数
169
绘制频数分布图,从图形上瞧分布就是对称得吗,说明什么问题?
答:
下面就是频数分布图:
从上图可见,图形不就是对称得,有一些正偏。
说明在该黄雄鼠群体中,低体重者分布数量,高于高体重者得数量、另外,似乎峭度也有些低。
1。
1625名患者入院后最初得白细胞数量(×103)[7]如下表:
8
5
12
4
11
6
8
7
7
12
7
3
11
14
11
9
6
6
5
6
10
14
4
5
5
计算白细胞数量得平均数、方差与标准差。
答:
用means过程