生物统计学版杜荣骞课后习题答案统计数据的收集与.docx

资源描述

生物统计学版杜荣骞课后习题答案统计数据的收集与.docx

《生物统计学版杜荣骞课后习题答案统计数据的收集与.docx》由会员分享，可在线阅读，更多相关《生物统计学版杜荣骞课后习题答案统计数据的收集与.docx（20页珍藏版）》请在冰豆网上搜索。

生物统计学版杜荣骞课后习题答案统计数据的收集与.docx

生物统计学版杜荣骞课后习题答案统计数据的收集与

Documentserialnumber【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

生物统计学版杜荣骞课后习题答案统计数据的收集与

第一章统计数据的收集与整理

算术平均数是怎样计算的为什么要计算平均数

答：

算数平均数由下式计算：

，含义为将全部观测值相加再被观测值的个数除，所得之商称为算术平均数。

计算算数平均数的目的，是用平均数表示样本数据的集中点，或是说是样本数据的代表。

既然方差和标准差都是衡量数据变异程度的，有了方差为什么还要计算标准差

答：

标准差的单位与数据的原始单位一致，能更直观地反映数据地离散程度。

标准差是描述数据变异程度的量，变异系数也是描述数据变异程度的量，两者之间有什么不同

答：

变异系数可以说是用平均数标准化了的标准差。

在比较两个平均数不同的样本时所得结果更可靠。

完整地描述一组数据需要哪几个特征数

答：

平均数、标准差、偏斜度和峭度。

下表是我国青年男子体重（kg）。

由于测量精度的要求，从表面上看像是离散型数据，不要忘记，体重是通过度量得到的，属于连续型数据。

根据表中所给出的数据编制频数分布表。

答：

首先建立一个外部数据文件，名称和路径为：

\data\。

所用的SAS程序和计算结果如下：

procformat;

valuehfmt

56-57='56-57'58-59='58-59'60-61='60-61'

62-63='62-63'64-65='64-65'66-67='66-67'

68-69='68-69'70-71='70-71'72-73='72-73'

74-75='74-75';

run;

dataweight;

infile'E:

\data\';

inputbw@@;

run;

procfreq;

tablebw;

formatbwhfmt.;

run;

TheSASSystem

CumulativeCumulative

BWFrequencyPercentFrequencyPercent

-----------------------------------------------------

56-5733

58-5947

60-612229

62-634675

64-6583158

66-6777235

68-6945280

70-7113293

72-735298

74-752300

将上述我国男青年体重看作一个有限总体，用随机数字表从该总体中随机抽出含量为10的两个样本，分别计算它们的平均数和标准差并进行比较。

它们的平均数相等吗标准差相等吗能够解释为什么吗

答：

用means过程计算，两个样本分别称为

和

，结果见下表：

TheSASSystem

VariableNMeanStdDev

----------------------------------------

Y110

Y210

----------------------------------------

随机抽出的两个样本，它们的平均数和标准差都不相等。

因为样本平均数和标准差都是统计量，统计量有自己的分布，很难得到平均数和标准差都相等的两个样本。

从一个有限总体中采用非放回式抽样，所得到的样本是简单的随机样本吗为什么本课程要求的样本都是随机样本，应当采用哪种抽样方法，才能获得一随机样本

答：

不是简单的随机样本。

从一个有限总体中以非放回式抽样方法抽样，在前后两次抽样之间不是相互独立的，后一次的抽样结果与前一次抽样的结果有关联，因此不是随机样本。

应采用随机抽样的方法抽取样本，具体说应当采用放回式抽样。

证明

若用

或

编码时，前式是否仍然相等

答：

（1）令

则

平均数特性之③。

（2）令

则

平均数特性之②。

用第二种编码方式编码结果，两式不再相等。

有一个样本：

，设B为其中任意一个数值。

证明只有当

最小。

这是平均数的一个重要特性，在后面讲到一元线型回归时还会用到该特性。

答：

令

，为求使p达最小之B，令

则

。

检测菌肥的功效，在施有菌肥的土壤中种植小麦，成苗后测量苗高，共100株，数据如下[1]：

编制苗高的频数分布表，绘制频数分布图，并计算出该样本的四个特征数。

答：

首先建立一个外部数据文件，名称和路径为：

\data\。

SAS程序及结果如下：

optionsnodate;

procformat;

valuehfmt

''''''

'''';

run;

datawheat;

infile'E:

\data\';

inputheight@@;

run;

procfreq;

tableheight;

formatheighthfmt.;

run;

proccapabilitygraphicsnoprint;

varheight;

histogram/vscale=count;

insetmeanvarskewnesskurtosis;

run;

TheSASSystem

TheFREQProcedure

CumulativeCumulative

heightFrequencyPercentFrequencyPercent

---------------------------------------------------------------------

910

1121

2344

2468

1179

1594

6100

北太平洋宽吻海豚羟丁酸脱氢酶（HDBH）数据的接收范围频数表[2]如下：

（略作调整）

HDBH数据的接收范围/（U·L-1）

频数

<214

根据上表中的数据作出直方图。

答：

以表中第一列所给出的数值为组界，直方图如下：

灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。

纹嵴有许多特征，这些特征在胚胎形成之后是终生不变的。

人类手指尖的纹型，大致可以分为弓、箕和斗三种类型。

在手指第一节的基部可以找到一个点，从该点纹嵴向三个方向辐射，这个点称为三叉点。

弓形纹没有三叉点，箕形纹有一个三叉点，斗形纹有两个三叉点，记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数（fingerridgecount,FRC）。

将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加，称为总纹嵴数（totalfingerridgecount,TFRC）。

下表给出了大理白族人群总纹嵴数的频数分布[3]：

TFRC分组

中值

频数

11~30

31~50

51~70

71~90

91~110

100

111~130

120

131~150

140

151~170

160

171~190

180

191~210

200

首先判断数据的类型，然后绘出样本频数分布图，计算样本的四个特征数并描述样本分布形态。

答：

总纹脊数属计数数据。

计数数据的频数分布图为柱状图，频数分布图如下：

样本特征数（以TFRC的中值计算）SAS程序：

optionsnodate;

datatfrc;

doi=1to10;inputy@@;

inputn@@;

doj=1ton;

output;

end;

cards;

202

401

608

8029

10054

12063

14068

16051

18018

2006

;

run;

procmeansmeanstdskewnesskurtosis;

vary;

run;

结果见下表：

TheSASSystem

AnalysisVariable:

MeanStdDevSkewnessKurtosis

------------------------------------------------------

从频数分布图可以看出，该分布的众数在第七组，即总纹脊数的中值为140的那一组。

分布不对称，平均数略小于众数，有些负偏。

偏斜度为，偏斜的程度不是很明显，基本上还可以认为是对称的，峭度几乎为零。

海南粗榧叶长度的频数分布[4]：

叶长度/mm

中值

频数

390

1434

2643

3546

5692

5187

4333

2767

1677

1137

nag

667

346

181

绘出频数分布图，并计算偏斜度和峭度。

答：

表中第一列所给出的数值为组限，下图为海南粗榧叶长度的频数分布图。

计算偏斜度和峭度的SAS程序和计算结果如下：

optionsnodate;

datalength;

doi=1to13;inputy@@;

inputn@@;

doj=1ton;

output;

end;

cards;

390

1434

2643

3546

5692

5187

4333

2767

1677

1137

667

346

181

;

run;

procmeansnskewnesskurtosis;

vary;

run;

TheSASSystem

AnalysisVariable:

nSkewnessKurtosis

---------------------------------

30000

---------------------------------

样本含量n＝30000，是一个很大的样本，样本的偏斜度和峭度都已经很可靠了。

偏斜度为，有一个明显的正偏。

马边河贝氏高原鳅繁殖群体体重分布如下[5]：

体质量/g

中值

雌鱼

雄鱼

首先判断数据的类型，然后分别绘制雌鱼和雄鱼的频数分布图，计算样本平均数、标准差、偏斜度和峭度并比较两者的变异程度。

答：

鱼的体重为度量数据，表中第一列所给出的数值为组限。

在下面的分布图中雌鱼和雄鱼的分布绘在了同一张图上，以不同的颜色表示。

计算统计量的SAS程序与前面的例题类似，这里不再给出，只给出结果。

雌鱼：

TheSASSystem

AnalysisVariable:

NMeanStdDevSkewnessKurtosis

-----------------------------------------------------------

147

-----------------------------------------------------------

雄鱼：

TheSASSystem

AnalysisVariable:

NMeanStdDevSkewnessKurtosis

-----------------------------------------------------------

132

-----------------------------------------------------------

直观地看，雄鱼的平均体重低于雌鱼。

雌鱼有一正偏，雄鱼有一负偏。

因此，相对来说雌鱼低体重者较多，雄鱼高体重者较多。

但两者都有很明显的负峭度，说明“曲线”较平坦，两尾翘得较高。

黄胸鼠体重的频数分布[6]：

组界/g

频数

≤15

15<

≤30

30<

≤45

45<

≤60

60<

≤75

75<

≤90

90<

≤105

105<

≤120

120<

≤135

135<

≤150

150<

≤165

总数

169

绘制频数分布图，从图形上看分布是对称的吗，说明什么问题

答：

下面是频数分布图：

从上图可见，图形不是对称的，有一些正偏。

说明在该黄雄鼠群体中，低体重者分布数量，高于高体重者的数量。

另外，似乎峭度也有些低。

25名患者入院后最初的白细胞数量（×103）[7]如下表：

计算白细胞数量的平均数、方差和标准差。

答：

用means过程计算，程序不再给出，只给出运行结果。

TheSASSystem

AnalysisVariable:

NMeanVarianceStdDev

-------------------------------------------

--------------------------------------------

细胞珠蛋白基因（CYGB）可能是非小细胞肺癌（NSCLC）的抑制基因之一。

一个研究小组研究了该基因的表达、启动子甲基化和等位基因不平衡状态等，以便发现它与肿瘤发病间的关联。

下面列出了其中15名患者的基因表达（肿瘤患者/正常对照，T/N），肿瘤患者与正常对照甲基化指数差（MtIT-MtIN）[8]：

样本号

T/N

MtIT-MtIN

357

370

367

316

369

358

303

314

308

310

341

348

323

360

336

计算以上两项指标的平均数和标准差并计算两者的变异系数，这两个变异系数可以比较吗为什么

答：

记T/N为

，MtIT-MtIN为

，用means过程计算，SAS运行的结果见下表：

TheSASSystem

VariableNMeanStdDevCV

------------------------------------------------------

Y115

Y215

------------------------------------------------------

两个变异系数是可以比较的，因为它们的标准差都是用平均数标准化了的，已经不存在不同

单位的影响了。

展开阅读全文