自考生物统计学考试.docx

资源描述

自考生物统计学考试.docx

《自考生物统计学考试.docx》由会员分享，可在线阅读，更多相关《自考生物统计学考试.docx（23页珍藏版）》请在冰豆网上搜索。

自考生物统计学考试.docx

自考生物统计学考试

生物统计学考试总结

第一章

生物统计学：

是数理统计在生物学研究中的应用，它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科，属于应用统计学的一个分支。

内容：

试验设计：

试验设计的基本原则、试验设计方案的制定和常用试验设计的方法

统计分析：

数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等

生物统计学的作用：

1.提供整理、描述数据资料的科学方法并确定其特征

2.判断试验结果的可靠性

3.提供由样本推断总体的方法

4.试验设计的原则

相关概念：

1.总体：

研究对象的全体，是具有相同性质的个体所组成的集合

2.个体：

组成总体的基本单元

3.样本：

由总体中抽出的若干个体所构成的集合n>30大样本；n<30小样本

4.参数：

描述总体特征的数量

5.统计数：

描述样本特征的数量

由于总体一般很大，有时候甚至不可能取得，所以总体参数一般不可能计算出来，而采用样本统计数来估计总体的参数

6..效应：

由因素而引起试验差异的作用

7.互作：

两个或两个以上处理因素间的相互作用产生的效应

生物统计学的研究包括了两个过程：

1.从总体抽取样本的过程——抽样过程

2.从样本的统计数到总体参数的过程——统计推断过程

第二章

1．算术平均数：

是所有观察值的和除以观察的个数

平均数（AVERAGE）

特性：

（1）样本中各观测值与平均数之差－离均差－的总和等于零

（2）样本中各观测值与其平均数之差平方的总和，比各观测值与任一数值离均差的平方和小，即离均差平方和最小

2．中位数：

将试验或调查资料中所有观测依从大小顺序排列，居于中间位置的观测值称为中位数，以Md表示

3．众数：

在一个样本的所有观察值中，发生频率最大的一个值称为样本的众数，以Mo表示

4．几何平均数：

资料中有n个观测值，其乘积开n次方所得的数值，以G表示。

5.极差（全距）：

样本数据资料中最大观测值与最小观测值的差值

R＝max{x1,x2,…,xn}—mix{x1,x2,…,xn}

6．样本方差：

总体方差：

用n－1代替n作，可以避免偏小估计，从而实现样本方差对总体方差的无偏估计

在统计上，自由度（df＝n－1）是指样本内独立而能自由变动的观测值的个数

在计算其他统计数时，如果受到k个条件的限制，则其自由度为n－k

7．样本标准差：

总体标准差：

（1）标准差的大小，受多个观测值的影响，如果观测值与观测值间差异大，标准差就大

（2）在计算标准差的时候，如果对各个观测值加上或者减去一个常数a，其标准差不变；如果乘以或除以一个常数a，则标准差扩大或者缩小a倍

STDEV:

基于给定样本的标准偏差

STDEVP：

基于给定样本总体的标准偏差

8变异系数（CV）：

样本标准差除以样本的平均数，得到百分比

（1）变异系数是样本变量的相对变量，是不带单位的纯数

（2）用变异系数可以比较不同样本相对变异程度的大小

第三章

概率的计算法则：

（1）乘法定理：

如果A和B为独立事件，则事件A和B同时发生的概率等于各自事件的概率的乘积

（2）加法定理：

互斥事件A和B的和的概率等于事件A和事件B的概率之和

加法定理推理1：

如果A1、A2、…An为n个互斥事件，则其和事件的概率为：

P（A1＋A2…An）=P（A1）+P（A2）＋…＋P（An）

加法定理：

如果A和B是任何两件事件，则

概率分布：

（1）离散型随机变量的概率分布

变量（x）

x1x2x3…xn

概率（P）

p1p2p3…pn

P（x=xi）=pi（i=1,2,…,n）

离散随机变量的方差

（2）连续型随机变量的概率分布

连续型随机变量的概率分布

1.连续型随机变量可以取某一区间或整个实数轴上的任意一个值

2.它取任何一个特定的值的概率都等于0

3.不能列出每一个值及其相应的概率

4.通常研究它取某一区间值的概率

5.用数学函数的形式和分布函数的形式来描述

概率密度函数：

（1）设X为一连续型随机变量，x为任意实数，X的概率密度函数记为f（x），它满足条件

（2）,f（x）不是概率

几种常见的概率分布：

（适用范围，尾函数，自由度）

1.二项分布的概率函数记作B（n，p）或者B（n,π）

（1）每次试验只有两个对立结果，分布记为A与，它们出现的概率分布为p与q（q＝1-p）

（2）试验具有重复性和独立性

二项式分布的概率累积函数：

若随机变量x服从二项式分布，则有二项分布的总体平均数为

二项分布的总体标准差为：

二项成数（百分数）分布的平均数：

二项成数（百分数）分布的标准差：

B（n,p）

BINOMDIST

number_s

实验成功次数

trials

独立实验次数

probability_s

一次实验中成功的概率

cumulative

True:

False:

例：

假设年龄60～64岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人，这正常嘛？

（注：

1986年，60～64岁的男性老人第二年的死亡率约为0.02）

解：

要知道100个男性的样本死亡5人是不是“异常”事件，这种估计的一个准则是寻找至少5人死亡的概率。

注：

通常是把概率值为0.05或者更小的概率事件识别为异常（稀有事件）。

由于至少5人死亡的概率是0.05，可见100人中至少死亡5人是稍微有点异常，但不是很异常。

如果至少死亡10人，那么概率是3.44*10-5，这就很不正常，因而，在没有其他证据显示此疫苗有效前，应考虑停止使用。

2.泊松分布

二项式分布中，如果p值很小而n值很大（p<0.1和np<5），则泊松分布

式中：

为参数，

泊松分布的平均数、方差、标准差

3.正态分布（高斯分布）

为总体平均数，为总体标准差

正态分布的特征

1.当时，f（x）有最大值

2.当的绝对值相等的时候，f（x）值也相等

3.当的绝对值越大，f（x）值就越小，但永远不等于0

4.正态分布曲线完全由函数和来决定

5.正态分布曲线在处各有一个拐点

6.正态分布求和为0

4．t分布:

是小样本分布，小样本分布一般是指n<30。

t分布适用于当总体标准差未知时用样本标准差代替总体标准差，由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等P45

5.卡方分布P45

6.F分布

1、概率抽样：

根据已知的概率选取样本

简单随机抽样：

完全随机地抽选样本

分层抽样：

总体分成不同的“层”，然后在每一层内进行抽样

整群抽样：

将一组被调查者（群）作为一个抽样单位

等距抽样：

在样本框中每隔一定距离抽选一个被调查者

2、非概率抽样：

不是完全按随机原则选取样本

非随机抽样：

由调查人员自由选取被调查者

判断抽样：

通过某些条件过滤来选择被调查者

3、配额抽样：

选择一群特定数目、满足特定条件的被调查者

抽样分布：

从一个给定的总体中抽取（不论是否有放回）容量（或大小）为n的所有可能的样本，对于每一个样本，计算出某个统计量（如样本均值或标准差）的值，不同的样本得到的该统计量的值是不一样的，由此得到这个统计量的分布，称之为抽样分布

1.所有样本指标（如均值、比例、方差等）所形成的分布称为抽样分布

2.是一种理论概率分布

3.随机变量是样本统计量——样本均值,样本比例等

4结果来自容量相同的所有可能样本

（符号）

样本平均数的基本性质：

（1）样本均值的均值（数学期望）等于总体均值

定义：

一个参数

的估计量是

，如果

则称

是

的无偏估计

（2）样本均值的方差等于总体方差的1/n

（3）样本平均数的标准误差的定义

（4）当总体服从正态分布N~（μ,σ2）时，来自该总体的所有容量为n的样本的均值也服从正态分布，的数学期望为μ，方差为σ2/n。

即～N（μ,σ2/n）

中心极限定理：

设从均值为，方差为2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布

两个独立样本平均数差数的分布P44

第四章

假设检验：

又称显著性检验：

根据总体的理论分布和小概率原理，对未知或不完全知道的总体提出两种彼此对立的假设，然后由样本的实际结果，经过一定的计算，做出在一定概率意义上应该接受的那种假设的推断。

如果抽样结果使小概率事件发生，则拒绝假设。

如果抽样结果没有使小概率事件发生，则接受假设

特点：

（1）采用逻辑上的反证法

（2）依据统计学上的小概率原理

生物统计学上，一般认为：

等于或小于0.05或0.01的概率为小概率

在一次试验中，一个几乎不可能发生的事件发生的概率。

假设检验的步骤：

1、提出假设2、确定适当的检验统计量

3、确定显著性水平a4、计算概率5、推断是否接受假设

两类:

1）弃真错误；2）取伪错误

一．大样本平均数的假设检验——u检验

应用范围：

1）总体方差

已知

2）总体方差

未知，但样本为大样本（

）,用s2来代替

两个样本平均数比较的u检验

二、小样本平均数的假设检验——t检验

应用范围：

总体方差未知，且样本为小样本（）,采用t检验

当总体方差为未知时，当样本容量小于30，检验一个样本平均数是否属于平均数为的指定总体，其遵循自由度为df＝n－1的t分布

T分布的计算：

2、成组数据平均数比较的t检验

成组数据资料是两个样本的各个变量从各自总体中抽取的，即两个抽样样本彼此独立。

这样，不论两样本容量是否相同，所得数据皆为成组数据。

两个样本的总体方差相等，自由度df＝n1＋n2－2

两个样本的总体方差不相等，但抽样样本数相等，自由度df＝n－1

3、成对数据平均数比较的t检验

第五章

统计假设：

H0：

观测值与理论值的差异是由随机误差引起

HA：

观测值与理论值之间有真实差异

所以卡方值是度量实际观测值与理论值偏南程度的一个统计量

卡方值越小，表明观测值与理论值越接近

卡方值越大，表明观测值与理论值相差越大

卡方值为0，表明H0严格成立，且它不会有下侧否定区，只能进行右尾检验

连续性：

由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布，所以在对离散型资料进行卡方检验计算的时，结果常常偏低，特别是当自由度df=1时，有较大偏差，为此需要进行矫正，当自由度df>1时，与连续型随机变量卡方分相近似，这时可以不做连续性矫正

注意：

要求各个组内的理论次数不小于5，如某组理论次数小于5，则应把它与其相邻的一组或几组合并，直到理论次数大于5为止

适合性检验（吻合性检验或拟合优度检验）步骤：

1.提出无效假设，即认为观测值和理论值之间没有差异

2.规定显著性水平

3.计算样本卡方值

4.根据规定的显著水平和自由度计算出卡方值，再和实际计算的卡方值进行比较

独立性检验步骤：

1.提出无效假设，即认为所观测的各属性之间没有关联

2.规定显著性水平

3.根据无效假设计算出理论数

4.根据规定的显著水平和自由度计算出卡方值，再和计算的卡方值进行比较。

如果接受假设，则说明因子之间无相关联，是相互独立的

如果拒绝假设，则说明因子之间的关联是显著的，不独立

第六章

方差分析又称F检验（F-test）;方差分析是关于k（k≥3）个样本平均数的假设测验方法，是将总变异按照来源分为处理效应和试验误差，并做出其数量估计。

发现各变异原因在总变异中相对重要程度的一种统计分析方法。

总变异分解为组间变异和组内变异。

组内变异是个体差异所致，是抽样误差。

组间变异可能由两种原因所致，一是抽样误差；二是处理不同。

在抽样研究中抽样误差是不可避免的，故导致组间变异的第一种原因肯定存在；第二种原因是否存在，需通过假设检验作出推断

方差分析基本思想：

1、把k个总体当作一个整体看待

2、把观察值的总变异的平方和及自由度分解为不同来源的平方和及自由度

3、计算不同方差估计值的比值

4、检验各样本所属的平均数是否相等

•实际上是观察值变异原因的数量分析

方差分析应用条件：

1、各样本须是相互独立的随机样本

2、各样本来自正态分布总体

3、各总体方差相等，即方差齐

方差分析基本用途：

1、多个样本平均数的比较

2、多个因素间的交互作用

3、回归方程的假设检验

4、方差的同质性检验

总平方和=处理间平方和＋处理内平方和

总自由度=处理间自由度＋处理内自由度

统计假设的显著性检验——F检验：

F检验的目的：

推断处理间的差异是否存在

方差分析中的F检验总是单尾检验,而且为右尾检验

•F越大，越说明组间方差是主要方差来源，因子影响越显著；

•F越小，越说明随机方差是主要的方差来源，因子的影响越不显著

F检验如果否定了H0，接受了HA，表明试验的总变异主要来源于处理间的变异

多重比较：

多个平均数的相互比较

常用的：

1、最小显著差数法（LSD法）

2、最小显著极差法（LSR法）—新复极差检验（SSR法）—q检验

总结：

差异不显著标同一字母，差异显著标不同字母

最小显著极差法（LSR法）

•把平均数的差异看成是平均数的极差（range）

•根据极差范围内所包括的处理数（称为秩次距）k的不同，而采用不同的检验尺度叫做最小显著极差LSR

•秩次距是指当平均数由大到小排序后，相比较的两个平均数之间（含这两个平均数）包含的平均数个数

•I类错误下降、工作量加大

新复极差法

q检验法

两因素方差分析：

互作：

某一因素在另一因素的不同水平上所产生的效应不同，则二因素间存在交互作用，简称互作。

互作效应实际是由于两个或多个试验因素的相互作用而产生的效应

采用EXCEL计算重复观测值的二因素方差分析：

1、数据输入区域必须有标题

2、直接分析结果仅适用用固定模型

第七章