统计学概念.docx
《统计学概念.docx》由会员分享,可在线阅读,更多相关《统计学概念.docx(22页珍藏版)》请在冰豆网上搜索。
![统计学概念.docx](https://file1.bdocx.com/fileroot1/2023-1/27/dbc014bb-f503-4dfe-aa01-107c2ff8a0f9/dbc014bb-f503-4dfe-aa01-107c2ff8a0f91.gif)
统计学概念
基本统计概念
第一章数值资料的统计描述
一、数值资料的统计描述
首先应编制频数分布表以了解其分布状况,频数就是观察值的个数。
频数分布就是观察值在其所取值的范围内分布的情况。
频数分布表的编制步骤:
1.计算全距全距=最大值一最小值
2.确定组段数、组距和组段数,全距大,观察值个数多可多取些,反之可少取。
组段数太多,较繁琐,不易反映分布的特征,组段太少计算误差较大,实际工作中可根据具体情况决定。
组距=全距/组数。
3.列表归组汇总将各组段列入频数分布表栏,用划记法将各观察值划记到各组段,即额数分布表栏,求出各组段额数及总额数。
其次,在编制额数分布表的同时,也可绘制额数分布图,以更加直观地了解频数分布情况。
二、频数分布类型
数值资料常见的频数分布类型有三种,如何区分关键是看分布高峰的位置。
1.正态分布型频数分布的高峰位于中央,图形左右对称。
正态分布属于此类型。
2.正偏态分布型频数分布的高峰偏左,图形左右不对称,即观察值较小的一端集中了较多的频数。
3.负偏态分布型频数分布的高峰偏右,图形左右不对称,即观察值较大的一端集中了较多的频数。
三、集中趋势指标
集中趋势指标又称平均数,它反映了观察值的集中位置或平均水平,是观察值的典型水平或代表值。
常用的集中趋势指标有算术均数(均数)、几何均数和中位数等。
计算平均数时,首先应搞清楚它们的应用条件,现把各种平均指标的应用条件归纳如表2.1.
各平均指标的应用条件
指标
适用条件
计算公式
算术平均数
常用于描述对称型分布,尤其是正态分布资料的集中趋势
几何均数
常用于描述对数正态分布资料和观察值呈等比数列资料的集中趋势
中位数
常用于描述偏态分布资料、一端或两端无界的资料、频数分布类型不清楚的集中趋势
四、离散程度指标
离散程度指标又称变异程度指标。
它反映观察值之间参差不齐的程度。
常用的离散程度指标有极差、标准差和变异系数等。
现将离散程度指标、计算公式及主要优缺点归纳如在下表中。
离散程度指标比较表
指标
计算公式
主要优缺点
极差
R=Xmax-Xmin
计算简单,易于理解;但只反映了一组观察值的最大值与最小值的差异,不能反映其他观察值之间的变异情况
离均差平方和
反映了各变量值之间的变异情况,但单位是原观察值单位的平方,不易理解,同时又受观察值个数的影响,不利于比较。
方差
反映了各变量值之间的变异情况,不受观察值个数的影响,但单位是原观察值单位的平方,不易理解
标准差
反映了各变量值之间的变异情况,不受观察值个数的影响,单位与原观察单位相同,是最常用的离散程度指标之一,但在两组和多组资料比较时,常受到计量单位不同和均数相差很大的影响而不能比较和不便于比较
变异系数
两组或多组资料比较变异程度,如均数相差过大或观察值单位不同时用变异系数比较
五、标准差的应用
标准差用来描述观察值间的变异程度(离散程度),用于正态或近似正态分布资料,标准差结合均数描述分布特征。
标准差主要用来衡量观察值间的离散(或变异)程度。
标准差还可以用于计算变异系数,变异系数又称离散系数,它是标准差对均数的相对百分数,故又有相对标准差之称,以符号CV表示,按下式计算。
和标准差一样,CV越小,表示观察值的离散程度越小。
六、对数正态分布
某些正偏态分布资料,其观察值X经过对数变换后,可以转变为正态分布资料,这时,就称X服从对数正态分布。
第二章总体均数的估计和t检验
一、均数的抽样误差
均数抽样误差是指由于抽样引起的样本均数与总体均数之间的误差,称为均数的抽样误差。
均数的抽样误差用均数的标准误表示,用符号
表示,用来描述均数的抽样误差的大小,
。
如无可用s代替求标准误的近似值
二、t分布
一般正态分布转化为标准正态分布就是将X变量变换为u值,变换公式为
,u值的分布就是标准正态分布。
样本均数组成的正态分布变换为标准正态分布将X变换为u值,变换公式为
值的分布是标准正态分布。
如用
代替
,就是t变换,变换公式为
,t值的分布即是t分布。
t分布曲线具有以下特征:
以0为中心,左右对称;与正态分布曲线相比,自由度越小,顶部越低,尾部翘得越高,随自由度逐渐增大逐渐趋向正态分布曲线;二分布曲线随自由度的改变而改变,它是一簇曲线。
三、总体均数的可信区间的估计
1.小样本均数可信区间的估计
通式:
总体均数的可信区间为:
,=1-P。
P:
可信度又称置信概率,如总体均数95%的可信区间P=0.95,则=1-P=0.05,
:
自由度,t是自由度等于时的t的界值。
常用的可信区间公式:
95%的可信区问:
99%的可信区间:
计算时特别注意公式中的
标准误而不是标准差。
2.大样本均数可信区间的估计
95%的可信区间:
99%的可信区间:
可信区间的含义:
从总体中作随机抽样,根据每个样本可算得一个可信区间,如95%可信区间,意味着作100次抽样,算得100个可信区间,有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。
四、t检验的意义
t检验主要用于两个均数的比较,它能够判断进行比较的均数的差别是由于抽样误差引起,还是总体就有差别。
五、t检验的步骤
1.建立假设和确定检验水准
H0(无效假设):
假设比较指标的差别是由于抽样误差引起的。
H1(备择假设):
假设比较指标的差别是总体的差别。
(检验水准):
一般为0.05,可以根据情况决定是单侧还是双侧。
2.计算t值根据统计资料的类型、适用条件、分析目的计算适当的统计量正值。
3.确定P值P值是H0存在的概率,根据自由度与P值确定相对应的t界值,比较所得t值大于相应的界值时,P小于相应的概率P。
4.判断结果P拒绝H0,可以认为比较指标的差别是总体的差别;P>接受H0,可以认为比较指标的差别是抽样误差引起。
六、常用的t检验
1.进行t检验时首先应正确认识资料的类型和t检验的适用条件。
t检验是数值资料的假设检验方法,应用于样本均数与总体均数的比较及两样本均数间的比较,所以要进行t检验需检查资料是否符合以下条件:
①资料是数值资料;
②分析目的是对两均数进行比较;
③具备t检验的应用条件,即资料具有正态性,如两样本均数比较还需要两样本方差具有齐同性。
2.正确选择具体公式,计算t值如以上三条资料均具备,就说明可以进行t检验,然后进一步选择具体的t检验方法。
其具体方法有:
(l)样本均数与总体均数比较的t检验,资料中有一个
,另一个是0。
(2)配对比较的t检验,资料常见的有以下三种:
①配对资料,常将条件基本相同的受试对象配成对子,每对中的两个受试对象分别给予不同的处理,比较不同处理的差别。
②同一批对象试验前后对比资料,是对一批观察对象分别测定试验前后某项指标的.值进行比较,目的是看该处理(试验)有无作用。
③对同一批样本中的每一个样本分别用不同方法处理,比较不同方法有无差别。
以上三种资料假设检验都是用配对t检验。
配对t检验实际也是单一样本均数(差数的样本均数)与总体均数(差数的总体均数)比较,所以它和样本均数比较的t检验一样,只要求资料具有正态性。
(3)两小样本均数比较的t检验,两小样本比较的t检验,既要求资料具有正态性,又要求两样本方差具有齐同性。
式中:
为两样本均数之差,
为两样本均数之差的标准误,
式中
为合并方差,
式中:
s1为第一个样本的方差,s2为第二个样本的方差,
n1为第一个样本的含量,n2为第二个样本的含量。
(4)两样本均数比较的u检验,两样本均数比较时,如n1和n2均大于100,可用u检验。
,
u检验的唯一条件是样本含量足够大。
不要求正态性和方差齐性。
(5)两个几何均数比较的t检验或u检验,两样本几何均数进行比较时,只需将数据变换成对数,用对数值进行两样本均数的t检验或u检验就可以了。
七、进行t检验时应注意的问题
1.正确理解差别的统计意义
差别有统计意义,是说从统计的角度看,差别可能是总体的差别;差别无统计意义时是说从统计的角度看差别可能是抽样误差引起的。
2.对比资料应有可比性对比资料除对比因素不同外,其它凡影响比较指标的一切因素应尽可能齐同,这样资料才有可比性。
3.要满足t检验的应用条件
t检验要求资料具有正态性,样本间方差要有齐同性。
配对和样本与总体比较的t检验,因是单一样本,只要求资料具有正态性。
两小样本的t检验,两个条件均应达到才能进行t检验。
必要时应做正态性检验和方差齐性检验。
4.正确计算统计量t值
根据资料的类型、特征和统计分析目的,正确选择t检验的具体方法,计算t值。
5.正确理解t检验结论的概率性
t检验结论不管拒绝还是接受H0都不是100%正确的,t检验中常出现二种错误,一是H0是正确的,根据P≤α拒绝了它,称第Ⅰ类错误,第Ⅰ类错误的概率α表示,α取决于检验水准。
二是H0是不正确的,而P>α接受了它,称第Ⅱ类错误,第Ⅱ类错误的概率用β表示,其β值不易确定,但α越大,β越小,增加样本含量可同时减少α和β。
6.正确地确定单侧和双侧检验
根据专业知识,在统计分析前就应确定用单侧检验还是用双侧检验。
八、正态性检验
对频数表应用正态概率单位法进行正态性检验,要求掌握在没有概率纸的情况下会作正态性检验。
检验步骤如下:
1.列表计算频数表资料各组段的累计频数、累计频率,并将累计频率换算成概率单位。
2.定坐标横轴表示各组段,纵轴表示相应的概率单位。
3.画图以各组段的上限与相应的概率单位的交点描点,连接各点即得累计频率曲线。
4.判断结果如资料为正态分布,该曲线接近一条直线。
第三章卡方
(2)检验
2检验是一种对分类资料进行假设检验的重要方法之一。
它常用于两个或多个样本率(或构成比)的比较、列联表资料的相关分析及频数分布拟合优度的检验。
2检验最常用于作样本率或构成比的比较,按照资料设计类型不同,可将这—类假设检验分为:
四格表资料2检验;行列表资料2检验;配对资料2检验等。
一、四格表资料2检验
四格表指由2行2列组成的表格,其基本数据只有4个。
检验步骤如下:
1.建立假设和确定检验水准
2.计算2值
(1)计算2值的基本公式:
式中:
2为卡方值。
A为实际频数,即实际观察所得频数。
T为理论额数,即按照假设或理论推算出来的频数。
TRC=nRnc/N
式中:
TRC为第R行第C列格子的理论频数,nR为与理论额数同行的合计数,nc为与理论颇数同列的合计数,N为总例数。
(2)计算2值的专用公式:
(3)计算2值的校正公式:
3.确定P值按=(行数一1)(列数一1),查2值表确定P值。
4.判断结果根据2分布的理论,在的水准上作出拒绝HO或接受HO的结论。
二、行×列表资料2检验
(-)行×列表的格式
2×2表是最简单的行×列表,习惯上把行数>2和(或)列数>2的表称为行×列表。
实际工作中行×列表又可分为R×2表,2×C表和R×C表。
R×2表由多行(R>2)2列组成,用于多个样本率的比较。
2×C表由2行多列(C>2)组成,用于两个样本构成比的比较。
R×C表由多行(R>2)多列(C>2)组成,用于多个样本构成比的比较。
(二)行×列表资料2检验方法
上述三种行×列表资料的2检验均可用基本公式计算2值,也可用下列专用公式计算2值,后者较简便。
式中:
n为总例数,A为实际数,nRnc为与实际数对应的行合计数与列合计数。
(三)行×列表2检验的注意事项
1.作行×列表资料2检验时,允许有1/5以下的格子理论数小于5,如果有1/5以上的格子理论数小于5或有理论数小于1时,需将邻近组合并,使理论数增大。
合并时应注意合并是否合理。
因合并的做法并非常规的做法。
最好增加样本含量,使每个格子理论数都超过5。
2.行×列表资料2检验结果,如果有统计意义,并不表示任何两组之间差别都有统计意义。
三、配对资料2检验
和数值资料一样,分类资料也有成组与配对之分,前面是对两组或多组的资料进行2检验。
配对分类资料是将观察单位—一配对,对每一对观察单位分别观察某分类变量的表现,或对每一观察单位给予不同的处理,观察其结果,或同一观察单位先后给予两种不同的处理。
1.建立假设和确定检验水准
HO:
B=C(因a和d为结果完全相同的部分,不必考虑)。
H1:
B≠C
α=0.05
2.计算2值.
如果b+C<40,则用校正公式计算:
3.确定p值按ν=1,查2界值表
4.判断结果根据2值按α=0.05,作出拒绝HO或接受HO的判断。
式中:
N为总例数,A为实际数,nRnc为与实际数对应的行合计数与列合计数。
四、分类资料分层分析------MH2检验
MH2检验是由Mantel-haenszel提出,用于处理分层资料,以便控制混杂因素干扰的一种合并时2检验方法。
MH2检验的
值,可采用下式计算。
五,分类资料的相关分析
分类资料相关分析又称独立性检验或联系性检验,用于列联表资料的行变量与列变量间是否存在联系的分析。
严格地说,列联表的资料的搜集方式和表格排列方式与四格表或RXC表不同:
它是对单一样本中每一观察单位,分别观察其两种(或两种以上)分类变量的表现。
分类资料相关分析比较的形式,其2检验的结论是对相关而言,检验方法与公式同四格表和行×列表2检验。
当p<α时,现象之间存在相关关系;当p>α时,则无相关关系存在。
六、频数分布拟合的优度检验
频数分布拟合的优度检验目的,是判断实际分布与假设的理论分布是否吻合。
对于正态分布、二项分布和泊松分布的资料均可根据实际分布和理论分布的情况,进行2检验。
当P>α时,实际分布符合理论分布,当P<α时,则实际分布不符合理论分布。
七、四格表资料的确切概率法
四格表资料在下列情况:
①四格表资料中有任何一个格子的理数T<1,N<40;
②四格表资料2检验时,所得p值十分邻近检验水准的界值,可以直接计算其概率作出判断。
四格表资料确切概率的计算公式为:
作单侧检验时,单侧概率P大于α为无统计意义,不拒绝HO,单侧检验P小于α为有统计意义,拒绝HO,接受H1;作双侧检验时,还应计算另以侧概率P,以两侧概率之和与α比较,作出判断。
如前所述,作单侧检验还是作双侧检验,应根据专业知识并在检验之前确定。
第四章非参数统计
当资料的分布类型不明或明显偏态时,利用资料所提供数值大小的信息,用秩和进行各组间差别比较的假设检验方法。
一、非参数统计的概念
(-)概念
非参数统计是与参数统计相对应的统计方法,是在未知总体分布或不满足参数统计要求时,所采用的一种不考虑总体分布的统计方法,如2检验、秩和检验、游程检验、等级相关分析、中位数比较等均为非参数统计方法。
(二)应用条件
非参数统计方法适用于下列几种情况:
1.数值资料中的未知分布型资料。
2.只能以严重程度、优劣等级、效果大小、名次先后来综合判断的有序分类资料。
3.分布极度偏态的数值资料。
二秩和检验
(-)配对比较的秩和检验
本法适用于未知分布的配对资料。
检验步骤如下:
1.建立假设和确定检验水准。
H0:
差数总体中位数Md=0
H1:
差数总体中位数Md~=0(双侧检验)或Md>0(单侧检验)或Md<0(单侧检验)
α=0.05
2.计算T值。
(1)求差:
计算每对观察值的差数。
(2)编秩次:
编秩时,差数为0者弃去不计,相应的对子数n也随之减少,将差数不为0的数按绝对值的大小编秩次,差数绝对值相等,符号相反,则计算平均秩次,作为各差数的秩次,保留原差数的符号。
如遇完全相等的差数,则不必平均,按原顺序保留原差数的符号编序。
(3)求秩和:
分别求正负秩次之和,以绝对值较小者为统计量T值。
3.确定P值根据观察值对子数n,查配对比较秩和检验T界值表(教材附表14),取对应于一定概率P的T值,并与计算出的T值比较,按T值越小P值越小的原则,确定P>0.05或P<0.05。
4.判断结果按α=0.05的水准,接受HO,拒绝H1或拒绝HO,接受H1。
本法的基本思想:
若HO成立,由抽样误差引起的正负秩和之差不会很大,即T值不会很小,不应小于附表中一定概率的界值;若正负秩和相差悬殊,即T值特别小,小于或等于附表中的界值,则按P≤α拒绝HO。
(二)两样本比较的秩和检验
本法适用于完全随机设计资料,按两组数字的大小由小到大统一编秩次,相同数字在不同组时一律取平均秩次,但同一样本内的相同数据不需求平均秩次。
(三)完全随机设计多样本比较的秩和检验
本法适用于完全随机设计的多个样本比较。
统计量为“H”值。
检验步骤如下:
1.建立检验假设和确定检验水准。
HO:
各组观察值的总体分布相同。
H1:
各组观察值的总体分布不相同或不完全相同。
α=0.05
2.计算H值。
(1)排队:
将各组数据分别由小到大依次排队。
(2)编秩:
将各组数据统一编积,不同组的相同数据取平均秩次,同组中相同数据不编平均秩次。
(3)求各组的秩和民:
将各组的秩次相加求和。
(4)求H值:
12
式中N:
各样本含量总和;Ri:
各样本秩和;ni:
各样本含量。
3。
确定P值若组数=3,且每组例数≤5时,可查H界值表(教材附表16)。
、
4.判断结果在。
α=0.05水准上,P≤0.05时,拒绝HO,接受H1。
(四)随机区组设计多个样本比较的秩和检验
本法适用于随机区组设计的资料。
检验步骤如下:
1.建立假设和确定检验水准
HO:
各处理组观察值的总体分布相同。
H1:
各处理组观察值的总体分布不相同或不全相同。
α=0.05。
2.求统计量M值
(1)编秩:
将每一区组数值由小到大编秩次,相同数据编平均秩次。
(2)求Ri:
将每一处理组秩次相加,即得各组的Ri值。
(3)求平均秩和
。
式中k为处理组数
(4)求M值。
3.确定P值据处理组数足和区组数b,查M界值表(教材附表17),当M≥
M0。
05时,P<0.05;M<M0.05时,P>0.05。
4.判断结果按α=0.05水准,P<0.05,拒绝HO,接受H1;P>0.05,接受HO,拒绝H1。
若要检验区组间差异,只要把上述处理组和区组调换,仿照上法进行检验即可。
(五)按等级分组资料比较的秩和检验·
本法适用于以等级变量为原始资料的各组比较。
如对某种生理生化指标的检测结果十、++、+++、+++十等进行分析。
1.建立假设和确定检验水准
HO:
被比较的各组总体分布相同。
H1:
被比较的各组总体分布不相同或不全相同。
α=0.05
2.计算H值
(1)计算各等级频数的合计数。
(2)确定各等级秩次范围:
按各等级的合计数依次计算各等级的秩次范围。
即第一等级为1至该等级的累计数,第二等级为第一等级的累计数加1至该等级的累计数,依次类推。
(3)计算各等级平均秩次:
为每一等级的秩次范围上下界的均数。
(4)求各组秩和:
为各等级平均秩次与其频数乘积的和。
(5)求H值。
3.确定P值据自由度ν=组数-1,查χ2界值表(教材附表10)。
4.判断结果按α=0.05水准,P<0.05拒绝HO,接受H1;P>0.05接受H0,拒绝H1。
当所得的H值与H界值较接近时,或各样本相同秩次较多时,按上式计算的H值此时应先求校正数C,再求较正Hc值。
式中:
tj为各组的相同秩次的个数,N为总例数。
当H值与χ2界值相差较大时可作校正。
第五章直线相关与回归
一、直线相关
(-)直线相关的概念
直线相关又称简单相关,它是从数量上研究两变量间相互关系密切程度的一种统计方法。
直线相关研究的是现象间数量上的相关关系。
两变量间的相关关系可用散点图来表示。
通常以变量X为横坐标,变量Y为纵坐标。
(二)相关系数的意义和计算
1.相关系数的意义相关系数是线性相关条件下用来说明两个变量间相关关系的密切程度和方向的一个统计指标。
相关系数没有单位,用r表示样本相关系数,ρ表示总体相关系数,r是ρ的估计值,相关系数的数值范围为-1≤r≤1,r值为正表示正相关,r值为负表示负相关,r值等于零为零相关,在相关系数具有统计意义的前提下,|r|愈接近1,表示相关程度愈密切,|r|等于1为完全相关。
2.相关系数的计算积差法相关系数的计算公式为:
式中
或lXY为X与Y的离均差积之和。
或lXX为X的离均差平方和。
或lYY为Y的离均差平方和。
计算步骤:
(1)作散点图据原始资料作散点图,如基本上呈直线趋势,则可作直线相关分析。
(2)计算∑X、∑Y、∑X2、∑Y2、∑XY。
(3)计算X、Y的离均差平方和及离均差积之和lXX、lYY、IXY。
(4)计算相关系数按积差法相关系数计算公式计算r。
(三)相关系数的抽样误差和假设检验
1.样本相关系数的抽样误差样本相关系数r是总体相关系数p的估计值。
和其他统计量一样,样本相关系数也有抽样误差。
即从总体相关系数p=0的总体中随机抽样,其样本相关系数不一定等于0。
2.样本相关系数的假设检验由于样本相关系数存在着抽样误差,因此判断X、Y间是否有相关关系,必须作样本相关系数所来自的总体相关系数是否为零的假设检验。
检验步骤如下:
(1)建立假设和确定检验水准
HO:
X、Y两变量之间无直线相关关系,即ρ=0。
H1:
X、Y两变量之间存在直线相关关系,即ρ≠0。
α=0.05。
(2)计算样本相关系数r。
(3)确定P值。
据自由度ν=n(数据对子数)-2,查相关系数r界值表。
(4)判断结果u按α=0.05水准,P<α,拒绝HO,接受H1;P>α,接受HO,拒绝H1。
二、等级相关
等级相关分析是一种非参数统计分析方法,它适用于下列资料:
①X或Y变量中的一个或两个不服从正态分布;
②X或Y变量中一个或两个为未知分布的变量;
③X或Y变量中一个或两个具有半定量性质。
Spearman等级相关法为等级相关分析最常用的方法。
等级相关与积差法相关类似,其相关系数rs界于-1与+1之间,rs为正表示正相关,rs为负表示负相关,、为零表示零相关。
Spearman等级相关分析步骤如下:
1.建立假设和确定检验水准
HO:
X、Y两变量间不存在相关关系,即ρ=0
H1:
X、Y两变量间存在相关关系,即ρ≠0。
α=0.05。
2.计算等级相关系数rs
(1)定等级:
将X变量按观察值由小到大排列,然后写上高应的Y变量值,两变量值分别从小到大定等级,如遇到观察值相等时,应计算平均等级。
(2)计算等级相关系数、:
先计算每对等级的差数d、d2、∑d。
然后按下式计算、。
式中