统计学概念.docx-资源下载

统计学概念.docx

1、统计学概念基本统计概念第一章数值资料的统计描述一、数值资料的统计描述首先应编制频数分布表以了解其分布状况，频数就是观察值的个数。频数分布就是观察值在其所取值的范围内分布的情况。频数分布表的编制步骤： 1计算全距全距=最大值一最小值 2确定组段数、组距和组段数，全距大，观察值个数多可多取些，反之可少取。组段数太多，较繁琐，不易反映分布的特征，组段太少计算误差较大，实际工作中可根据具体情况决定。组距=全距组数。3列表归组汇总将各组段列入频数分布表栏，用划记法将各观察值划记到各组段，即额数分布表栏，求出各组段额数及总额数。其次，在编制额数分布表的同时，也可绘制额数分布图，以更加直观地了解

2、频数分布情况。二、频数分布类型数值资料常见的频数分布类型有三种，如何区分关键是看分布高峰的位置。 1正态分布型频数分布的高峰位于中央，图形左右对称。正态分布属于此类型。 2正偏态分布型频数分布的高峰偏左，图形左右不对称，即观察值较小的一端集中了较多的频数。 3负偏态分布型频数分布的高峰偏右，图形左右不对称，即观察值较大的一端集中了较多的频数。三、集中趋势指标集中趋势指标又称平均数，它反映了观察值的集中位置或平均水平，是观察值的典型水平或代表值。常用的集中趋势指标有算术均数（均数）、几何均数和中位数等。计算平均数时，首先应搞清楚它们的应用条件，现把各种平均指标的应用条件归纳如表2.1.

3、各平均指标的应用条件指标适用条件计算公式算术平均数常用于描述对称型分布，尤其是正态分布资料的集中趋势几何均数常用于描述对数正态分布资料和观察值呈等比数列资料的集中趋势中位数常用于描述偏态分布资料、一端或两端无界的资料、频数分布类型不清楚的集中趋势四、离散程度指标离散程度指标又称变异程度指标。它反映观察值之间参差不齐的程度。常用的离散程度指标有极差、标准差和变异系数等。现将离散程度指标、计算公式及主要优缺点归纳如在下表中。离散程度指标比较表指标计算公式主要优缺点极差R=Xmax-Xmin计算简单，易于理解；但只反映了一组观察值的最大值与最小值的差异，不能反映其他观察

4、值之间的变异情况离均差平方和反映了各变量值之间的变异情况，但单位是原观察值单位的平方，不易理解，同时又受观察值个数的影响，不利于比较。方差反映了各变量值之间的变异情况，不受观察值个数的影响，但单位是原观察值单位的平方，不易理解标准差反映了各变量值之间的变异情况，不受观察值个数的影响，单位与原观察单位相同，是最常用的离散程度指标之一，但在两组和多组资料比较时，常受到计量单位不同和均数相差很大的影响而不能比较和不便于比较变异系数两组或多组资料比较变异程度，如均数相差过大或观察值单位不同时用变异系数比较五、标准差的应用标准差用来描述观察值间的变异程度（离散程度），用于正态或近似正态分布资料，标

5、准差结合均数描述分布特征。标准差主要用来衡量观察值间的离散（或变异）程度。标准差还可以用于计算变异系数，变异系数又称离散系数，它是标准差对均数的相对百分数，故又有相对标准差之称，以符号CV表示，按下式计算。和标准差一样，CV越小，表示观察值的离散程度越小。六、对数正态分布某些正偏态分布资料，其观察值X经过对数变换后，可以转变为正态分布资料，这时，就称X服从对数正态分布。第二章总体均数的估计和t检验一、均数的抽样误差均数抽样误差是指由于抽样引起的样本均数与总体均数之间的误差，称为均数的抽样误差。均数的抽样误差用均数的标准误表示，用符号表示，用来描述均数的抽样误差的大小，。如无可用

6、s代替求标准误的近似值二、t分布一般正态分布转化为标准正态分布就是将X变量变换为u值，变换公式为，u值的分布就是标准正态分布。样本均数组成的正态分布变换为标准正态分布将X变换为u值，变换公式为值的分布是标准正态分布。如用代替，就是t变换，变换公式为，t值的分布即是t分布。 t分布曲线具有以下特征：以0为中心，左右对称；与正态分布曲线相比，自由度越小，顶部越低，尾部翘得越高，随自由度逐渐增大逐渐趋向正态分布曲线；二分布曲线随自由度的改变而改变，它是一簇曲线。三、总体均数的可信区间的估计 1小样本均数可信区间的估计通式：总体均数的可信区间为：，=1-P。 P：可信度又称置信概率，如总体均数

7、95 的可信区间 P=0.95，则=1- P0.05，：自由度，t是自由度等于时的t的界值。常用的可信区间公式： 95 的可信区问： 99 的可信区间：计算时特别注意公式中的标准误而不是标准差。 2大样本均数可信区间的估计 95的可信区间： 99的可信区间：可信区间的含义：从总体中作随机抽样，根据每个样本可算得一个可信区间，如95%可信区间，意味着作100次抽样，算得100个可信区间，有95个可信区间包括总体均数（估计正确），只有5个可信区间不包括总体均数（估计错误）。四、t检验的意义 t检验主要用于两个均数的比较，它能够判断进行比较的均数的差别是由于抽样误差引起，还是总体就有差别。

8、五、t检验的步骤 1建立假设和确定检验水准 H0（无效假设）：假设比较指标的差别是由于抽样误差引起的。 H1（备择假设）：假设比较指标的差别是总体的差别。（检验水准）：一般为005，可以根据情况决定是单侧还是双侧。 2计算t值根据统计资料的类型、适用条件、分析目的计算适当的统计量正值。 3确定P值 P值是H0存在的概率，根据自由度与P值确定相对应的t界值，比较所得t值大于相应的界值时，P小于相应的概率P。 4判断结果 P拒绝H0，可以认为比较指标的差别是总体的差别； P接受H0，可以认为比较指标的差别是抽样误差引起。六、常用的t检验1进行t检验时首先应正确认识资料的类型和t检验的适用条

9、件。t检验是数值资料的假设检验方法，应用于样本均数与总体均数的比较及两样本均数间的比较，所以要进行t检验需检查资料是否符合以下条件：资料是数值资料；分析目的是对两均数进行比较；具备t检验的应用条件，即资料具有正态性，如两样本均数比较还需要两样本方差具有齐同性。 2正确选择具体公式，计算t值如以上三条资料均具备，就说明可以进行t检验，然后进一步选择具体的t检验方法。其具体方法有：（l）样本均数与总体均数比较的t检验，资料中有一个，另一个是0。（2）配对比较的t检验，资料常见的有以下三种：配对资料，常将条件基本相同的受试对象配成对子，每对中的两个受试对象分别给予不同的处理，比较不同处理的差别。

10、同一批对象试验前后对比资料，是对一批观察对象分别测定试验前后某项指标的值进行比较，目的是看该处理（试验）有无作用。对同一批样本中的每一个样本分别用不同方法处理，比较不同方法有无差别。以上三种资料假设检验都是用配对t检验。配对t检验实际也是单一样本均数（差数的样本均数）与总体均数（差数的总体均数）比较，所以它和样本均数比较的t检验一样，只要求资料具有正态性。（3）两小样本均数比较的t检验，两小样本比较的t检验，既要求资料具有正态性，又要求两样本方差具有齐同性。式中：为两样本均数之差，为两样本均数之差的标准误，式中为合并方差，式中： s1为第一个样本的方差， s2为第二个样本的方差， n

11、1为第一个样本的含量，n2为第二个样本的含量。（4）两样本均数比较的 u检验，两样本均数比较时，如 n1和n2均大于100，可用u检验。， u检验的唯一条件是样本含量足够大。不要求正态性和方差齐性。（5）两个几何均数比较的t检验或u检验，两样本几何均数进行比较时，只需将数据变换成对数，用对数值进行两样本均数的t检验或u检验就可以了。七、进行t检验时应注意的问题1 正确理解差别的统计意义差别有统计意义，是说从统计的角度看，差别可能是总体的差别；差别无统计意义时是说从统计的角度看差别可能是抽样误差引起的。2 对比资料应有可比性对比资料除对比因素不同外，其它凡影响比较指标的一切因素应尽可能齐

12、同，这样资料才有可比性。3 要满足t检验的应用条件 t检验要求资料具有正态性，样本间方差要有齐同性。配对和样本与总体比较的t检验，因是单一样本，只要求资料具有正态性。两小样本的t检验，两个条件均应达到才能进行t检验。必要时应做正态性检验和方差齐性检验。4. 正确计算统计量t值根据资料的类型、特征和统计分析目的，正确选择t检验的具体方法，计算t值。5正确理解t检验结论的概率性 t检验结论不管拒绝还是接受H0都不是100正确的，t检验中常出现二种错误，一是H0是正确的，根据 P拒绝了它，称第类错误，第类错误的概率表示，取决于检验水准。二是H0是不正确的，而P接受了它，称第类错误，第类错误的概率用

13、表示，其值不易确定，但越大，越小，增加样本含量可同时减少和。6.正确地确定单侧和双侧检验根据专业知识，在统计分析前就应确定用单侧检验还是用双侧检验。八、正态性检验对频数表应用正态概率单位法进行正态性检验，要求掌握在没有概率纸的情况下会作正态性检验。检验步骤如下：1 列表计算频数表资料各组段的累计频数、累计频率，并将累计频率换算成概率单位。2 定坐标横轴表示各组段，纵轴表示相应的概率单位。 3 画图以各组段的上限与相应的概率单位的交点描点，连接各点即得累计频率曲线。4判断结果如资料为正态分布，该曲线接近一条直线。第三章卡方（2）检验 2检验是一种对分类资料进行假设检验的重要方法之一。它

14、常用于两个或多个样本率（或构成比）的比较、列联表资料的相关分析及频数分布拟合优度的检验。 2 检验最常用于作样本率或构成比的比较，按照资料设计类型不同，可将这类假设检验分为：四格表资料2检验；行列表资料2检验；配对资料2检验等。一、四格表资料 2检验四格表指由2行2列组成的表格，其基本数据只有4个。检验步骤如下： 1建立假设和确定检验水准 2计算 2值（1）计算2值的基本公式：式中： 2 为卡方值。 A为实际频数，即实际观察所得频数。 T为理论额数，即按照假设或理论推算出来的频数。 TRC nRncN 式中： TRC为第 R行第 C列格子的理论频数， nR为与理论额数同行的合计数，

15、nc为与理论颇数同列的合计数，N为总例数。（2）计算 2值的专用公式：（3）计算2 值的校正公式： 3确定P值按 =（行数一1）（列数一1），查2值表确定P值。 4判断结果根据2分布的理论，在的水准上作出拒绝 HO或接受 HO的结论。二、行列表资料2检验（）行列表的格式 22表是最简单的行列表，习惯上把行数2和（或）列数2的表称为行列表。实际工作中行列表又可分为R2表，2C表和RC表。 R2表由多行（R2）2列组成，用于多个样本率的比较。 2C表由 2行多列（C2）组成，用于两个样本构成比的比较。 RC表由多行（R2）多列（C2）组成，用于多个样本构成比的比较。（二）行列表资料 2检验方

16、法上述三种行列表资料的2 检验均可用基本公式计算2值，也可用下列专用公式计算2值，后者较简便。式中： n为总例数， A为实际数， nRnc为与实际数对应的行合计数与列合计数。（三）行列表 2检验的注意事项 1作行列表资料2检验时，允许有1/5以下的格子理论数小于5，如果有15以上的格子理论数小于5或有理论数小于1时，需将邻近组合并，使理论数增大。合并时应注意合并是否合理。因合并的做法并非常规的做法。最好增加样本含量，使每个格子理论数都超过5。 2行列表资料 2检验结果，如果有统计意义，并不表示任何两组之间差别都有统计意义。三、配对资料 2检验和数值资料一样，分类资料也有成组与配对之分，

17、前面是对两组或多组的资料进行2检验。配对分类资料是将观察单位一配对，对每一对观察单位分别观察某分类变量的表现，或对每一观察单位给予不同的处理，观察其结果，或同一观察单位先后给予两种不同的处理。 1建立假设和确定检验水准 HO：B=C（因a和d为结果完全相同的部分，不必考虑）。 H1：BC 005 2计算 2值如果 bC 40，则用校正公式计算： 3确定 p值按1，查2界值表 4判断结果根据 2值按=0.05，作出拒绝HO或接受HO的判断。式中： N为总例数， A为实际数， nRnc为与实际数对应的行合计数与列合计数。四、分类资料分层分析-MH2检验 MH2检验是由Mantel-haen

18、szel提出，用于处理分层资料，以便控制混杂因素干扰的一种合并时2检验方法。MH2检验的值，可采用下式计算。五，分类资料的相关分析分类资料相关分析又称独立性检验或联系性检验，用于列联表资料的行变量与列变量间是否存在联系的分析。严格地说，列联表的资料的搜集方式和表格排列方式与四格表或 RX C表不同：它是对单一样本中每一观察单位，分别观察其两种（或两种以上）分类变量的表现。分类资料相关分析比较的形式，其2检验的结论是对相关而言，检验方法与公式同四格表和行列表2检验。当p时，现象之间存在相关关系；当p时，则无相关关系存在。六、频数分布拟合的优度检验频数分布拟合的优度检验目的，是判断实际分

19、布与假设的理论分布是否吻合。对于正态分布、二项分布和泊松分布的资料均可根据实际分布和理论分布的情况，进行2检验。当P时，实际分布符合理论分布，当P时，则实际分布不符合理论分布。七、四格表资料的确切概率法四格表资料在下列情况：四格表资料中有任何一个格子的理数T1，N40；四格表资料 2检验时，所得 p值十分邻近检验水准的界值，可以直接计算其概率作出判断。四格表资料确切概率的计算公式为：作单侧检验时，单侧概率P大于为无统计意义，不拒绝HO，单侧检验P小于为有统计意义，拒绝HO，接受H1；作双侧检验时，还应计算另以侧概率P，以两侧概率之和与比较，作出判断。如前所述，作单侧检验还是作双侧检验，应

20、根据专业知识并在检验之前确定。第四章非参数统计当资料的分布类型不明或明显偏态时，利用资料所提供数值大小的信息，用秩和进行各组间差别比较的假设检验方法。一、非参数统计的概念（）概念非参数统计是与参数统计相对应的统计方法，是在未知总体分布或不满足参数统计要求时，所采用的一种不考虑总体分布的统计方法，如2检验、秩和检验、游程检验、等级相关分析、中位数比较等均为非参数统计方法。（二）应用条件非参数统计方法适用于下列几种情况： 1数值资料中的未知分布型资料。 2只能以严重程度、优劣等级、效果大小、名次先后来综合判断的有序分类资料。 3分布极度偏态的数值资料。二秩和检验（）配对比较的秩和检

21、验本法适用于未知分布的配对资料。检验步骤如下： 1建立假设和确定检验水准。 H0：差数总体中位数Md0 H1：差数总体中位数Md=0（双侧检验）或Md0（单侧检验）或 Md 0（单侧检验） 005 2计算T值。（1）求差：计算每对观察值的差数。（2）编秩次：编秩时，差数为0者弃去不计，相应的对子数n也随之减少，将差数不为0的数按绝对值的大小编秩次，差数绝对值相等，符号相反，则计算平均秩次，作为各差数的秩次，保留原差数的符号。如遇完全相等的差数，则不必平均，按原顺序保留原差数的符号编序。（3）求秩和：分别求正负秩次之和，以绝对值较小者为统计量T值。3确定P值根据观察值对子数n，查配对比较秩

22、和检验T界值表（教材附表14），取对应于一定概率P的T值，并与计算出的T值比较，按T值越小P值越小的原则，确定 P0. 05或 P0. 05。4判断结果按=005的水准，接受HO，拒绝H1或拒绝HO，接受H1。本法的基本思想：若HO成立，由抽样误差引起的正负秩和之差不会很大，即T值不会很小，不应小于附表中一定概率的界值；若正负秩和相差悬殊，即T值特别小，小于或等于附表中的界值，则按P拒绝HO。（二）两样本比较的秩和检验本法适用于完全随机设计资料，按两组数字的大小由小到大统一编秩次，相同数字在不同组时一律取平均秩次，但同一样本内的相同数据不需求平均秩次。（三）完全随机设计多样本比较的秩和

23、检验本法适用于完全随机设计的多个样本比较。统计量为“H”值。检验步骤如下： 1建立检验假设和确定检验水准。 HO：各组观察值的总体分布相同。 H1：各组观察值的总体分布不相同或不完全相同。 005 2计算H值。（1）排队：将各组数据分别由小到大依次排队。（2）编秩：将各组数据统一编积，不同组的相同数据取平均秩次，同组中相同数据不编平均秩次。（3）求各组的秩和民：将各组的秩次相加求和。（4）求H值： 12 式中 N：各样本含量总和；Ri：各样本秩和；ni：各样本含量。 3。确定P值若组数=3，且每组例数5时，可查H界值表（教材附表16）。、 4判断结果在。=005水准上，P005时

24、，拒绝HO，接受H1。（四）随机区组设计多个样本比较的秩和检验本法适用于随机区组设计的资料。检验步骤如下： 1建立假设和确定检验水准 HO：各处理组观察值的总体分布相同。 H1：各处理组观察值的总体分布不相同或不全相同。 005。 2求统计量M值（1）编秩：将每一区组数值由小到大编秩次，相同数据编平均秩次。（2）求Ri：将每一处理组秩次相加，即得各组的Ri值。（3）求平均秩和。式中k为处理组数（4）求M值。 3确定P值据处理组数足和区组数b，查M界值表（教材附表17），当MM0。05时，P0.05；MM0.05时，P0.05。 4判断结果按=0.05水准，P0.05，拒绝HO，

25、接受H1；P0.05, 接受HO，拒绝H1。若要检验区组间差异，只要把上述处理组和区组调换，仿照上法进行检验即可。（五）按等级分组资料比较的秩和检验本法适用于以等级变量为原始资料的各组比较。如对某种生理生化指标的检测结果十、十等进行分析。 1建立假设和确定检验水准 HO：被比较的各组总体分布相同。 H1：被比较的各组总体分布不相同或不全相同。 =0.05 2计算H值（1）计算各等级频数的合计数。（2）确定各等级秩次范围：按各等级的合计数依次计算各等级的秩次范围。即第一等级为1至该等级的累计数，第二等级为第一等级的累计数加1至该等级的累计数，依次类推。（3）计算各等级平均秩次：为每一

26、等级的秩次范围上下界的均数。（4）求各组秩和：为各等级平均秩次与其频数乘积的和。（5）求H值。 3确定P值据自由度=组数-1，查2界值表（教材附表10）。 4判断结果按=005水准， P005拒绝HO，接受H1；P005接受H0，拒绝H1。当所得的H值与H界值较接近时，或各样本相同秩次较多时，按上式计算的H值此时应先求校正数C，再求较正Hc值。式中： tj为各组的相同秩次的个数，N为总例数。当 H值与2界值相差较大时可作校正。第五章直线相关与回归一、直线相关（）直线相关的概念直线相关又称简单相关，它是从数量上研究两变量间相互关系密切程度的一种统计方法。直线相关研究的是现象间数量上

27、的相关关系。两变量间的相关关系可用散点图来表示。通常以变量X为横坐标，变量Y为纵坐标。（二）相关系数的意义和计算 1相关系数的意义相关系数是线性相关条件下用来说明两个变量间相关关系的密切程度和方向的一个统计指标。相关系数没有单位，用r表示样本相关系数，表示总体相关系数，r是的估计值，相关系数的数值范围为-1r1，r值为正表示正相关，r值为负表示负相关，r值等于零为零相关，在相关系数具有统计意义的前提下，|r|愈接近1，表示相关程度愈密切，|r|等于1为完全相关。 2相关系数的计算积差法相关系数的计算公式为：式中或lXY为X与Y的离均差积之和。或lXX为X的离均差平方和。或lYY为Y

28、的离均差平方和。计算步骤：（1）作散点图据原始资料作散点图，如基本上呈直线趋势，则可作直线相关分析。（ 2）计算 X、Y、X2、Y2、XY。（3）计算X、Y的离均差平方和及离均差积之和lXX、lYY、IXY。（4）计算相关系数按积差法相关系数计算公式计算r。（三）相关系数的抽样误差和假设检验 1样本相关系数的抽样误差样本相关系数r是总体相关系数p的估计值。和其他统计量一样，样本相关系数也有抽样误差。即从总体相关系数p=0的总体中随机抽样，其样本相关系数不一定等于0。 2样本相关系数的假设检验由于样本相关系数存在着抽样误差，因此判断X、Y间是否有相关关系，必须作样本相关系数所来自的总体

29、相关系数是否为零的假设检验。检验步骤如下：（1）建立假设和确定检验水准 HO：X、Y两变量之间无直线相关关系，即=0。 H1：X、Y两变量之间存在直线相关关系，即0。 =0.05。（2）计算样本相关系数r。（3）确定P值。据自由度=n（数据对子数）-2，查相关系数r界值表。（4）判断结果 u按=005水准，P，拒绝HO，接受H1；P，接受HO，拒绝H1。二、等级相关等级相关分析是一种非参数统计分析方法，它适用于下列资料： X或Y变量中的一个或两个不服从正态分布； X或Y变量中一个或两个为未知分布的变量； X或Y变量中一个或两个具有半定量性质。 Spearman等级相关法为等级相关分析最常用的方法。等级相关与积差法相关类似，其相关系数 rs界于-1与+1之间，rs为正表示正相关，rs为负表示负相关，、为零表示零相关。 Spearman等级相关分析步骤如下：1建立假设和确定检验水准 HO：X、Y两变量间不存在相关关系，即=0 H1：X、Y两变量间存在相关关系，即0。 =0.05。 2计算等级相关系数rs（1）定等级：将X变量按观察值由小到大排列，然后写上高应的Y变量值，两变量值分别从小到大定等级，如遇到观察值相等时，应计算平均等级。（2）计算等级相关系数、：先计算每对等级的差数d、d2、d。然后按下式计算、。式中

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？