统计学知识点完整.docx-资源下载

统计学知识点完整.docx

1、统计学知识点完整根本统计方法第一章概论4.总体Population：根据研究目确实定的同质对象的全体集合：样本Sample: 从总体中随机抽取的局部具有代表性的研究对象。2o参数Par ame ter :反映总体特征的统计指标，如总体均数.标准差等，用希腊字母表示，是固定的常数；统计量Stat ist i c:反映样本特征的统计指标，如样本均数、标准差等，釆用拉丁字字母表示，是在参数附近波动的随机变董.3。统计许料分类：定董计量资料、定性计数资料、等级资料。第二章计量资料统计描述1.集中趋势：均数算术、几何、中位数、众数2.离散趋势：极差、四分位间距QR=P75 PQ、标准差或方差、变异

2、系数G3.正态分布特征：尤轴上方关于对称的钟形曲线：用时，f X取得最大值：有两个参数，位置参数和形态参数：曲线下面积为1,区间土的面积为68. 27%, 区间 1。96 的面积为95. 00%,区间 2. 58 的面积为99. 00%。4.医学参考值范国的制定方法：正态近似： X ua/1S :百分位数法:P2. 5-P97. 50第三章总体均数估计和假设检验1 抽样误差Sampl i ng Er r o r ：由个体变异产生、随机抽样造成的样本统计量与总体参数的差异抽样误差不可防止产生的根本原因是生物个体的变异性.2均数的标准误Stand a r d e rror o f M

3、ea n , SEM:样本均数的标准差，计算公式：bf =b 心.反映样本均数间的离散程度，说明抽样误差的大小。3.降低抽样误差的途径有:通过增加样本含量n;通过设计减少S4.十分布特征：1单峰分布，以0为中心，左右对称：2形态取决于自由度,越小，十值越分散，才分布的峰部越矮而尾部翘得越高；3当逼近逼近bg ,十分布逼近分布，故标准正态分布是十分布的特例.5.JE信区间Confidence Interval， G/:按预先给定的概率1确定的包含总体参数的一个范国，计算公式：X ta/2ysx或乂土2,Sr .95% 6含义：从固定样本含量的总体中进行重复抽样试验，根据每个样本可得到一个

4、置信区间，那么平均有95%的置信区间包含了总体参数。6.假设检验的根本原理：小概率反证法的思想.1反证法：从问题的对立面Ho出发间接判断要解决的问题HJ是否成立。2小概率事件：在H。成立的条件下计算检脸统计量，根据概率分布确定检验水准下P值大小，判斷是否为小槪率事件通常斥视为小概率事件，通常取，是則拒绝H。,接受出;否那么尚不能拒绝Ho。7.假设检验一般步朦：建立假设反证法，Ho和HJ,确定检验水准：计算统计董： S t, F;确定概率值只做出推斷结论。8十检脸需满足的条件：比拟的两个样本相互独立、均服从正态分布.9P的含义：是指从H。规定的总体随机抽样，抽得等于及大于或/和等于及小

5、于现有样本获得的检验统计量如匕等值的概率。10.I型错误Ty pe I error:拒绝了实际上成立的H。，这类“弃真的错误称为 I型错误，I型错误的大小为检验水准。II型错误Type II error：接受了实际上不成立的H。，这类“存伪的错误称为II型緒误，II型错误的大小用表示,1 表示检验效能。越小，越大，增大样本董可以同时降低和 11.置信区间和假设检验的区别和联系：可以通过判断置信区间是否包含零假设，判断单样本均数是否来自的总体：置信区间不但能答复差异有无统计学意狡，还可提示差别有无实际意狡假设检验可提供置信区间不能提供的信息，如P值和检验效能等。第四章方差分析1.

6、方差分析的根本思想：根据研究目的和设计类型，把所有测量值的总变异按照处理因素和水平等分解成两局部纽内变异和组间变异或更多局部，同时把对自由度相应进行分解, 再进行比拟，评价由处理因素引起的变异是否具有统计学意义。2.方差分析的应用条件：各样本是相互独立的随机样本，均来自正态分布的总体，各样本的总体方差相等具有方差齐性。3.方差分析表:变异来源SSVMS Fp组间变异ag1a/ (g 1 ) MS 如组内变异bN gb/ (Ng)总变异a + bN-14。 g=2时，随机区组设计的方差分析与配对设计资料十检验等价,r = Vr o5.多个样本均数间的多重比拟：LSD-t检验，即最小显著差异上

7、检验，适用于一对或几对在专业上有特殊意义的样本均数间的比拟;Dunnett-t检验：适用于g1个实验组与一个对照组均数差异的多重比拟;SNK- q检验：适用于多个样本均数两两之间的全面比拟。第五章计数资料的统计描述1.相对数的类型：强度相对数率，如死亡率、发病率等；结构相对数构成比；相比照如性别比等2.应用相对数的考前须知：结构相对数不能代替强度相对数：计算相对数应有足够的数量；正确计算合计率;注意资料的可比性；比照不同时期资料应注意客观条件是否相同；样本率或构成比的抽样误差。3 o标准化率Standard i z a t ion r ate:釆用标准化法进行计算，消除数扌松内部构

8、成的差异，使标化后的合计率具有可比性，这种经过标化后的合计率称为标准化率。4.标准化率的考前须知：只适用于内部构成不同，影响总率的可比性的问题：选择的标准不同，计算得到的标准化率也不同，多个标准化率比拟时，应选同一标准;标准化率已经不再反映当地的实际水平;样本标准化率是样本值，存在抽样误差。比拟两样本标准化率，当样本量较小时，需做假设检验。第六章几科离散型变量的分布及应用1.二项分布X/7, 的适用条件：每次试验只发生两种对立的可能结果之一：每次试验产生菜结果的概率固定不变；重复试脸是相互独立的。2.二项分布的性质：阳性次数X的总体均数“ = “、标准差6 =血匚分:样本率p的均数=%

9、、标准差s“= 梓牙叵，即率的标准误。二项分布的正态近似条件：np1 n 1p均大于5。3.泊松分布XP的性质：总体均数和总体方差2相等；当门很大，很小，且n p二为常数时，二项分布近似泊松分布； M20时，泊松分布近似正态分布：泊松分布具备可加性。第七章 2检验1o 检验的根本思想：根据？分布特征，通过比拟实际频数与理论频数的差异，确定在成立的条件下该差异由抽样误差造成是否为小概率事件，进而判断差异是否具有统计学意义。 2值反映了实际频数与理论频数的吻合程度。2.RXC列联表中的各格子TM1,并且1WTV5的格子数不宜超过1/5格子总数，否那么可能产生偏差.处理方法有三种

10、：增加样本量，使理论频数增大：根据专业知识，删除或合并行列：釆用Fisher确切概率法分析。3。有序分组资料表线性趁势检验：1双向无序的RXC列联表：多个样本率的比拟釆用RXC列联表的？检验：两个分类变量的关联性分析那么采用RXC列联表的检脸和Pearso n列联系数进行分析。2单向有序的RXC列联表：行有序而列无序：RXC列联表的检验：行无序而列有序，采用Wile oxo n秩和检验。3双向有序属性相同的RXC列联表：配对四格表的扩展，釆用一致性检验Ka ppa检验。4双向有序属性不同的RXC列联表：样本率的比拟釆用W i Icoxon秩和检验；相关性分析采用Spe a rm

11、an相关分析：线性变化越勢分析采用有序分组资料的线性趋势检验或CMH 2 检验等.第八章非参数检验1 .秩和检验的适用范围：总体分布偏态的计量资料;数据两端有不确定值：等级资料：各组离散程度相差悬殊，总体方差不齐的许料.2.非参数检验对总体分布的形状差异不敏感，只对总体分布位置差异敏感；非参数检验没有充分利用资料信息，较参数检验的检验效低.故能用矣数检验尽量采用屛数检验，不满足参数检验条件才使用非参数检验。3.不同数据类型的统计分析路径：1 样本均数与总体均数的比拟：正态，样本均数与总体均数的十检验；非正态，Wilco x o n符号秩检验。(2)两样本均数比拟：独立正态：两独立样本上

12、检验;独立非正态：两独立样本的W iI c o xo n秩和检验;配对设计差值正态，配对十检验；配对设计差值非正态，Wilcoxon 符号秩检验.(3)多样本均数比拟：独立正态(方差齐)，方差分析；独立非正态Kruskal-Wai1s H检验：非独立正态，重复测量资料的方差分析;非独立非正态,Friedman 检验第九章双变量回归和相关1.直线回归应满足的条件：自变量与因变量呈线性关系、观察值之间相互独立、因变量卩随机正态、对任何X因变量r的标准差相等。直线回归方程的一般形式为：Y = a + bX , Cl 为截距，为回归系数，回归系数的估计釆用最小二乘法原那么(Leas t Sq u a

13、 r e s Me t ho d,使残差平方和最小)进行估计。2o 决定系数(c oeff icien t of det e rmi n a t i on)：回归平方和与总平方和的比阻浪二SSVSS总F取值之间无单位，其数值大小反映回归奉献的相对程度，即总变异中回归模型能够解释的百分比。3.秩相关的应用适用范围：(1)不服从双变董正态分布而不宜作Pearson相关分析；(2) 总体分布型未知；(3)等级进料的相关分析。4.相关与回归的区别与联系区别(1)区别：1资料：回归分析资料要求卩为正态随机变量,X为选定变量：相关分析资料K r服从双变量正态分布。2应用：回归分析是由一个变量值推算另

14、一个变量值(依存关系)：相关分析只反映两个变量间的相互关系.3回归系数6与原度量单位有关，而相关系数厂无关。6的绝对值越大，回归直线越陡，即力变化1个单位吋卩的平均变化越大；厂的绝对值越大，所有点越趋近于一条直线，两变量的关系越密切，相关度越高。(2)联系：1厂与6值可相互换算，r = bjxx/4y ;2厂与6正负号一致：3厂与6的假设检验等价：对于同一资料th=tr，检验完全等价：4回归可解释相关.相关系数的平方/(决定系数)是回归平方和与总的离均差平方和之比(SSt/SS Q 5.应用直线回归时的考前须知(1)作回归分析要有实际意狡，不能把毫无关联的两种现象作回归分析，必须对两种现

15、象间的内在联系有所认识.(2)在进行直线回归分析之前，应绘制散点图，当观察点的分布有直线趙势吋，才适宜作直线回归分析，散点图还能提示资料有无异常点.异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此，需对异常点进行复查。(3)建立直线回归方程后，要对系数进行假设检验，以确定回归方程有无意乂。(4)直线回归方程的适用范国一般以自变量的取值范围为限，防止外延。获得自变量值的手段也应与建立方程时相同。否則会产生较大偏差。第十章统计表和统计图1.统计表的根本要求(1)标题：概括表的主要内容(时间、地点、研究内容等)，放在表的上方。表编号与标题间间隔一个汉字距离；如整个表指标统一

16、，还应将指标的单位标在标题后面。(2)标目：分别用横标目和纵标目说明每行和毎列内容或数字的意义，标明指标的单位。通常描述的对象为横标目，内容(指标)为纵标目，从左向右读可以构成完整的一句话.(3)线条：至少用3条线：顶线、底线和纵标目线。顶线和底线将表格与X幸其他局部分隔开，纵标目线将标目的文字区与表格的数字区隔开，还可用横线舟合计和两重纵标目隔开，其他竖线和斜线一概省去。顶线和底线线条粗细一般为1。5磅，其他线条一般为0。5磅。(4)数字：用阿拉伯数字表示。无数字用“一表示，缺失数字用表示，数值为0者记为“0，不留空项数字按小数点位数对齐，同一指标最好保存相同位数的小数位数。(5)备

17、注：表中数字区不要插入文字。必须说明者表在表下方以备注的形式说明.高级统计方法第十二章重复测量资料的方差分析1.重复测量设计与随机区组设计的区别：(1)重复测董设计中“处理是在区组(受试者) 间随机分配，区纽内的各时间点是固定的，不能随机分配；(2)莹复测量设计区纽内实验单位彼此不独立：2。球对称(sphericity):所有两两时间点变量间差值对应的方差相等，即重复测量的误差的协方差经正交比照变换后与单位矩阵成比例。3 重复测量资料方差分析的资料条件：(1)正态性：处理因素的各水平样本个体间是相互独立的随机样本，其总体均数服从正态分布(个体间独立，个体内不独立)；(2)方差齐性：相互

18、比拟的各处理水平的总休方差相等，即具有方差齐同；(3)各时间点组成的协方差阵具有球形性特征.第十五章多元线性回归分析1.偏回归系数(p art i a I r e g r ess ion co e ff i ci e nt):多元线性回归模型中自变量；G的系数丿,表示在其他自变量保持不变时，尤增加或减少一个单位是卩的平均变化量。2.复相关系数(mult i pie corr e la t i on coeff i ci e nt): 7? = ,表示因变董 Y与多个自变莹的线性相关程度，也是观察值Y与估计值/之间的相关程皮。假设只有一个自变量,R = r-3.标准化回归系数：对数扌松

19、标准化后得到的标准化回归方程的回归系数即为标准化回归系(S、数，= bf H，用来比拟各个自变量X丿对/的影响强度.在有统计学意狡的前提下，标准化回归系数的绝对值越大说明相应自变董对丫的作用越大.4.多元线性回归模型(9=炖+4+02+禹北+)应满足的条件：丫与X X?，九之间具有线性关系：各例观察值X；相互独立; 残差e服从正态分布。 5 哑变量(dummy va r i able):在多元线性回归模型中，当自变量为多分类变量(g 个水平)时，需要将原来的多分类变量转化为(g1)个哑变量并进行编码，每个哑变量只代表两个级别或多个级别间的差异。应用哑变量时要注意：哑变量同时存在，其统计学

20、意狡是相对而言的，不能釆用常规的逐步回归进行变量选择；可釆用加与不参加哑变量的偏回归平方和F检验确定哑变量有无意乂。6.多重共线性(colli near i ty):某些自变量间存在较强的线性关系，使得一个或几个自变董可以由另外的自变董的线性关系表示，那么该变量与另外的自变量间存在多重共线性。多重共线性可能字致回归方程不稳定、参数估计值标准误变得很大、t检验不准确、估计值的正负符号与实际不符等。7.交互作用：当某一自变量对因变量的作用大小与另一自变董的取值有关，那么这两个自变量有交互作用。是否考虑交互作用主要靠专业知识判斷.为了检验两个自变量是否具有交互作用，普遍的做法是在模型中

21、参加它们的乘积项(作为交互项)。8.线性回归分析的SAS结果解释：0.680730.0303(1)线性回归方程：r = 2.99422+ 0.99733x；(2)该线性回归模型的统计学检验结果：模型的方差分析统计量圧6.9 1 ,00303V 0. 05,说明该线性回归模型具有统计学意狡.(3)R-Square=Oo 46353的意狡：该线性回归模型可以解释因变量卩的总变异的46. 3 53%:(4)回归系数估计值6=0. 99733的意狡：表示X对丫影响的大小,X每改变一个单位. /改变0. 99733个单位；其假设检验结果合方差分析结果的联系：方差分析结果说明X 与卩之间存在的线性关系，

22、十检验结果说明计算得到的回归系数6有统计学意狡，在此问題中，二者是等价的，均说明该回归模型具有统计学意爻。5相关系数及其检验结果并解释该结果：Q. 68073,对r进行十检验得到P =0. 0303 +邸 X,log it(p)=a +?BX,h(r)=/k(Ocxp( EftXj)参数估计最小二乘法最大似然法最大似然法参数检验F检验检脸似然比检验！计分检验似然比检验，卄分检验Wald检峻检弱参数解释具他变fit不变条件下，变其他变fit不变条件下变fit其他变虽不变条件下变量每堆加一个栄位所X,每增加一个单位所引起X,毎増加一个单位所引起引起的Y的平均改变疑的优势比色逖超数改的相对危险度朗

23、的自然对变比数改变量预测指标Y(-coCY)S(0(OCS(D1)样本含至少0倍戲自变虽个数至少520借的自变啟至少1520倍的自变童个数个数第十八.十九章判别分析和聚类分析1判别分析(discriminant ana I y s i s):根据一批分类明确的样本在假设干指标上的观察值，建立一个关于指标的判别函数和判别准則，然后根据这个判别函数和判别准那么对新的样本进行分类，并且根据回代判别的准确率评估它的实用性。2.Fisher判别准則：它使得类间点的距离最大，而类内点的距离最小，适合于两类的判别分析；Bayes判别准那么：它使得每一类中的毎个样本都以最大的概率进入该类，适合于多类

24、的判别分析。3。评估判别函数的判别效能：原始数据的分类要可靠准确：指标变董对判别函数的作用要显著；判别函数的回代错判率和爭后概率错误率要小。4。聚类分析(Cluster Ana I ysi s):对于总体分类未知的一群事物依照“物以类聚思想，把性质相近的事物归入同一类，而把性质相差较大的事物归入不同类的一种统计分析方法.5。聚类分析和判别分析的区别和联系(1)区别：1聚类分析可以对样本进行分类，也可以对指标进行分类；而判别分析只能对样本进行分类；2聚类分析事先不知道事物的类别，也不知道应分几类：而判别分析必须爭先知道事物的类别，也知道应分几类：3聚类分析不需要分类的历史资料，

25、能直接对样本进行分类；而判别分析需要分类历史资料去建立判别函数，然后才能对样本进行分类。(2)联系：先釆用聚类分析获得各个个体的类别(classif i cati on);然后釆用判别分析建立判别函数，对新个体进彳亍类型识别(identi f i c a t i on )第二十章主成分分析和因子分析1.主成分的性质(1)主成分互不相关；(2)主成分的奉献率和累积奉献率：奉献率越大，说明主成分综合原始指标信息的能力越强；累积奉献率越高，说明前斤个主成分综合原始资料信息的比例越高；(3)主成分个数的选取:以累计奉献率确定：累积奉献率70%为宜；以特征根值大小确定：特征根值(4)因子荷载：因子荷载反映主成分与原始指标间密切程度与作用方向；(5)样品的主成分得分：根据主成分表达式计算样品的主成分值，推斷和评价样品的特性。 2o因子模型的性质： (1)公共度：共性方差於反映全休原始指标尤对所有公因子的依赖程度；2(2)因子奉献及因子奉献率:引的值越大，那么F丿对原始指标的影响越大；(3)因子荷载及因子荷载矩阵：因子荷载反映公因子与原始指标间密切

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？