统计学知识点Word格式.docx-资源下载

统计学知识点Word格式.docx

1、1含义：从固定样本含量的已知总体中进行重复抽样试验，根据每个样本可得到一个置信区间，则平均有 95%勺置信区间包含了总体参数。6.假设检验的基本原理：小概率反证法的思想。1反证法：从问题的对立面（H。）出发间接判断要解决的问题（Hi）是否成立。2小概率事件：在H成立的条件下计算检验统计量，根据概率分布确定检验水准下P值大小，判断是否为小概率事件（通常 PW 视为小概率事件，通常取）,是则拒绝H0，接受Hi;否则尚不能拒绝 H。7.假设检验一般步骤：建立假设（反证法， H和H）,确定检验水准（）;计算统计量：u, t , F;确定概率值 P,做出推断结论。8.t检验需满足的条件：

2、比较的两个样本相互独立、均服从正态分布。9.P的含义：是指从H规定的总体随机抽样，抽得等于及大于（或/和等于及小于）现有样本获得的检验统计量（如t、u等）值的概率。10.I型错误（Type I error ）:拒绝了实际上成立的 H,这类弃真”的错误称为I型错误，1型错误的大小为检验水准。n型错误（Type n error ）：接受了实际上不成立的H），这类“存伪”的错误称为n型错误，n型错误的大小用表示，1-表示检验效能。越小，越大，增大样本量可以同时降低和。11.置信区间和假设检验的区别和联系：可以通过判断置信区间是否包含零假设，判断单样本均数是否来自已知的总体；置信区

3、间不但能回答差别有无统计学意义，还可提示差别有无实际意义。假设检验可提供置信区间不能提供的信息，如 P值和检验效能等。第四章方差分析1.方差分析的基本思想：根据研究目的和设计类型，把所有测量值的总变异按照处理因素和水平等分解成两部分（组内变异和组间变异）或更多部分，同时把对自由度相应进行分解，再进行比较，评价由处理因素引起的变异是否具有统计学意义。2.方差分析的应用条件：各样本是相互独立的随机样本，均来自正态分布的总体，各样本的总体方差相等（具有方差齐性）。3.方差分析表:变异来源SSVMSFP组间变异ag-1a/（g-1）MS组间/MS组内组内变异bN-gb/（N-g）总变异a+

4、bN-14.g=2时，随机区组设计的方差分析与配对设计资料 t检验等价，t F 。5.多个样本均数间的多重比较： LSD-t检验，即最小显著差异t检验，适用于一对或几对在专业上有特殊意义的样本均数间的比较； Dunnett-t检验：适用于g-1个实验组与一个对照组均数差别的多重比较； SNK-q检验：适用于多个样本均数两两之间的全面比较。第五章计数资料的统计描述1.相对数的类型：强度相对数（率，如死亡率、发病率等）；结构相对数（构成比）；相对比（如性别比等）2.应用相对数的注意事项：结构相对数不能代替强度相对数；计算相对数应有足够的数量；正确计算合计率；注意资料的可比性；对比不同时期资料应

5、注意客观条件是否相同；样本率（或构成比）的抽样误差。3.标准化率（Standardization rate ）:采用标准化法进行计算，消除数据内部构成的差异，使标化后的合计率具有可比性，这种经过标化后的合计率称为标准化率。4.标准化率的注意事项：只适用于内部构成不同，影响总率的可比性的问题；选择的标准不同，计算得到的标准化率也不同，多个标准化率比较时，应选同一标准；标准化率已经不再反映当地的实际水平；样本标准化率是样本值，存在抽样误差。比较两样本标准化率，当样本量较小时，需做假设检验。第六章几种离散型变量的分布及应用1.二项分布 XB（n,）的适用条件：每次试验只发生两种对立的可能结果之

6、一；每次试验产生某结果的概率固定不变；重复试验是相互独立的。2.二项分布的性质：阳性次数 X的总体均数（ n ）、标准差（ Jn （1 ）；1 a样本率p的均数（p ）、标准差（Sp J pL，即率的标准误）。二项分布的正态近似条件：np和n（1- p）均大于5。3.泊松分布XP（）的性质：总体均数和总体方差 2相等；当n很大，很小，且np= 为常数时，二项分布近似泊松分布； 20时，泊松分布近似正态分布；泊松分布具备可加性。第七章 2检验2 21.检验的基本思想：根据分布特征，通过比较实际频数与理论频数的差异，确定在成立的条件下该差异由抽样误差造成是否为小概率事件，进而判断差异是

7、否具有统计学意义。 2值反映了实际频数与理论频数的吻合程度。2.RX C列联表中的各格子 T 1,并且 KTV 5的格子数不宜超过1/5格子总数，否则可能产生偏差。处理方法有三种：增加样本量，使理论频数增大；根据专业知识，删除或合并行列；采用 Fisher确切概率法分析。3.有序分组资料表线性趋势检验：1双向无序的RX C列联表：多个样本率的比较采用 RX C列联表的 2检验；两个分类变量的关联性分析则采用 RX C列联表的 2检验和Pearson列联系数进行分析。22单向有序的 RX C列联表：行有序而列无序：RX C列联表的检验；行无序而列有序，采用Wilcox on秩和检验。3双向

8、有序属性相同的 RX C列联表：配对四格表的扩展，采用一致性检验（ Kappa检验）。4双向有序属性不同的 RX C列联表：样本率的比较采用 Wilcox on秩和检验；相关性分析采用Spearman相关分析；线性变化趋势分析采用有序分组资料的线性趋势检验或 CMH ：检验等。第八章非参数检验1.秩和检验的适用范围：总体分布偏态的计量资料；数据两端有不确定值；等级资料；各组离散程度相差悬殊，总体方差不齐的资料。2.非参数检验对总体分布的形状差别不敏感，只对总体分布位置差别敏感；非参数检验没有充分利用资料信息，较参数检验的检验效低。故能用参数检验尽量采用参数检验，不满足参数检验条件才使用非参

9、数检验。3.不同数据类型的统计分析路径（1）样本均数与总体均数的比较：正态，样本均数与总体均数的 t 检验；非正态， Wilcoxon 符号秩检验。（2）两样本均数比较：独立正态：两独立样本 t检验；独立非正态：两独立样本的Wilcoxon 秩和检验；配对设计差值正态，配对 t 检验；配对设计差值非正态， Wilcoxon符号秩检验。（3 ）多样本均数比较：独立正态（方差齐），方差分析；独立非正态 Kruskal-Wails H检验；非独立正态，重复测量资料的方差分析；非独立非正态， Friedman M检验第九章双变量回归和相关1.直线回归应满足的条件：自变量与因变量呈线性关系

10、、观察值之间相互独立、因变量 Y随机正态、对任何X因变量Y的标准差相等。直线回归方程的一般形式为：Y? a bX，a 为截距，b为回归系数，回归系数的估计采用最小二乘法原则（Least Squares Method，使残差平方和最小）进行估计。2.决定系数（ coefficient of determination ）：回归平方和与总平方和的比值， R2=SS 回/SS总。R2取值01之间无单位，其数值大小反映回归贡献的相对程度，即总变异中回归模型能够解释的百分比。3.秩相关的应用适用范围：（1）不服从双变量正态分布而不宜作 Pearson 相关分析；（2）总体分布型未知；（ 3）

11、等级资料的相关分析。4.相关与回归的区别与联系区别（ 1 ）区别：1资料：回归分析资料要求 Y为正态随机变量，X为选定变量；相关分析资料 X Y服从双变量正态分布。2应用：回归分析是由一个变量值推算另一个变量值（依存关系）；相关分析只反映两个变量间的相互关系。3回归系数b与原度量单位有关，而相关系数 r无关。b的绝对值越大，回归直线越陡，即X变化1个单位时Y的平均变化越大；r的绝对值越大，所有点越趋近于一条直线，两变量的关系越密切，相关度越高。（2）联系：1r与b值可相互换算，r b. Ixx Iyy ;2r与b正负号一致；3r与b的假设检验等价：对于同一资料 tb tr，检验

12、完全等价；4回归可解释相关。相关系数的平方 r（决定系数）是回归平方和与总的离均差平方和之比（SS 回/SS 总）。5.应用直线回归时的注意事项（1）作回归分析要有实际意义，不能把毫无关联的两种现象作回归分析，必须对两种现象间的内在联系有所认识。（2）在进行直线回归分析之前，应绘制散点图，当观察点的分布有直线趋势时，才适宜作直线回归分析，散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数（a、b）的估计产生较大影响。因此，需对异常点进行复查。（3）建立直线回归方程后，要对系数进行假设检验，以确定回归方程有无意义。（4）直线回归方程的适用范围一般以自变量的取值范围为限，避免

13、外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。第十章统计表和统计图1.统计表的基本要求（1）标题：概括表的主要内容（时间、地点、研究内容等），放在表的上方。表编号与标题间间隔一个汉字距离；如整个表指标统一，还应将指标的单位标在标题后面。（2）标目：分别用横标目和纵标目说明每行和每列内容或数字的意义，标明指标的单位。通常描述的对象为横标目，内容（指标）为纵标目，从左向右读可以构成完整的一句话。（3）线条：至少用3条线：顶线、底线和纵标目线。顶线和底线将表格与文章其他部分分隔开，纵标目线将标目的文字区与表格的数字区隔开，还可用横线将合计和两重纵标目隔开，其他竖线和斜线

14、一概省去。顶线和底线线条粗细一般为磅，其他线条一般为磅。（4）数字：用阿拉伯数字表示。无数字用“一”表示，缺失数字用“”表示，数值为 0者记为“ 0”，不留空项。数字按小数点位数对齐，同一指标最好保留相同位数的小数位数。* ”，在表下方以备注的形式说明。（5）备注：表中数字区不要插入文字。必须说明者表“高级统计方法第十二章重复测量资料的方差分析1.重复测量设计与随机区组设计的区别：（1）重复测量设计中“处理”是在区组（受试者）间随机分配，区组内的各时间点是固定的，不能随机分配；（2）重复测量设计区组内实验单位彼此不独立；2.球对称（sphericity ）:所有两两时间点变量间差值对应的

15、方差相等，即重复测量的误差的协方差经正交对比变换后与单位矩阵成比例。3.重复测量资料方差分析的资料条件：（1）正态性：处理因素的各水平样本个体间是相互独立的随机样本，其总体均数服从正态分布（个体间独立，个体内不独立）；（2 ）方差齐性：相互比较的各处理水平的总体方差相等，即具有方差齐同；（3 ）各时间点组成的协方差阵具有球形性特征。第十五章多元线性回归分析1.偏回归系数（partial regression coefficient ）:多元线性回归模型中自变量 X的系数j,表示在其他自变量保持不变时， X增加或减少一个单位是 Y的平均变化量。2.复相关系数（multiple correlati

16、on coefficient ） : R 、r2，表示因变量 Y与多个自变量的线性相关程度，也是观察值 Y与估计值Y?之间的相关程度。若只有一个自变量，R r。3.标准化回归系数：对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系Si数，bj bj L ，用来比较各个自变量 Xj对Y的影响强度，在有统计学意义的前提下，SY标准化回归系数的绝对值越大说明相应自变量对 Y的作用越大。4.多元线性回归模型（Y? 0 1X1 2X2 L mXm e ）应满足的条件：Y与X, X2,，Xm之间具有线性关系；各例观察值Y相互独立；残差e服从正态分布。5.哑变量（dummyvariable ）

17、:在多元线性回归模型中，当自变量为多分类变量（g个水平）时，需要将原来的多分类变量转化为（ g-1）个哑变量并进行编码，每个哑变量只代表两个级别或多个级别间的差异。应用哑变量时要注意：哑变量同时存在，其统计学意义是相对而言的，不能采用常规的逐步回归进行变量选择；可采用加与不加入哑变量的偏回归平方和F检验确定哑变量有无意义。6.多重共线性（collinearity ）:某些自变量间存在较强的线性关系，使得一个或几个自变量可以由另外的自变量的线性关系表示，则该变量与另外的自变量间存在多重共线性。多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、 t检验不准确、估计值的正

18、负符号与实际不符等。7.交互作用：当某一自变量对因变量的作用大小与另一自变量的取值有关，则这两个自变量有交互作用。是否考虑交互作用主要靠专业知识判断。为了检验两个自变量是否具有交互作用，普遍的做法是在模型中加入它们的乘积项（作为交互项）。8.线性回归分析的 SAS纟吉果解释：（1 ）线性回归方程： Y? 2.99422 0.99733X ；（2）该线性回归模型的统计学检验结果：模型的方差分析统计量 F=, P=v,说明该线性回归模型具有统计学意义。（3） R-Square=的意义：该线性回归模型可以解释因变量 Y的总变异的%（4）回归系数估计值 b=的意义：表示 X对Y影响的大小，X

19、每改变一个单位，Y改变个单位；其假设检验结果合方差分析结果的联系：方差分析结果说明 X与Y之间存在的线性关系，t检验结果说明计算得到的回归系数 b有统计学意义，在此问题中，二者是等价的，均说明该回归模型具有统计学意义。（5）相关系数及其检验结果并解释该结果： r =,对r进行t检验得到P=v，则该相关系数具有统计学意义，说明 X与Y之间具有中等强度的正相关关系。第十六章Logistic 回归分析1.logistic 回归模型一般形式：In logit（ P） exp（ 0 1X1 L mXm）。1 P获得现有样本的概率最大）得到表示自变量 X改变一个单位时logit P的改变量。多变量

20、调整后的优势比0冃 exp（ j），表示扣除了其他自变量的影响后危险因素的作用。 OR=1,说明X对疾病发生不起作用 0R 1,说明X是一个危险因素；ORv 1,说明X是一个保护因素，OR的1 可信区间为：exp（bj 口/2岂）。3.logistic 回归模型假设检验的方法：似然比法（G 2（l nJ In LJ，适合单个和多个自变量的假设检验）、Wald检验（u 且或2 P ，适合单个自变量的假设检验）和计Sb 岂分检验（适合样本量较小的情况）。变量筛选的方法：前进法、后退法、逐步法。4.条件logistic 回归：适用于1: M配对设计资料，条件似然函数估计的是在 M+1个观察对象

21、中恰好第一个观察对象属于病例组的条件概率，它只估计了表示危险因素作用的，表示匹配组效应的常数项 0被消去。5.有序logistic 回归基于累积概率构建回归模型， g个类别的因变量 Y的有序logistic回归包括g-1个方程，这些方程的回归系数均相同，差别主要体现在各方程的常数项 0不同。在对因变量 Y赋值时，应将专业上最不利的等级赋最小值，最有利的等级赋最大值。6.多分类logistic 回归是二分类logistic 回归的扩展，即选择一个参照类别，拟合剩余各类别相对于参照类别的 logistic 回归模型。第十七章生存分析1.生存分析的数据特点：（1）同时考虑生存时间和生存结局；（

22、2 ）通常含有删失数据（cen sori ng，可能的原因：研究截止但终点事件仍未出现；失去联系或其他原因导致失访；死于其他“事件” ）;（3）生存时间的分布通常不服从正态分布。2.统计学分析方法：由于生存时间一般不呈正态分布，且需考虑是否为删失值，所以生存分析有其独特的统计方法。（1 ）非参数法：1生存率的估计采用 Kaplan-Meier法、寿命表法（频数表资料）；1，对观察后期两组或多组生存率的比较，常用 log-rank 检验（时序法，权重差别敏感）和 Breslow 检验（权重 i ni ， ni 为期初人数，随生存时间增大而逐渐减小， Breslow 检验给观察早期差别

23、更大权重，故对观察早期差别敏感）。（2）半参数法：多因素生存分析常采用 Cox 比例风险模型（前提条件：假定风险比值h（t）/ ho（t）为固定值，即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法：1分类协变量每组的 K-M生存曲线无交叉；协变量与生存时间的交互项无统计学意义等。其参数估计方法为最大似然法）。（3）参数法：指数分布法、 Weibull 分布法等回归模型。3. 多元线性回归、 logistic 回归和 Cox 回归的相同点和不同点（ 1）相同点：1自变量可为连续变量和多分类变量，多分类变量需哑变量化，哑变量在模型中是一个整体，必须同时“进”同

24、时“出” ；2自变量间存在较强相关关系时可能导致多重共线性问题；3自变量间可能存在交互作用，模型中通常采用自变量的乘积作为交互项；4均可采用逐步回归筛选变量；5均可进行影响因素分析、混杂因素校正、预测分析等。（2）不同点：第十八、十九章判别分析和聚类分析1.判别分析（discriminant analysis）：根据一批分类明确的样本在若干指标上的观察值，建立一个关于指标的判别函数和判别准则，然后根据这个判别函数和判别准则对新的样本进行分类，并且根据回代判别的准确率评估它的实用性。2.Fisher 判别准则：它使得类间点的距离最大，而类内点的距离最小，适合于两类的判别分析

25、； Bayes 判别准则：它使得每一类中的每个样本都以最大的概率进入该类，适合于多类的判别分析。3.评估判别函数的判别效能：原始数据的分类要可靠准确；指标变量对判别函数的作用要显著；判别函数的回代错判率和事后概率错误率要小。4.聚类分析（Cluster Analysis ）:对于总体分类未知的一群事物依照物以类聚”思想，把性质相近的事物归入同一类，而把性质相差较大的事物归入不同类的一种统计分析方法。5.聚类分析和判别分析的区别和联系（1）区别：1聚类分析可以对样本进行分类，也可以对指标进行分类；而判别分析只能对样本进行分类；2聚类分析事先不知道事物的类别，也不知道应分几类；而判别分析必须

26、事先知道事物的类别，也知道应分几类；3聚类分析不需要分类的历史资料，能直接对样本进行分类；而判别分析需要分类历史资料去建立判别函数，然后才能对样本进行分类。（2）联系：先采用聚类分析获得各个个体的类别（classification ）；然后采用判别分析建立判别函数，对新个体进行类型识别（（ide ntification ）第二十章主成分分析和因子分析1.主成分的性质（1）主成分互不相关；（2 ）主成分的贡献率和累积贡献率：贡献率越大，表明主成分综合原始指标信息的能力越强；累积贡献率越高，说明前 k个主成分综合原始资料信息的比例越高；（3 ）主成分个数的选取：以累计贡献率确定：累积贡献

27、率 70%为宜；以特征根值大小确定：特征根值1。（4）因子荷载：因子荷载反映主成分与原始指标间密切程度与作用方向；（5）样品的主成分得分：根据主成分表达式计算样品的主成分值，推断和评价样品的特性。2.因子模型的性质：（1）公共度：共性方差|弟反映全体原始指标 X对所有公因子的依赖程度；（2）因子贡献及因子贡献率：的值越大，则F对原始指标的影响越大；（3 ）因子荷载及因子荷载矩阵：因子荷载反映公因子与原始指标间密切程度与作用方向;2.主成分分析和因子分析的区别和联系（1）联系：1都是根据变量之间内部相关性来提取主要信息，获得新的变量（公因子变量和主成分变量），达到减少变量个数（降维）

28、的目的；2主成分分析模型两端同时乘以 A，则有X A F，即为无特殊因子的公因子模型；3因子分析的结果（主成分解）即为主成分分析的结果，因子分析的主因子解也常常由主成分分析的结果作为E的初始值计算。（2）区别：主成分分析是将 m个原变量提取1（1 m个互不相关的主成分，准确计算各主成分的得分，其分析重点在于通过主成分综合原始变量的信息；因子分析是提取i（i m个支配原变量的共性因子和 i个特殊因子，各因子之间可以互不相关或相关，根据共性因子得分系数估计因子得分，其分析重点是通过寻找共性因子解释原始变量之间的关系。第二十一章典型相关分析1.典型相关（Canonical Correlation Analysis ）:是研究两组变量之间相关性的一种统计分析方法。是一种降维技术。2.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？