社会统计学复习整理.docx-资源下载

社会统计学复习整理.docx

1、社会统计学复习整理社会统计学复习整理一、变量的测量层次测量层次变量举例数学特性单变量分析定类nominal区分类别性别职业婚姻状况信仰频数分布、频率分布众数、异众比率定序ordinal区分类别后，还能排列上下、大小、先后、强弱等等级序列文化程度城市规模社会地位生活水平住房条件工作能力、频数分布、频率分布众数、异众比率中位数、四分位差定距interval区分类别、等级后还能算出等级间的差距数量，但没有实际意义的“0收入年龄时间出生率性别比、频数分布、频率分布众数、异众比率中位数、四分位差平均数、标准差、离散系数定比ratio区分类别、等级后还能算出等级间的差距数量，但具有实际意义的“0收入年龄时

2、间出生率性别比、频数分布、频率分布众数、异众比率中位数、四分位差平均数、标准差、离散系数二、判断变量层次的技巧1.首先所有的变量都是定类变量。 2.其次看变量的取值能否比拟大小，不能这个变量只能是定类变量。 3.最后如果这个变量能够比拟大小，那么就看变量取值加减乘除是否有意义，如果有意义就是定距变量，如果没有意义就只能是定序变量。三、变量层次的比拟定类变量、定序变量和定比变量的数层次是从低到高排列的，高层次的变量同时具有低层次变量的功能。四、相关分析方法变量层次相关系数是否对称取值围PRE意义检验定类-定类定类-定序不对称【0，1】有X定序-定序G否【-1，1】有Z定类-定距定序-定距Eta不

3、对称【0，1】无F定距-定距r对称【-1，1】无Fr对称【0，1】有第二节简化一个变项的分布一、定类变量1.统计表：用表格的形式来表示变量频次或频率分布的一种工具。2.统计表必备的容：（1）表号、标题（2）标识行：变量名、对应数据说明频次、频率（3）主题行：变量取值的统计数据（4）表尾：如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法（1）累加次数：把次数逐渐相加起来，分为向上累加次数cf和向下累加次数(cf)。（2）累加频率：把各级的百分率逐渐相加。也分为向下累加百分率和向下累加百分率。2.cf的计算方法就是按照变量取值的等级从低往高逐层相加。3.cf计算方法就是按照变

4、量取值的等级从高往低逐层相加。cf表示低于某个等级的频数有多少cf表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是：分组、直方图和折线图。2.连续型定距变量的分组统计（1）组数：分组的数量，一般5到7组适宜，分为等距分组和非等距分组。（2）组限：包括上限up和下限low（3）标识下限和标识上限，例500699（4）真实下限：标识下限0.5；真实上限：标识上限+0.5.（5）组距：真实上限与真实下限之差。（6）组中值：真实上限与真实下限的平均值。第三节集中趋势测量法1.集中趋势：用一个典型的变量值或特征值来代表全体变量的问题，用这个数值来代表变项的资料分布，以反映资料的集结情况。

5、2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。一、定类变量1.众值ModeMo：用具有频数最多的变量的取值来表示变量的集中值。2.众值的特征：1：众值理论上可以用于定类、定序和定距三个层次的变量来描述集中趋势，但是由于众指不准确，一般只用于定类层次的变量。2：众值最好找，是最容易求出的值，但它准确度也是最差的。二、定序变量 1.中位值Md。 2.分组数据求中位值公式：Md=L+(n/2- cf/n)(U-L) L：中位值的真实下界值 U：中位值的真实上界值 n：中位值组的频数 cf：低于中位值所在组的累加向上频次 N：调查总数 Md位值：N/2二、定距变量1.均值

6、Mean:将变量的各个数值相加起来，除以总个数，求取一个平均值的数值，一般用x来表示。2.均值的特征：仅适合定距层次的变量它最灵敏，预测的准确度最高对资料所提供的信息运用得最充分3.均值的求法（一）原始数据求均值：X=X1/N (X表示变量x的均值；X1表示变量观察值的总和。)（二）根据频次分布求均值：x=(x表示变量X的均值；表示变量的每一个取值和该变量频数相乘的和；表示把变量的每个取值下的频次都加起来，即调查总数N) (三) 分组数据求均值：x=(n1表示每组次数，b表示每组的组中值，表示个案数目)第四节离散趋势测量法离散趋势测量法：是求出一个值来表示个案与个案之间的差异情况。离散趋势或离

7、散特征可以告诉我们估计值误差的大小。一、定类变量异众比率VV就是非众值的次数与全部个案数目的比率。V=(N-全部个案数目； /_ V值越小，众值代表性越好。二、定序变量1.极差(R)观察的最大值与最小值之差。2.四分互差：将数值排序，分为四个等分，第一个四分位置的值与第三个四分位置的值的差异。四分位差Q=Q75-Q25(一)未分组数据:2 2 3 4 6 9 10 10 11 13 15Md的位置=N+1/2=11+1/2=6Q25的位置=N+1/4=11+1/4=3第三位数Q75的位置=N+1=11+1=9第九位数所以，四分位差Q= Q75-Q25=11-3=8(二)分组数据1.中位值公式=

8、Md=L+(-cf)/n(U-L)2.Q25=L+(-cf)/n(U-L) L：四分之一位值组的真实下界值U：四分之一位值组的真实上界值n：四分之一位值组的频数 cf：低于四分之一位值组的向上累加频次N：调查总数Q25位置=N/4;3.Q75=L+(- cf)/n(U-L) L：四分之三位值组的真实下界值U：四分之三位值组的真实上界值n：四分之三位值组的频数 cf：低于四分之三位值组的向上累加频次N：调查总数Q75位置=3N/4;三、定距变量(一)标准差与方差= (即对均值的偏差平方均值的平方根)=(二)根据未分组的频次分布求方差=N-调查总数；Xi-表示变量的每个取值；ni-表示每个取值的频

9、次(三)分组数据求方差用组中值代替bi代替xi代入公式中=第三章概率一、概率 1.不可能事件的概率：P(O)=0 2.必然事件的概率：P(S)=1 3.随机事件的概率：0P(E)1二、两个重要概念 1.普查：对统计总体的全部单位进展调查以搜集资料统计资料的工作。 2.抽查：按照某种方法以总体中抽取一局部样本进展调查，以搜集统计资料的工作。三、频率分布于概率分布的关系 1.频率分布是实验值，是可以变化的，称之为统计分布或经历分布。 2.概率分布是理论值，是唯一的，称之为理论分布。 3.当观测次数很大时，随机变量取值的频率接近于其概率，这时随机变量的统计分布与理论分布将大致相符。四、总体均值和方差

10、 1.总体均值E:随机变量各取值分别乘取值的概率的总和。 E()=PiXi 2.总体方差D:就是随机变量偏离总体均值的程度。 D=S=E(X)-E(x) 3.总体均值和样本均值的区别：总体均值是对研究对象进展普查后得出的均值。样本均值是对从总体中抽取的样本数据计算出来的均值。 4.总体方差与样本方差的区别：总体方差是对研究对象进展普查后，利用数据算出来的方差。样本方差是根据从总体中抽取出的样本的调查总数据，计算出来的方差。 5.总体均值方差和样本均值方差表示法 1.总体均值E=，总体方差D=，总体标准差= 2.样本均值=x，样本方差=s，样本标准差=S 6.结论 1.通过普查，可以得出概率、总

11、体均值E()、总体方差D()，这些值我们称为参数值。 2.通过抽查，可以得出频率、样本均值x、样本方差s，这些值我们称为统计值。 3.当样本为大样本(N30)，频率概率、样本均值总体均值、样本方差总体方差。 4.当样本数无穷接近总体数的时候，频率=概率、样本均值=总体均值、样本方差=总体方差。 5.统计学的任务就是如何利用统计值来推论参数值统计推论，实现我们的研究目的。第四章常见统计分布第一节二点分布一、二点分布0-1分布:就是变量的取值只有两类的分布。如：性别。二、二分变量的分布律：随机变量如果满足二点分布，那么其概率分布为P(=0)=q；P(=1)=P；P+q=101P=(=Xi) qP第

12、二节二项分布一、二项分布：在一样条件下进展n次独立试验，每次试验只有两种可能的结果，事件A出现的概率P(A)=P,事件A不出现的概率P(A)=1-p=q.第三节正态分布一、什么是正态分布？中心极限定理：对于任何变量，不管其原有分布如何，如果把它们n个加在一起，当n大于一定数之后n30,那么其和的分布必然接近正态分布。二、正态分布密度曲线的特点 1.一个顶峰 2.一个对称轴X=3.一个渐近线X轴4.正态分布曲线是单峰值对称的，因此这种分布的变量，其众值、中位值和均值是重叠的。5.正态分布下的面积为1.三、正态曲线的参数意义 1.正态分布的两个参数是总体均值和总体方差。 2.两个参数对曲线形状的影

13、响： (1)X在x=处到达峰值，以直线x=为对称轴。在一定的情况下，假设增大，图形右移；假设减小，那么左移，但形状不变。 (2)当值一定时，值越小，那么对应的图形越尖越瘦。第四节标准正态分布标准正态分布：标准正态分布就是通过公式把一般正态分布转化而来，这样把不同的正态分布都统一为0，1的正态分布，然后再通过查表求出两点之间的概率。公式：=1.标准正态分布的=0，=1，其图形以=0为对称轴。2.标准正态分布记作XN(0，1),一般正态分布记作XN3.标准正态分布的图形唯一的，其值可以通过查表附表4求得。只有标准正态分布才能查表，如果是一般正态分布那么先用公式转化为标准正态分布4.正态分布N()和

14、标准正态分布N(0，1)面积之间的对应关系：当X=+时，=1当X=-时，=-1第五节常用统计分布一、X分布卡方分布设变量1、2，、k相互独立，且都服从N(0，1)，那么X=1+(2)+(k)称为自由度为K的X分布。记作：Xk二、t分布设随机变量和独立，且N(0，1)，Xk,那么随机变量t (t=)服从自由度为k的t分布，记作tt(k)。三、F分布设随机变量和独立，且Xk1Xk2,那么随机变量F (F=) 服从自由度k1，k2的分布记作FFk1，k2。第五章参数估计一、关于抽样的一些概念1.总体：构成总体的所有元素的集合，元素那么是构成总体的最根本的单位。2.样本：从总体中按一定方式抽取出来的一

15、局部元素的集合。3.抽样：从总体中，按一定的方式选择或抽取样本的过程。4.抽样单位：一次直接抽样所使用的根本单位。二、统计推论1.统计推论：根据局部资料样本资料对总体进展推断的过程。2.样本资料的特点：1样本资料来源于总体，因此局部资料的特性在某种程度上能反映总体的特征。2由于抽样的随机性，那么抽样的结果有可能不等于总体的结果。3当样本到达一定规模的时候(大样本)，呈现规律性。3.统计值：从样本中计算出来的数值。4.参数值：总体的数值。5.统计推论的容分为两个局部：1通过样本的统计值对总体的未知参数进展估计，称为参数估计。2通过样本对总体的某种假设进展检验，称为假设检验。三、抽样分布1.样本均

16、值的分布：我们按照简单随机抽样的方法，从总体中抽取样本，因为每一个个体被抽中的时机具有随机性，所以每一次抽出的样本其均值都不同，那么在同一个总体中，抽取n次就有n个样本均值，而样本均值的分布就是这n个样本均值的分布。2.样本方差S2的分布：就是n个样本方差的分布。第三节参数的点估计点估计：直接用样本计算出来的统计值来估计总体的参数值，由于它只是一个点值，所以称参数的点估计。一、总体参数的点估计公式1.总体均值的点估计值为样本均值XX=2.总体方差2 的点估计值为样本方差S2S2=3.总体标准差的点估计值为样本标准差S第五节正态总体的区间估计一、区间估计：通过样本计算出一个围来对总体未知参数进展

17、估计。二、区间估计的概率表达式：Q未知参数总体值；Q统计值样本值；【Q-，Q+】置信区间为Q的可能取值围；1- 置信度置信区间包含Q可靠性程度；一般是根据研究者想让自己的研究到达什么样的准确度而自己给定的。显著性水平significant，表示用置信区间估计不可靠的概率。第六节大样本区间估计一2 时，样本均值呈正态分布整理后得出的区间估计概率公式：所以，的双侧置信区间为：二大样本，总体分布满足x N( , 2 )，但2 未知时对进展区间估计：Z= (用样本标准差s代替总体标准差)整理后得出的区间估计概率公式：所以，的双侧置信区间为：故总体成数P的区间估计公式为如果P未知，可以用P 取代。三常

18、用置信度下的置信区间当1- =0.95时，置信区间为：1- =0.99时，置信区间为：第六章假设检验的根本概念一、统计假设：依靠抽样数据对总体分布进展验证的假设，包括原假设和备择假设。二、原假设和备择假设1.原假设H0:又称之为虚无假设，根据已有的资料，或周密考虑后确定的，如果没有充分根据，是不会被轻易否认的。2.备选假设H1:又称研究假设，经过抽样调查，有充分根据否认原假设H0时，产生的假设。三、假设检验的根本原理大数定理：1.对事件进展大量观察时，事件的发生是有规律的，这种有规律性的数量成为概率。2.在大量观察中，频繁出现的事件具有较大的概率，反之，那么具有小的概率。小概率原理：认为小概率

19、事件在一次观察中是不可能出现的,称为小概率原理。如果在一次观察中出现了小概率事件，就否认原有事件具有小概率事件的假设。四、假设检验的思想1.经过抽样调查获得数据后，如果根据样本计算的某个统计量说明在原假设H0成立的条件下几乎是不可能发生的，我们就拒绝原假设，而承受备选假设。2.如果在原假设成立的条件下，根据样本所计算的某个统计量，发生的可能性很大的话，我们就承受原假设。五、相关名词：1.统计检验中的假定前提:是进展检验的前提或要求。如计算时，要求时正态分布，样本的抽取应该是随机抽样。2.统计量:用来检验总体的样本的函数fx1，x2，xn，常用的统计量有服从Z分布、t分布、F分布、X2分布等，他

20、们的统计量分别对应为Z、t、F、 X2。3.显著性水平(significance) =小概率小概率的标准，小概率的数量界限。常用的显著性水平有=0.10、0.05或0.01。4.临界值、承受域和拒绝域根据原假设作出统计量的分布图六、假设检验的两类错误1.弃真的错误是在拒绝原假设时出现的错误，即将正确的原假设当作假的所犯的错误。弃真错误的大小就是 2.纳伪的错误是承受原假设时出现的错误，即承受了实际上错误的原假设的错误。称为第二类错误。七、两类错误的关系弃真错误减少导致纳伪错误的增大反之亦然。即，当显著性水平减小时，由于拒绝域的减小，弃真的错误会减小，但由此而来的是承受域增大了，因而纳伪的概率增

21、大，反之亦然。八、解决的方法增加样本容量。九、假设检验的四个步骤： 1.成立原假设 2.成立备择假设 3.统计量 4.拒绝域和承受域第九章列联表一、什么是列联表一相关：是指一个变项的值与另一个变项的值有连带性。即如果一个变项的值发生变化，另一个变项的值也有变化。1正相关正比：是指一个变项的值增加时，另一个变项的值也增加。2负相关反比：是指一个变项的值增加时，另一个变项的值却减少。二自变量、因变量：科学研究中，我们成立假设，一般假定某变项是因，另一变项是果，那么前者称之为自变量，后者称为因变量。1不对称关系：自变量影响因变量，因变量不影响自变量2对称关系：自变量和因变量互相影响。三列联表交互分类

22、表：按照两个变量进展交互分类的频次分布表，其综合了两个变项的共同分布。即：我们先将数据按自变量x分类，然后分别统计自变量的每一取值下的因变量y的取值，然后形成的统计表。二、列联表要注意的问题1.线条要尽量的少，舍去不必要的线条。2.每个表的顶端要有表号和标题。3. 表的顶端为自变量，表的左旁边为因变量。4.表的大小表的横行数目rows，简写为r表的纵行数目columns，简写为c。5.表的下端和表的右边称为边缘分布。6.联合次数分布表和联合频率分布表可以互换。7.联合频率分布表中，一定要注明样本总数。8.应以自变量的方向计算百分比的方向。三、边缘分布1.边缘分布：只研究联合分布中某一变量的分布

23、，而不管另一个变量的取值。2.关于y的边缘分布 N*j ：把联合分布中的概率，次数按行的方向加总起来的分布。3.关于x的边缘分布 Ni* ：把联合分布中的概率，次数按列的方向加总起来的分布。四、条件分布将其中一个变量控制起来取固定值，研究另一变量的分布，即得到第二个变量的条件分布。关于y的条件分布控制x的取值，最多有c个。关于x的条件分布控制y的取值，最多有r个。五、列联表中变量的相互独立性自变量与因变量无关时列联表中变量相互独立性时，那么如下等式成立：=x1x2N*jy1N11N21y2N12N22Ni*NPij=Pi*P*jx1X2P*jy1P11P21y2P12p22Pi*1六、列联表的

24、检验1.检验的容：x与y是否有关总体参数： p N 总体概率及总数样本参数：P n 样本频率及频次2.列联表检验的原假设H0：Pij = pi* p*j i=1，2，c = j=1，2，r七、列联表检验的统计量1.期望格值Eij是假定H0成立的条件下，每格期望发生的频次理论值；2.样本格值nij是样本实测频次或观察频次。3.原假设成立的情况下，有下面的的等式：Eij八、统计量X 2九、列联强度1.r c 列联表PRE测量法E1：不知道y与x的关系时，预测y的全部误差E2：知道y与x的关系后，用x去预测y的全部误差E1-E2：知道y与x的关系后预测y所减少的误差v PREProportional

25、 reduction in error称为减少误差比例，表示用x解释y时可以减少的误差的百分比。2.PRE的取值围：PRE=0 E1=E2那么x与y无关PRE=1 E2=0 x与y完全相关0 PRE 1 x与y局部相关e.g.PRE=0.8，说明用x 预测 y 可以减少80%的误差，x与y高度相关3.Lamda 系数 4. 系数取值围: =0 x与y无关 =1 x与y全相关0 1 x与y局部相关,值越大表示x与y相关程度越高。5.T系数讨论1. 非对称性。要求两个定类变项中有一个是自变项(x)另一是因变项(y) 2. 0 1 (=0 无关; =1 完全相关)3.具有PRE意义第十章等级相关一、

26、名词1.同序对：设填问卷的A和B两个人，在变量X和Y(问卷上的两个问题，一为自变量，一为因变量)的等级分别为：(Xi,Yi)；Xj,Yj如果Xi Xj, Yi Yj,就称A和B是同序对。2.异序对：设填问卷的A和B两个人，在变量X和Y(问卷上的两个问题，一为自变量，一为因变量)的等级分别为：(Xi,Yi)；Xj,Yj如果Xi Xj, Yind，G0两变量正相关；nd=0，G=1-两变量完全相关；nsnd，G0-两变量负相关；ns=nd，G=0-两变量不相关。取值围：【-1，1】；nd=0，G=1; ns=0,G=-1.具有PRE意义；G系数属于对称相关测量法。G=PRE=第十一章回归与相关第一

27、节回归研究的对象一、研究两个变量之间的因果关系回归分析就是研究定距变量x与定距变量y之间的因果关系。由于我们研究的自变量只有一个，所以称之为一元回归分析。根底统计学如果研究的自变量有多个，那么称之为多元回归分析。高级统计学二、散布图1.散布图是相关关系的图形表示。2.我们进展n次独立观测，就会得到关于x和y的n个数据对。3.其中xi表示变量x在第i次观测中的测量值,与之对应，yi是变量y在第i次观测中的测量值。4.通常把数据对 xi，yii=1,2,3n用平面上直角坐标的点来表示，这样在平面直角图上就呈现了n个散布点，又称散布图。5.散布图的特点是，对于一个确定的xi值， yi值不是唯一的。第二节回归直线方程的建立任务：确定回归直线中的两个参数a和b，从而建立反映总体变量关系的直线回归方程。原理：最小二乘法方法：由样本散布图做出一条拟合直线作为总体直线的估计直线。一、最小二乘法1.在散布图中，我们可以画一条直线y=a+bx，当a，b取不同值时，可以得到无数条直线。2.在无数条直线中，哪一条是变量x和变量y的最正确拟合的线性回归方程。那么只有各个散布点到某条直线的距离都比拟接近的时候，那么

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？