ImageVerifierCode 换一换
格式:DOCX , 页数:52 ,大小:58.13KB ,
资源ID:16559890      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/16559890.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(完整版社会统计学Word格式.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

完整版社会统计学Word格式.docx

1、费舍F 1950 S,拉扎斯菲尔德:自动化处理 1966年,斯坦福:SPSS4.社会统计学派 凯特勒的另一个重要贡献,是他把政治经济学、数学和当时政府统计工作的方法结合在一起,建立了一个专门研究社会现象的统计学派。后来这个学派传到德国,就出现了以克尼斯(18211898)、梅尔(1841l 923)和恩格尔(18211896)为代表的德国社会统计学派。 第一次世界大战前后,随着社会统计学派的中心逐步向英、美等国转移,社会统计学与社会学的关系日益明确。 1900年,马约 史密斯统计学和社会学。 1920年,史特威 恰平实地调查与社会研究。恰平还著有社会学中的科学方法等书。 二次大战后,社会统计学

2、在广义和狭义两方面的实践意义逐步得到了人们的公认。 20世纪60年代以来,西方发达资本主义国家先后都制定了社会发展计划。 20世纪60年代首先在美国掀起了一个颇有声势的“社会指标运动”。 1966年,雷蒙 布埃尔提出用社会指标的方法解决社会分析和社会规划的基本理论,出版了社会指标一书。 1976年,经互会社会统计基本指标体系 1976年,OECD社会生活质量的计量 1982年,国家统计局成立社会统计司1983年,中国社会统计资料首次公开出版标题部分 1、标题置于表格正上方 2、总标题所示要点与表中项目一致,在需要时还应表明资料所属的时间和地区 3、表次:左 ;单位:右 4、对分页的同一表格,在

3、每页上端都要写标题,加(续一)、(续二)栏目部分 1、先局部后整体 2、若栏目较多,可加以编号;统计数字间有计算关系的,可用计算式表达。线格部分 1、统计表上下两端线应以粗线或双细线标划,表的左右两侧开口。 2、各栏间用直线标划,大项目间线条较粗,小栏目线条较细;各行间不必划线条。数字部分 1、表中数字要对准位数。 2、不存在某数字时,用“”表示;缺少某项数字时,用“”表示。 3、数字较大时,加分位点。其他规则 1、资料来源写在表格下方。 2、有说明解释需要时,在表下方注释。 3、单位有数种时而不能在表右上角划一标注时,分两种情况处理。 1.单项式变量数列数列中每一组的变量值只有一个。单项数列

4、用于离散变量整数值变动幅度较小时。 某社区各户人口数统计表对于等距分组且为闭口组的情况,确定组距已有某些数学公式可供参考,但最佳决定还是依据常识和数列使用的目的而定。一般地说,组距应不小于可以忽略的数值之差。 注意,在资料被整理成数列时,全距可适当放大(但不能缩小),以便组数(或组距)取整数值。 异距分组 异距分组主要在变量变动并不是均匀的、有急剧上升或突然下降之类情况发生时考虑。 标准组距频数的换算方法: (1)选定某一合适的组距为标准组距; (2)用标准组距除以各组组距,得到折合系数; (3)将各组的折合系数乘以各组的频数。 累计频数(F) 向上累计以变量数列首组的频数为始点,逐个累计各组

5、的频数,展示小于该组上限的频数和。 向下累计以变量数列末组的频数为始点,逐个累计各组的频数,展示大于该组下限的频数和。 频数分布不但可以用统计表的形式表现,也可以用统计图的形式表现。用统计图表示频数分布,较之用统计表,要直观便捷得多。但缺点是不及统计表精确。统计图的种类很多,本节仅就与频数分布数列相衔接的统计图加以介绍。 根据编制好的频数分布数列,可以绘制出相应的统计图,最常用的有频数分布直方图、折线图、曲线图以及累计频数分布曲线。 具体方法是:先画直角坐标系,横轴代表分组或各组组限,纵轴代表各组频数或频率,然后再根据相应的分配数列作图。 条件下,很显然各矩形的面积与其高度成正比。因此,各矩形

6、的面积同样可以用来表示各组的频数或频率,而且看起来更形象直观。如果取各矩形的总面积为1,各矩形的面积必定等于各组的相对频数。 直方图(Histograms) 直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。对于定类变量和定序变量的分组,矩形(或长条)的宽度是没有意义的,各矩形之间要留出一定的空隙;对于定距变量(和定比变量)的分组,矩形的宽度表示各组组距,各矩形之间一般不留空隙。在等距分组的其实,在频数分布图中,用面积来理解频数分布状况更合适。 比如直方图,当处理异距分组时应该用矩形面积而不是用矩形高度来显示频数分布。 下面是根据表315绘制出的两个直方图。左图用矩形高度来表示各组频数

7、就会产生错觉。右图是按照标准组距频数作出来的,用矩形面积来表示各组频数就避免了不必要的错觉。以后当我们接触正态曲线等曲线后,将进一步体会到用面积来表示频数分布的好处。 折线图(Polygon) 表示频数分布的另一种图形是频数多边形图,简称折线图。直接把直方图各矩形顶部的中点用直线连接起来,并把原来的矩形抹掉,就得到频数多边形图。 当变量数列中的组数愈加增多,变量值也非常多时,折线图会逐步过渡到平滑曲线。频数分布曲线图实质上是对应于连续变量的频数分布的函数关系图。 下表是诺贝尔获奖者的年龄分布表。(1)请根据数据制作直方图和折线图;(2)将折线图修匀为一条曲线图,并描述该曲线的特点。 常见曲线图

8、类型 逻辑斯蒂曲线:变量值分布的次数随变量值增大 而增多或相反,但有上限。 累计频数分布曲线 显然,累计频数分布曲线只有两种形状:或持续增长的或持续减少的。这分别取决于向上累计或向下累计。累计频数分布曲线一般都呈逻辑斯谛曲线形,其斜率最大的地方对应于频数最大的组,其水平的地方对应于空组。基尼系数的计算公式,可以根据定义,用求三角形和梯形面积的方法,很简单地推导出来,即第四章 集中趋势测量法。下面是一个小故事: 一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?我们有三种方法选择集中趋势: (1)根据频数:哪个变量值出现次数越多,就选择哪个变量值,比如民主决策的

9、表决机制。 (2)根据居中:比如一个城镇居民的生活水平,居中的是小康家庭,那么就用小康家庭来代表该城镇的生活水平。 (3)根据平均:用平均数来代表变量的平均水平。 关于集中趋势的一个故事 吉斯莫先生有一个小工厂,生产超级小玩意儿。 管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。现在吉斯莫先生正在接见萨姆,谈工作问题。 吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。萨姆工作了几天之后,要求见厂长。 萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周10

10、0元。平均工资怎么可能是一周300元呢?啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧? 萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。 吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。每周100元又是怎么回事呢?那称为众数,是大多数人挣的工资。老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。萨姆:好

11、,现在我可懂了。我我辞职!第一节 算术平均数(MEAN) 注意:对求和符号,此时流动脚标的变动范围是1, 2, 3, ,N ,N是总体单位数。 例 求74、85、69、9l、87、74、69这些数字的算术平均数。对求和符号,此时流动脚标的变动范围是1,2,3 ,n,n是组数,而不是总体单位数。 很显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频数)的影响。由于对于总体的影响要由频数( f )大小所决定,所以 f 也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这

12、样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。 例 求下表(单项数列)所示数据的算术平均数 。 对于组距数列,要用每一组的组中值权充该组统一的变量值。 例 求下表所示数据的的算术平均数 第二节 中位数(Median) 例 求54,65,78,66,43这些数字的中位数。 例、求54,65,78,66,43,38 这些数字的中位数。 (2)组距数列按中位数所在组的下限:按中位数所在组的上限: 4. 四分位数 中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位数,我们还可求出四分位数、十分位数、百分位数。 将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分

13、位数。若以Q1、Q2、Q3分别代表第一、第二、第三四分位数。Q2 即中位数,Q1、Q3的算法分别是 请从下表中指出第一四分位数和第三四分位数求出下表中的第一四分位数和第三四分数第三节 众数(Mode) 1. 对于未分组资料 直接观察 首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。 2. 对于分组资料 单项式:观察频数分布 (或频率分布 ) 组距式:求下表中的众数 (1) 众数仅受上下相邻两组频数大小的影响,不受极端值影响,对开口组仍可计算众数; (2) 受抽样变动影响大; (3) 众数不唯一确定。 (4) 众数标

14、示为其峰值所对应的变量值,能很容易区分出单峰、多峰。因而具有明显偏态集中趋势的频数分布,用众数最合适。第四节 几何平均数、调和平均数(了解) 1. 几何平均数Mg (geometric mean ) N个变量值连乘积的N次方根。(不能有变量值为0)。适用于:(1) 计算某种比率的平均数;(2) 计算大致具有几何级数关系的一组数字的平均数,如经济指标的平均发展速度。 应该指出,用以计算几何平均数的各项数值必须大于0,否则就不能计算几何平均数或计算结果无实际意义。例 求3,9,27,81,243这些数字的几何平均数。2. 调和平均数Mh ( harmonic mean) N个变量值倒数算术平均数的

15、倒数,也称倒数平均数。掌握的情况是总体标志总量而缺少总体单位数的资料时。 简单调和平均数 加权调和平均数 3. 各种平均数的关系 (1) 当总体呈正态分布时: (2)当总体呈偏态分布时:中位数总在均数和众数之间 正偏: 负偏: (注: 和 合称位置平均数) (3) 皮尔逊发现,在钟形分布的偏态不大显著时, 、 、 三者大致构成一个比较固定的关系:第五章 离中趋势测量法 例如有A、B、C、D四组学生各5人的成绩如下: A组:60 ,60,60,60,60 B组:58,59,60,61,62 C组:40,50,60,70,80 D组:80,80,80,80,80 数据显示,平均数相同,离势可能不同

16、;平均数不同,离势可能相同。 变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。 变异指标如按数量关系来分有以下两类; 凡用绝对数来表达的变异指标,统称绝对离势; 凡用相对数来表达的变异指标,统称相对离势; 第一节 全距与四分位差 1.全距(Range) 例 求74,84,69,91,87,74,69这些数字的全距。 解 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有 R =Xmax Xmin 916922 2.四分位差(Quartile deviation) 第三四分位数和第一四分位数的半距。避免全距受极端值影响大的

17、缺点。 第二节 平均差(Mean absolute deviation) 要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。平均差是离差绝对值的算术平均数。(mean deviation) 1.对于未分组资料 A D= 2.对于分组资料 A 3.平均差的性质 例1 试分别以算术平均数为基准,求85,69,69,74,87,91,74这些数字的平均差。 例2 试以算术平均数为基准,求下表所示数据的平均差。第三节 标准差(standard deviation) 求72、81、86、69、57这些数字的标准差。 例 调查大一男生6

18、0人的身高情况如下表所示,求他们身高的标准差。 解 因为是分组资料,计算标准差运用加权式,并参见下表 标准差是反映总体各单位标志值的离散状况和差异程度的最佳测度。 (1)以算术平均数为基准计算的标准差比以其他任何数值为基准计算的标准差要小。“最小二乘方”性质各变量值对算术平均数的离差的平方和,必定小于他们对任何其他数偏差的平方和。 (2)它将总体中各单位标志值的差异全包括在内,受抽样变动影响小。但在受极端值影响以及处理不确定组距方面,缺点同算术平均数。 值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。所谓方差,即标准差的平方,它直接写成。也常被称为变异数。 4.标准分(

19、standard score) 以离差和标准差的比值来测定变量 与 的相对位置。使原来不能直接比较的离差标准化,可以相互比较,加、减、平均。 Z分数也有标准正态变量之称。按Z值大小编制出的正态分布表,其用途十分广泛。 Z分数的性质:第四节 相对离势 上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝对离势。但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不相同的资料的参差程度,离势的绝对指标则很可能导致某些错误结论。所以,我们还得了解和学习相对离势。 全距系数 全距系数是众数据的全距与其算术平均数之比,其计算公式是平均差系数 平均差系数是众数据的平均差与其算术平均数

20、之比,其计算公式是标准差系数 标准差系数是众数据的标准差与其算术平均数之比,其计算公式是 异众比率能表明众数所不能代表的那一部分变量值在总体中的比重。 2. 异众比率 所谓异众比率,是指非众数的频数与总体单位数的比值,用V R来表示 其中: 为众数的频数; 是总体单位数 例1:某项调查发现,现今三口之家的家庭最多(32%),求异众比率。某开发商根据这一报导,将房屋的户型大部分都设计为适合三口之家居住的样式和面积,你认为如何呢? 例2:设为测体重,得到成人组和婴儿组各100人的两个抽样总体。成人组平均体重为65千克,全距为10千克;婴儿组平均体重为4千克,全距为2.5千克。能否认为成人组体重的离

21、势比婴儿组体重的离势大? 例3:对一个群体测量身高和体重,平均身高为170.2厘米,身高标准差为5.30厘米;平均体重为70千克,体重标准差为4.77千克。比较身高和体重的离散程度。 3. 偏态系数偏斜系数是以标准差为单位的算术平均数与众数的离差,其取值一般在0与土3间。偏斜系数为0表示对称分布,偏斜系数为或则表示极右或极左偏态。第六章 概率与概率分布第一节 基础概率 概率论起源于17世纪,当时在人口统计、人寿保险等工作中,要整理和研究大量的随机数据资料,这就需要一种专门研究大量随机现象的规律性的数学。 参赌者就想:如果同时掷两颗骰子 ,则点数之和为9 和点数之和为10 ,哪种情况出现的可能性

22、较大? 例如17世纪中叶,贵族德梅尔发现:将一枚骰子连掷四次,出现一个6 点的机会比较多,而同时将两枚掷24次,出现一次双6 的机会却很少。 概率论的创始人是法国的帕斯卡(16231662)和费尔马(16011665),他们在以通信的方式讨论赌博的机率问题时,发表了骰子赌博理论一书。棣莫弗(16671754)发现了正态方程式。同一时期瑞士的伯努利(1654一1705)提出了二项分布理论。1814年,法国的拉普拉斯(17491827)发表了概率分析论,该书奠定了古典概率理论的基础,并将概率理论应用于自然和社会的研究。此后,法国的泊松(17811840)提出了泊松分布,德国的高斯(17771855

23、)提出了最小平方法。 在统计学中,我们把类似掷一枚硬币的行为(或对某一随机现象进行观察)称之为随机试验。随机试验必须符合以下三个条件:它可以在相同条件下重复进行;试验的所有结果事先已知;每次试验只出现这些可能结果中的一个,但不能预先断定出现哪个结果。 例 对掷一颗骰子的试验,我们研究如下事件:A为“点数是3”;B为“出现奇数点”;C为“出现点数不超过6”;D为“点数是7”。 解 因为1,2,3,4,5,6,所以 A3 ,为简单事件; B1,3,5,为复合事件; C1,2,3,4,5,6,为必然事件; D7,为不可能事件。 2. 事件之间的关系 (1)事件和(Or conjunction)事件A

24、与事件B至少有一个事件发生所构成的事件C称为A与B的事件和,记作 (2)事件积(As-well-as conjunction)事件A与事件B同时发生所构成的事件C称为A与B的事件积,记作 (3)事件的包含与相等事件A发生必然致事件B发生,则称为B包含A记作 (4)互斥事件事件A和事件B不能同时发生,则称B和A是互斥事件,或互不相容事件,记作 (5)对立事件事件A与事件B是互斥事件,且在一次试验中必有其一发生,称A与B为对立事件(逆事件),记作 (6)相互独立事件事件A的发生与事件B是否发生毫无关系,称A与B为相互独立事之间的两关系随机事件 例 掷两枚均匀的硬币, 求“两枚都朝上”的概率; 求“

25、一枚朝上,一枚朝下”的概率。 这样对于含有m个样本点的事件A,其出现的概率为 4. 经验概率 求算概率的另一途径是运用频率法。设想有一个与某试验相联系的事件A,把这个试验一次又一次地做下去,每次都记录事件A是否发生了。假如做了 n 次试验,而记录到事件A发生了 m 次(即成功 m 次),则频数与试验次数的比值,称作次试验中事件A发生的频率 显然,频率具有双重性质:随机性和规律性. 当试验或观察次数趋近于无穷时相应频率趋于稳定,这个极限值就是用频率法所定义的概率,即 频率稳定到概率这个事实,给了“机会大小”即概率一个浅显而说得通的解释,这在统计学上具有很重要的意义。坚持这种观点的统计学派也就被称

26、为频率学派。 2.加法规则 如果事件A和事件B互斥,那么 如果A和B是任何事件(不一定互斥),加法规则更普通地表示为如下形式 例从一副普通扑克牌中抽一张牌,求抽到一张红桃或者方块的概率。 例 在一副52张扑克牌中,求单独抽取一次抽到一张红桃或爱司的概率。 加法规则可推广到对两个以上的事件,若事件A,B,CK都互斥,那么有 P (A或B或C或K)P(A)+P(B)+P(C) +P(K) 例 根据上海市职业代际流动的统计,向下流动的概率是0.07,静止不动的概率是0.6,求向上流动的概率是多少? 例 为了研究父代文化程度对子代文化程度的影响,某大学统计出学生中父亲具有大学文化程度的占30,母亲具有

27、大学文化程度的占20,而双方都具有文化程度的占有10,问从学生中任抽一名,父代至少有一名具有大学文化程度的概率是多少? 3.乘法规则 式中符号 和 代表条件概率。 应理解为,“在B已经发生条件下A发生的概率”。条件概率的意思是,A发生的概率可能与B是否发生有关系。换言之,B已经发生时A发生的概率可能有别于B没有发生时A发生的概率。 理解统计独立的概念,对于灵活运用概率的乘法规则很重要。现在用条件概率来加以表达,统计独立是指 若A和B在统计上相互独立(无关) ,这时乘法规则可以简化为 例假定有下列3000个社区的数据,如果随机地从这个总体中抽取一个社区,得到一个中等的而且犯罪率低的社区的概率是多少?

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1