完整版社会统计学.docx
《完整版社会统计学.docx》由会员分享,可在线阅读,更多相关《完整版社会统计学.docx(52页珍藏版)》请在冰豆网上搜索。
完整版社会统计学
社会统计学
(SocialStatistics)
科学只有当它利用了数学的时候,它才达到了完善的程度。
——马克思
对于追求效率的公民而言,统计思维总有一天会和读写能力一样必要。
——H.G.Wells
教材及参考书目
社会统计学,张彦,高等教育出版社,2005
社会统计学,张彦,南京大学出版社,1997
社会统计学(第八版),布莱洛克,社会科学文献出版社
社会统计学(重排本),卢淑华,北京大学出版社,2002
社会研究的统计分析,李沛良,社会科学文献出版社
17世纪以前,社会统计主要局限于对事物进行原始的调查登记和简单的计算汇总。
如大禹时的九州表,明初的黄册和鱼鳞册;古埃及、古希腊、古罗马在公元前400年就建立
的出生、死亡登记制度。
17世纪后,产生了以工业、农业、贸易、交通等方面统计为主的社会经济统计。
国势学派
政治算术学派
数理统计学派
1.国势学派
代表人物是康令(1606~1681)和阿亨瓦尔(1719~1772)。
1749年,阿亨瓦尔根据拉丁文“Status”、意大利文Stato和Statista及德文Statisti等字根创造出“Statistik”这个新词,原意指“国家显著事项的比较和记述”。
国势学派可谓“有名无实”的学派:
只用文字记述,不用数字计量。
它又称记述学派和历史学派。
2.政治算术学派
格朗特1662年在其《自然和社会观察》一书中,从宗教管理、商业、气候、疾病等方面,对当时伦敦人口的出生率、死亡率和性比例等方面进行了综合的统计分析。
威廉·配第1667年在其《政治算术》一书中,运用有关人口、土地税收和国家收入等方面的数字资料,对英国、荷兰的经济实力进行比较,首创了一种数字对比分析的方法。
“即用数字、重量、尺度来表达自己想说的问题。
”
与国势学派相对应,政治算术学派可谓“有实无名”的学派
3.数理统计学派
凯特勒(1796~1896)首先将概率论原理引入到社会现象的研究,在《社会物理学》,《道德统计》、《论人类》等书中,他认识到人类的社会活动服从于一定规律,并发现这种规律只有通过大量观察才能被人们
所认识。
凯特勒被称为现代统计学之父。
1867年,一门兼有数学和统计学双重性质的学科被命名为“数理统计学”。
1886年,高尔顿:
相关指数
1900年,皮尔逊:
卡方检验,复相关计算
1928年,戈塞特t;费舍F
1950S,拉扎斯菲尔德:
自动化处理
1966年,斯坦福:
SPSS
4.社会统计学派
凯特勒的另一个重要贡献,是他把政治经济学、数学和当时政府统计工作的方法结合在一起,建立了一个专门研究社会现象的统计学派。
后来这个学派传到德国,就出现了以克尼斯(1821—1898)、梅尔(1841—l923)和恩格尔(1821—1896)为代表的德国社会统计学派。
第一次世界大战前后,随着社会统计学派的中心逐步向英、美等国转移,社会统计学与社会学的关系日益
明确。
1900年,马约·史密斯《统计学和社会学》。
1920年,史特威·恰平《实地调查与社会研究》。
恰平还著有《社会学中的科学方法》等书。
二次大战后,社会统计学在广义和狭义两方面的实践意义逐步得到了人们的公认。
20世纪60年代以来,西方发达资本主义国家先后都制定了社会发展计划。
20世纪60年代首先在美国掀起了
一个颇有声势的“社会指标运动”。
1966年,雷蒙·布埃尔提出用社会指标的方法解决社会分析和社会规划的基本理论,出版了《社会指标》一
书。
1976年,经互会《社会统计基本指标体系》
1976年,OECD《社会生活质量的计量》
1982年,国家统计局成立社会统计司
1983年,《中国社会统计资料》首次公开出版
标题部分
1、标题置于表格正上方
2、总标题所示要点与表中项目一致,在需要时还应表明资料所属的时间和地区
3、表次:
左;单位:
右
4、对分页的同一表格,在每页上端都要写标题,加(续一)、(续二)
栏目部分
1、先局部后整体
2、若栏目较多,可加以编号;统计数字间有计算关系的,可用计算式表达。
线格部分
1、统计表上下两端线应以粗线或双细线标划,表的左右两侧开口。
2、各栏间用直线标划,大项目间线条较粗,小栏目线条较细;各行间不必划线条。
数字部分
1、表中数字要对准位数。
2、不存在某数字时,用“——”表示;缺少某项数字时,用“……”表示。
3、数字较大时,加分位点。
其他规则
1、资料来源写在表格下方。
2、有说明解释需要时,在表下方注释。
3、单位有数种时而不能在表右上角划一标注时,分两种情况处理。
1.单项式变量数列——数列中每一组的变量值只有一
个。
单项数列用于离散变量整数值变动幅度较小时。
某社区各户人口数统计表
对于等距分组且为闭口组的情况,确定组距已有某些数学公式可供参考,但最佳决定还是依据常识和数列使用的目的而定。
一般地说,组距应不小于可以忽略的数值之差。
注意,在资料被整理成数列时,全距可适当放大(但不能缩小),以便组数(或组距)取整数值。
异距分组
异距分组主要在变量变动并不是均匀的、有急剧上升或突然下降之类情况发生时考虑。
标准组距频数的换算方法:
(1)选定某一合适的组距为标准组距;
(2)用标准组距除以各组组距,得到折合系数;
(3)将各组的折合系数乘以各组的频数。
累计频数(F)
向上累计——以变量数列首组的频数为始点,逐个累计各组的频数,展示小于该组上限的频数和。
向下累计——以变量数列末组的频数为始点,逐个累计各组的频数,展示大于该组下限的频数和。
频数分布不但可以用统计表的形式表现,也可以用统计图的形式表现。
用统计图表示频数分布,较之用统计表,要直观便捷得多。
但缺点是不及统计表精确。
统计图的种类很多,本节仅就与频数分布数列相衔接的统
计图加以介绍。
根据编制好的频数分布数列,可以绘制出相应的统计图,最常用的有频数分布直方图、折线图、曲线图以及累计频数分布曲线。
具体方法是:
先画直角坐标系,横轴代表分组或各组组限,纵轴代表各组频数或频率,然后再根据相应的分配数列作图。
条件下,很显然各矩形的面积与其高度成正比。
因此,各矩形的面积同样可以用来表示各组的频数或频率,而且看起来更形象直观。
如果取各矩形的总面积为1,各矩形的面积必定等于各组的相对频数。
直方图(Histograms)
直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。
对于定类变量和定序变量的分组,矩形(或长条)的宽度是没有意义的,各矩形之间要留出一定的空隙;对于定距变量(和定比变量)的分组,矩形的宽度表示各组组距,各矩形之间一般不留空隙。
在等距分组的其实,在频数分布图中,用面积来理解频数分布状况更合适。
比如直方图,当处理异距分组时应该用矩形面积而不是用矩形高度来显示频数分布。
下面是根据表3.15绘制出的两个直方图。
左图用矩形高度来表示各组频数就会产生错觉。
右图是按照标准组距频数作出来的,用矩形面积来表示各组频数就避免了不必要的错觉。
以后当我们接触正态曲线等曲线后,将进一步体会到用面积来表示频数分布的好处。
折线图(Polygon)
表示频数分布的另一种图形是频数多边形图,简称折线图。
直接把直方图各矩形顶部的中点用直线连接
起来,并把原来的矩形抹掉,就得到频数多边形图。
当变量数列中的组数愈加增多,变量值也非常多时,折线图会逐步过渡到平滑曲线。
频数分布曲线图实
质上是对应于连续变量的频数分布的函数关系图。
下表是诺贝尔获奖者的年龄分布表。
(1)请根据数据制作直方图和折线图;
(2)将折线图修匀为一条曲线
图,并描述该曲线的特点。
常见曲线图类型
●逻辑斯蒂曲线:
变量值分布的次数随变量值增大而增多或相反,但有上限。
●累计频数分布曲线
显然,累计频数分布曲线只有两种形状:
或持续增长的或持续减少的。
这分别取决于向上累计或向下累计。
累计频数分布曲线一般都呈逻辑斯谛曲线形,其斜率最大的地方对应于频数最大的组,其水平的地方对应于空组。
基尼系数的计算公式,可以根据定义,用求三角形和梯形面积的方法,很简单地推导出来,即第四章集中趋势测量法。
下面是一个小故事:
一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?
我们有三种方法选择集中趋势:
(1)根据频数:
哪个变量值出现次数越
多,就选择哪个变量值,比如民主决策的表决机制。
(2)根据居中:
比如一个城镇居民的生活水平,居中的是小康家庭,那么就用小康家庭来代表该城镇的生活水平。
(3)根据平均:
用平均数来代表变量的平均水平。
关于集中趋势的一个故事
吉斯莫先生有一个小工厂,生产超级小玩意儿。
管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。
工作人员由5个领工和10个工人组成。
工厂经营得很顺利,现在需要一个新工人。
现在吉斯莫先生正在接见萨姆,谈工作问题。
吉斯莫:
我们这里报酬不错。
平均薪金是每周300美元。
你在学徒期间每周得75美元,不过很快就可以加工资。
萨姆工作了几天之后,要求见厂长。
萨姆;你欺骗我!
我已经找其他工人核对过了,没有一个人的工资超过每周100元。
平均工资怎么可能是一周300元呢?
吉斯莫:
啊,萨姆,不要激动。
平均工资是300元。
我要向你证明这一点。
吉斯莫:
这是我每周付出的酬金。
我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。
总共是每周6900元,付给23个人,对吧?
萨姆:
对,对,对!
你是对的,平均工资是每周300元。
可你还是蒙骗了我。
吉斯莫;我不同意!
你实在是不明白。
我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。
萨姆:
每周100元又是怎么回事呢?
吉斯莫:
那称为众数,是大多数人挣的工资。
吉斯莫:
老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。
萨姆:
好,现在我可懂了。
我……我辞职!
第一节算术平均数(MEAN)
注意:
对求和符号,此时流动脚标的变动范围是1,2,3,…,N,N是总体单位数。
[例]求74、85、69、9l、87、74、69这些数字的算术平均数。
注意:
对求和符号,此时流动脚标的变动范围是1,2,3…,n,n是组数,而不是总体单位数。
很显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频数)的影响。
由于对于总体的影
响要由频数(f)大小所决定,所以f也被称为权数。
值得注意的是,在统计计算中,权数不仅用来衡量总体中各标
志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:
绝对数(频数)和相对数(频率)。
这样一
来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。
[例]求下表(单项数列)所示数据的算术平均数。
对于组距数列,要用每一组的组中值权充该组统一的变量值。
[例]求下表所示数据的的算术平均数
第二节中位数(Median)
例求54,65,78,66,43这些数字的中位数。
例、求54,65,78,66,43,38这些数字的中位数。
(2)组距数列按中位数所在组的下限:
按中位数所在组的上限:
4.四分位数
中位数所有单位被等分为两部分,因而被称为二分位数。
类似于求中位数,我们还可求出四分位数、十分
位数、百分位数。
将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分位数。
若以Q1、Q2、Q3分别代表
第一、第二、第三四分位数。
Q2即中位数,Q1、Q3的算法分别是
请从下表中指出第一四分位数和第三四分位数求出下表中的第一四分位数和第三四分数
第三节众数(Mode)
1.对于未分组资料
直接观察
首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现
的次数(或频数)呈现“峰”值,这些变量值就是众数。
2.对于分组资料
单项式:
观察频数分布(或频率分布)
组距式:
求下表中的众数
(1)众数仅受上下相邻两组频数大小的影响,不受极
端值影响,对开口组仍可计算众数;
(2)受抽样变动影响大;
(3)众数不唯一确定。
(4)众数标示为其峰值所对应的变量值,能很容易区分出单峰、多峰。
因而具有明显偏态集中趋势的频数分
布,用众数最合适。
第四节几何平均数、调和平均数(了解)
1.几何平均数Mg(geometricmean)
N个变量值连乘积的N次方根。
(不能有变量值为0)。
适用于:
(1)计算某种比率的平均数;
(2)计算大
致具有几何级数关系的一组数字的平均数,如经济指标的平均发展速度。
应该指出,用以计算几何平均数的各项数值必须大于0,否则就不能计算几何平均数或计算结果无实
际意义。
[例]求3,9,27,81,243这些数字的几何平均数。
2.调和平均数Mh(harmonicmean)
N个变量值倒数算术平均数的倒数,也称倒数平均数。
适用于:
掌握的情况是总体标志总量而缺少总体
单位数的资料时。
简单调和平均数
加权调和平均数
3.各种平均数的关系
(1)当总体呈正态分布时:
(2)当总体呈偏态分布时:
中位数总在均数和众数之间
正偏:
负偏:
(注:
和合称位置平均数)
(3)皮尔逊发现,在钟形分布的偏态不大显著时,、、
三者大致构成一个比较固定的关系:
第五章离中趋势测量法
例如有A、B、C、D四组学生各5人的成绩如下:
A组:
60,60,60,60,60
B组:
58,59,60,61,62
C组:
40,50,60,70,80
D组:
80,80,80,80,80
数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标如按数量关系来分有以下两类;
凡用绝对数来表达的变异指标,统称绝对离势;
凡用相对数来表达的变异指标,统称相对离势;
第一节全距与四分位差
1.全距(Range)
[例]求74,84,69,91,87,74,69这些数字的全距。
[解]把数字按顺序重新排列:
69,69,74,74,84,87,91,显然有
R=Xmax–Xmin=91—69=22
2.四分位差(Quartiledeviation)
第三四分位数和第一四分位数的半距。
避免全距受极端值影响大的缺点。
第二节平均差(Meanabsolutedeviation)
要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计
算各变量值与算术平均数的离差。
平均差是离差绝对值的算术平均数。
(meandeviation)
1.对于未分组资料
A·D=
2.对于分组资料A·D=
3.平均差的性质
[例1]试分别以算术平均数为基准,求85,69,69,74,87,91,74这些数字的平均差。
[例2]试以算术平均数为基准,求下表所示数据的平均差。
第三节标准差(standarddeviation)
求72、81、86、69、57这些数字的标准差。
2.对于分组资料
[例]调查大一男生60人的身高情况如下表所示,求他们身高的标准差。
[解]因为是分组资料,计算标准差运用加权式,并
参见下表
标准差是反映总体各单位标志值的离散状况和差异程度的最佳测度。
(1)以算术平均数为基准计算的标准差比以其他任何数值为基准计算的标准差要小。
“最小二乘方”性质——
各变量值对算术平均数的离差的平方和,必定小于他们对任何其他数偏差的平方和。
(2)它将总体中各单位标志值的差异全包括在内,受抽样变动影响小。
但在受极端值影响以及处理不确定组
距方面,缺点同算术平均数。
值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。
所谓方差,即标准差的
平方,它直接写成。
也常被称为变异数。
4.标准分(standardscore)
以离差和标准差的比值来测定变量与的相对位置。
使原来不能直接比较的离差标准化,可以相
互比较,加、减、平均。
Z分数也有标准正态变量之称。
按Z值大小编制出的正态分布表,其用途十分广泛。
Z分数的性质:
第四节相对离势
上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝对离势。
但欲比较具有不
同单位的资料的参差程度,或比较单位虽相同而均值不相同的资料的参差程度,离势的绝对指标则很可能
导致某些错误结论。
所以,我们还得了解和学习相对离势。
全距系数
全距系数是众数据的全距与其算术平均数之比,其计算公式是
平均差系数
平均差系数是众数据的平均差与其算术平均数之比,其计算公式是
标准差系数
标准差系数是众数据的标
准差与其算术平均数之比,其计算公式是
异众比率能表明众数所不能代表的那一部分变量值在总体中的比重。
2.异众比率
所谓异众比率,是指非众数的频数与总体单位数的比值,用V·R来表示
其中:
为众数的频数;是总体单位数
例1:
某项调查发现,现今三口之家的家庭最多(32%),求异众比率。
某开发商根据这一报导,将房
屋的户型大部分都设计为适合三口之家居住的样式和面积,你认为如何呢?
例2:
设为测体重,得到成人组和婴儿组各100人的两个抽样总体。
成人组平均体重为65千克,全距为10千
克;婴儿组平均体重为4千克,全距为2.5千克。
能否认为成人组体重的离势比婴儿组体重的离势大?
例3:
对一个群体测量身高和体重,平均身高为170.2厘米,身高标准差为5.30厘米;平均体重为70千克,
体重标准差为4.77千克。
比较身高和体重的离散程度。
3.偏态系数
偏斜系数是以标准差为单位的算术平均数与众数的离差,其取值一般在0与土3间。
偏斜系数为0表示对称分布,偏斜系数为或则表示极右或极左偏态。
第六章概率与概率分布
第一节基础概率
概率论起源于17世纪,当时在人口统计、人寿保险等工作中,要整理和研究大量的随机数据资料,这就需要一种专门研究大量随机现象的规律性的数学。
参赌者就想:
如果同时掷两颗骰子,则点数之和为9和点数之和为10,哪种情况出现的可能性较大?
例如17世纪中叶,贵族德¡¤梅尔发现:
将一枚骰子连掷四次,出现一个6点的机会比较多,而同时将两枚
掷24次,出现一次双6的机会却很少。
概率论的创始人是法国的帕斯卡(1623—1662)和费尔马(1601—1665),他们在以通信的方式讨论赌博的机率
问题时,发表了《骰子赌博理论》一书。
棣莫弗(1667—1754)发现了正态方程式。
同一时期瑞士的伯努利(1654一
1705)提出了二项分布理论。
1814年,法国的拉普拉斯(1749—1827)发表了《概率分析论》,该书奠定了古典概
率理论的基础,并将概率理论应用于自然和社会的研究。
此后,法国的泊松(1781—1840)提出了泊松分布,德
国的高斯(1777—1855)提出了最小平方法。
在统计学中,我们把类似掷一枚硬币的行为(或对某一随机现象进行观察)称之为随机试验。
随机试验必须符合以下三个条件:
①它可以在相同条件下重复进行;②试验的所有结果事先已知;③每次试验只出现这些可能结果中的一个,但不能预先断定出现哪个结果。
[例]对掷一颗骰子的试验,我们研究如下事件:
①A为“点数是3”;②B为“出现奇数点”;
③C为“出现点数不超过6”;④D为“点数是7”。
[解]因为Ω={1,2,3,4,5,6},所以
①A={3},为简单事件;
②B={1,3,5},为复合事件;
③C={1,2,3,4,5,6},为必然事件;
④D={7},为不可能事件。
2.事件之间的关系
(1)事件和(Orconjunction)——事件A与事件B至少有一个事件发生所构成的事件C称为A
与B的事件和,记作
(2)事件积(As-well-asconjunction)——事件A与事件B同时发生所构成的事件C称为A与B
的事件积,记作
(3)事件的包含与相等——事件A发生必然致事件B发生,则称为B包含A记作
(4)互斥事件——事件A和事件B不能同时发生,则称B和A是互斥事件,或互不相容事
件,记作
(5)对立事件——事件A与事件B是互斥事件,且在一次试验中必有其一发生,称A与B为
对立事件(逆事件),记作
(6)相互独立事件——事件A的发生与事件B是否发生毫无关系,称A与B为相互独立事
件,记作
之间的两关系随机事件
[例]掷两枚均匀的硬币,①求“两枚都朝上”的概率;②求“一枚朝上,一枚朝下”的概率。
这样对于含有m个样本点的事件A,其出现的概率为
4.经验概率
求算概率的另一途径是运用频率法。
设想有一个与某试验相联系的事件A,把这个试验一次又一次地做下去,每次都记录事件A是否发生了。
假如做了n次试验,而记录到事件A发生了m次(即成功m次),则频数与试验次数的比值,称作次试验中事件A发生的频率
显然,频率具有双重性质:
随机性和规律性.
当试验或观察次数趋近于无穷时相应频率趋于稳定,这个极限值就是用频率法所定义的概率,即
频率稳定到概率这个事实,给了“机会大小”即概率一个浅显而说得通的解释,这在统计学上具有很重要的意义。
坚持这种观点的统计学派也就被称为频率学派。
2.加法规则
如果事件A和事件B互斥,那么
如果A和B是任何事件(不一定互斥),加法规则更普通地表示为如下形式
[例]从一副普通扑克牌中抽一张牌,求抽到一张红桃或者方块的概率。
[例]在一副52张扑克牌中,求单独抽取一次抽到一张红桃或爱司的概率。
加法规则可推广到对两个以上的事件,若事件A,B,C…K都互斥,那么有
P(A或B或C…或K)=P(A)+P(B)+P(C)…+P(K)
[例]根据上海市职业代际流动的统计,向下流动的概率是0.07,静止不动的概率是0.6,求向上流动的
概率是多少?
[例]为了研究父代文化程度对子代文化程度的影响,某大学统计出学生中父亲具有大学文化程度的占
30%,母亲具有大学文化程度的占20%,而双方都具有文化程度的占有10%,问从学生中任抽一名,父代
至少有一名具有大学文化程度的概率是多少?
3.乘法规则
式中符号和代表条件概率。
应理
解为,“在B已经发生条件下A发生的概率”。
条件概率的意思是,A发生的概率可能与B是否发生有关系。
换言之,B已经发生时A发生的概率可能有别于B没有发生时A发生的概率。
理解统计独立的概念,对于灵活运用概率的乘法规则
很重要。
现在用条件概率来加以表达,统计独立是指
若A和B在统计上相互独立(无关),这时乘法规则可以简化为
[例]假定有下列3000个社区的数据,如果随机地从这
个总体中抽取一个社区,得到一个中等的而且犯罪率
低的社区的概率是多少?