第9讲+警惕统计陷阱.pptx

上传人:b****2 文档编号:2681861 上传时间:2022-11-07 格式:PPTX 页数:66 大小:2.99MB
下载 相关 举报
第9讲+警惕统计陷阱.pptx_第1页
第1页 / 共66页
第9讲+警惕统计陷阱.pptx_第2页
第2页 / 共66页
第9讲+警惕统计陷阱.pptx_第3页
第3页 / 共66页
第9讲+警惕统计陷阱.pptx_第4页
第4页 / 共66页
第9讲+警惕统计陷阱.pptx_第5页
第5页 / 共66页
点击查看更多>>
下载资源
资源描述

第9讲+警惕统计陷阱.pptx

《第9讲+警惕统计陷阱.pptx》由会员分享,可在线阅读,更多相关《第9讲+警惕统计陷阱.pptx(66页珍藏版)》请在冰豆网上搜索。

第9讲+警惕统计陷阱.pptx

现代社会调查方法现代社会调查方法第九讲第九讲警惕警惕统计陷阱统计陷阱蒙提霍尔问题/三门问题MontyHallproblem出自美国的电视游戏节目LetsMakeaDeal。

问题名字来自该节目的主持人蒙提霍尔。

参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。

当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。

主持人其后会问参赛者要不要换另一扇仍然关上的门。

那么问题来了:

换另一扇门会否增加参赛者赢得汽换另一扇门会否增加参赛者赢得汽车车的概率?

的概率?

参赛者选择汽车(1/3概率)参赛者选择A羊(1/3概率)主持人挑出任一只羊主持人必须挑出B羊参赛者选择B羊(1/3概率)主持人必须挑出A羊参赛者最初选择时有1/3的相同概率选择汽车、A羊和B羊,转换后的获胜概率为2/3。

解释:

解释:

当你从三扇门中选了门1后,这扇门后面有奖的几率是1/3,另两扇门是2/3。

但接下来主持人给了你一个线索。

如果奖品在门2后,主持人将会打开门3;如果奖品在门3后,他会打开门2。

所以如果你改选的话,只要奖品在门2或门3后你就会赢,两种情况你都会赢!

但是如果你不改选,只有当奖品在门1后你才会赢。

总结:

总结:

概率概率存在于被给予的条件下,概率不存在于被给予的条件下,概率不能寄托在实际的物体上。

能寄托在实际的物体上。

霍桑效应HawthorneEffect20世纪20年代,位于美国芝加哥城郊外的西方电器公司的霍桑工厂,是一家制造电话机的专用工厂,它设备完善,福利优越,具有良好的娱乐设施、医疗制度和养老金制度。

但是工人仍然愤愤不平,生产效率也很不理想。

为此,1924年美国科学院组织了一个包括各方面专家在内的研究小组,对该厂的工作条件和生产效率的关系,进行考察和实验,就此拉开了著名的霍桑实验的序幕。

1927年至1933年,由哈佛大学心理家乔梅约(GeorgeMayo)教授为首的研究小组进行了第二回合的实验研究。

实验最开始研究的是工作条件与生产效率之间的工作条件与生产效率之间的关系关系,包括外部环境影响条件(如照明强度、湿度)以及心理影响因素(如休息间隔、团队压力、工作时间、管理者的领导力)。

研究意外发现,各种试验处理对生产效率都有促各种试验处理对生产效率都有促进作用进作用,甚至当控制条件回归初始状态时,促进作用仍然存在。

这一现象发生在每一名受试验者身上,对于受试验者整体而言,促进作用的结论亦为真。

显然,实验假设的各项条件并非是唯一的或决定性的生产效率影响因素。

对此,梅奥团队所做的解释是,受试者对于新的实验测试会产生正向反应,即由于环境改变(研究者的出现)而改变行由于环境改变(研究者的出现)而改变行为。

为。

所以绩效的提高,并非由实验条件造成,而绩效的提高,并非由实验条件造成,而是自身的是自身的反应。

反应。

这一效果即所谓的“霍桑效应霍桑效应”。

由于受到额外的关注而引起绩效或努力上由于受到额外的关注而引起绩效或努力上升的情况我们称之为升的情况我们称之为“霍桑效应霍桑效应”,也就是所谓的“宣泄效应”。

在此之前的管理学把人假设为“经济人”,认为金钱是刺激积极性的唯一动力;霍桑实验首次证明了人是“社会人”,是复杂的社会关系的成员,因此,要调动工人的生产积极性,还必须从社会、心理方面去努力。

统计数字会撒谎HowtoLiewithStatistics作者:

美达莱尔哈夫(DarrelHuff)统计数字会撒谎1.内在有偏内在有偏的的样本本2.精心挑精心挑选的平均数的平均数3.没有披露没有披露的数据的数据4.毫无意毫无意义的工作的工作5.令人惊奇令人惊奇的的图形形6.一一维图形形的的滥用用7.不完全匹不完全匹配的配的资料料8.相关关系相关关系的的误解解9.如何如何反反驳统计资料料1.内在内在有偏的有偏的样本样本Thesamplewiththebuilt-inbias示例示例1:

“6月15日,人工智能公司iPIN.com在北京发布了2015年中国大学薪酬排行榜,清华大学高居榜首,复旦大学和上海财经大学分列二三位。

据介绍,这份薪酬排行榜是根据来自招聘和猎头根据来自招聘和猎头公司的公司的4000万大学毕业生真实毕业去向数据分析万大学毕业生真实毕业去向数据分析所得所得,由各大学毕业五年薪酬指数计算所得毕业五年薪酬指数计算所得。

”转自新浪教育频道,2015年6月16日示例示例2:

“近年来,湖南衡阳亲子鉴定人数越来越多。

衡阳市中心医院病理科法医伍先生介绍,去年1月至今年7月,前来咨询做亲子前来咨询做亲子鉴定的约有鉴定的约有100例,其中不是亲生的占例,其中不是亲生的占35%。

亲子鉴定35%非亲生,如果这个数据确凿,确实令人惊讶。

尽管社会的开放度提升了,但这个比例实在太高了。

这个问题非常严重,一定要想办法解决。

”潇湘晨报2013年7月28日示例示例3:

“据杜蕾斯的一项全球调查显示,男人男人一一生平均有生平均有13个性伴侣,而女人的(性伴侣)个性伴侣,而女人的(性伴侣)只有只有7个。

个。

”男人真的比女人花心?

转自搜狐网男人频道,2013年1月11日小结:

小结:

究竟调查了多少样本?

多少人愿意回答调查问卷?

调查问卷基本是那些现在还能取得联系而且愿意回答这些问题的人“垄断”,基本没什么意义。

你只能调查你看得到的你只能调查你看得到的人们在回答问题的时候也不会真的说真话,可能会美化自己的形象,或者迎合提问者的偏好。

人格面具不可避免(尤其是面人格面具不可避免(尤其是面访时)访时)无论如何,只要只要有可能的有可能的误差(有形的、误差(有形的、无形的),你无形的),你都应该对结论保持怀疑的都应该对结论保持怀疑的态态度。

度。

可以刻意造成的误差:

调查对象的年龄层、调查地点(大商场大多是年轻人,高级酒店大多是商务人士)、调查时间(早、晚)。

场景场景要要匹配匹配从总体中抽出的样本(第一次抽样)远不从总体中抽出的样本(第一次抽样)远不能称为随机抽样,因此可能对所有的总体能称为随机抽样,因此可能对所有的总体都不具有显著的代表性都不具有显著的代表性。

被调查的样本是否具有代表性,是否能代被调查的样本是否具有代表性,是否能代表未参加调查的表未参加调查的样本?

样本?

统计统计中会出现两种趋势:

夸大和缩小中会出现两种趋势:

夸大和缩小。

两种趋势相互抵消的可能性极小。

一般,一种趋势会强过另一种趋势,我们很难猜测哪种趋势胜出根据根据样本得到的结论,不会比样本更精确。

样本得到的结论,不会比样本更精确。

看到精确的统计数据时,要思考统计的过程是什么样的。

为了确保结论有价值,要采用有代表性的为了确保结论有价值,要采用有代表性的样本,这样才能排除各种样本,这样才能排除各种误差。

误差。

心理学家说:

人都点神经质从病例的数量来看,确实可以证明但病人在正常人中的比例是多少,正常人是不看心理医生的最最基本的样本是随机样本,它是指完全遵基本的样本是随机样本,它是指完全遵循随机选择从总体中选出的循随机选择从总体中选出的样本样本,总体即形成样本的母体。

随机样本的检验方法是,总体中的每个名总体中的每个名字或事物是否有相同的几率被选进字或事物是否有相同的几率被选进样本?

样本?

纯纯随机样本是唯一有随机样本是唯一有足够把握经受统计理足够把握经受统计理论审查的论审查的样本样本,样本选取难度大,成本昂贵。

分层分层随机抽样是一个更经济的替代品随机抽样是一个更经济的替代品,通过准备好内部所有单位的名单,只调查被随机抽中的单位。

示例示例4:

1936年,共和党人兰登与当时的总统罗斯福竞选下届总统美国,文学文摘(LiteraryDigest)这家颇有声望的杂志承担了选情预测的任务。

此前,它已经成功地预测了5次总统选举的结果。

当时采用的是邮寄问卷的办法,调查人员雄心勃勃,从电话号码簿里和本杂志的订户中选取了需要邮寄问卷的对象1000万个,覆盖四分之一的选民。

杂志最终收到了惊人的240万份回执,在统计计算完成以后,它预言兰登将击败寻求连任的罗斯福总统,然而这次调查的结论和实际的结果大相径庭,结果却是罗斯福以压倒多数再次当选。

2.精心精心挑选的挑选的平均数平均数Thewell-chosenaverage示例示例1:

“2012年底,城镇和农村人均住人均住房面积房面积32.9平方米、平方米、37.1平方米平方米,分别比2007年增加2.8平方米和5.5平方米。

”温家宝:

政府工作报告,第十二届全国人大一次会议,2013年3月25日质疑:

质疑:

“32.9平方米”这个数字表明我国“全面小康”中含金量最大的一块住房小康已经基本实现(主要指标为:

到2010年城镇人均住房建筑面积达到30平米,到2020年达到35平米),标志着我国城镇居民的住房问题基本解决。

真相果真如此吗?

又被平均了?

这并非“民生话题”,而是一个再简单不过的“算术问题”。

让我们来算一算根据国家统计局2012年度统计年报,到2012年底,“全国大陆总人口为135404万人,其中城城镇人口为镇人口为71182万万人人”。

71182万乘以人均32.9平方米的住房面积,意味着全国城镇到2012年底拥有的全部住房应该为2341887.8万平方米(约234.2亿平方米)。

然而,根据原建设部公布的2002年底全国城镇存量住宅面积,加上中国统计年鉴公布的2003-2012年全国城镇住宅竣工的总面积,可得全国全国城镇总的住宅总面积为城镇总的住宅总面积为155.49亿亿平方米平方米。

可知,用官方公布的统计数据计算,城镇人均住房面积仅有21.8平方米平方米,远低于政府工作报告所称的32.9平方米。

何为“平均”?

提问:

一条河的平均深度是0.8米,一个小孩身高1.3米,他虽然不会游泳,但肯定不会在这条河里淹死。

对吗?

为什么?

示例示例2:

富有的邻居:

一个人声称社区居民的年平均收入为15万元,同时另一个人则说社区年平均收入是3.5万元。

两个人都对,为什么?

邻居居年收入(万元)年收入(万元)老张100老李22.5老王8老赵6老钱4老孙3老杨2老吴2老周1.5老郑1均均值15万万中位数中位数3.5万万众数众数2万万小结:

小结:

三者关系:

三者关系:

平均数(Arithmeticmean)为一个平衡点,是一组数据的重心。

它使数轴保持平衡,即支点两侧的力矩是相等的。

中位数(Median)只使其两侧的数据个数相同。

众数(Mode)是指次数出现最多的,重量较大的那个数据。

正态分布的钟型曲线,正态分布的钟型曲线,三个数落三个数落在相同点在相同点上。

上。

例如人类身高、体型订制校服订制校服长尾长尾曲线(偏态分布),曲线(偏态分布),三种数值相差甚三种数值相差甚远。

远。

三者比较:

三者比较:

比比较的的项目目平均数平均数中数中数众数众数适用数据适用数据类型型定距、定比定序、定距、定比定类、定序、定距、定比计算算需要所有的数据只需中间数据计算迅速算迅速进一步运一步运算特性算特性可以不可以不可以受抽受抽样的的影响影响较少较大较大受分受分组的的影响影响不大较大最大最大受极端数受极端数据的影响据的影响最最严重重最少一般适用适用场合合一般情况都用平均数有极端数据时;当两端数据或个别数据不清楚时;快速估计代表值时。

有极端数据时;数据不同质找典型;快速估计代表值时;估计分布形态时。

示例示例3:

“截至2011年8月,中国家庭资产平均为121.69万元,城市家庭平均为247.60万元,农村家庭平均为37.70万元。

”中国家庭金融调查与研究中心:

中国家庭金融调查报告,2012年3.没有没有披露的披露的数据数据Thelittlefiguresthatarenotthere示例示例1:

经科学验证,高露洁360牙膏能减少口腔细菌滋生,效果最高高出效果最高高出75%*,有效对抗八大口腔问题。

*数据来自高露洁研究资料。

与高露洁普通含氟牙膏相比。

高露洁官网没有披露的数据:

1.样本容量样本容量:

10个还是100个?

2.实验过程实验过程:

测试对象选取、持续时间?

来做一个小实验:

每人拿出一枚硬币,连续抛10次,记录正面(数字)朝上的次数。

四种可能性:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 英语

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1