应用统计学课件(书摘)优质PPT.ppt
《应用统计学课件(书摘)优质PPT.ppt》由会员分享,可在线阅读,更多相关《应用统计学课件(书摘)优质PPT.ppt(49页珍藏版)》请在冰豆网上搜索。
产品和新型服务。
大数据是人们获得新的认知、创造文摘:
大数据是人们获得新的认知、创造新的价值的源泉;
大数据还是改变市场、新的价值的源泉;
大数据还是改变市场、组织机构,以及政府与公民关系的方法。
组织机构,以及政府与公民关系的方法。
引言引言一场生活、工作与思维的大变革一场生活、工作与思维的大变革大数据,开启重大的时代转型大数据,开启重大的时代转型故事:
天文学,信息爆炸的起源(故事:
天文学,信息爆炸的起源(p10)小知识:
小知识:
KB-MB-GB-TB-PB-EB-ZB-YB-BB-引言引言一场生活、工作与思维的大变革一场生活、工作与思维的大变革预测,大数据的核心预测,大数据的核心观点:
在不久的将来,世界许多现在单纯观点:
在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统依靠人类判断力的领域都会被计算机系统所改变甚至取代。
所改变甚至取代。
引言引言一场生活、工作与思维的大变革一场生活、工作与思维的大变革大数据,大挑战大数据,大挑战三个转变:
三个转变:
第一个转变就是,在大数据时代,我们可第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理以分析更多的数据,有时候甚至可以处理和和第一个转变就是,在大数据时代,我们第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不理和某个特别现象相关的所有数据,而不再依赖于随机采样。
这部分内容将在第再依赖于随机采样。
这部分内容将在第1章章阐述。
阐述。
第二个改变就是,研究数据如此之多,以第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。
至于我们不再热衷于追求精确度。
第二个第二个改变就是,研究数据如此之多,以至于我改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。
这部分内容将们不再热衷于追求精确度。
这部分内容将在第在第2章阐述。
章阐述。
第三个转变因前两个转变而促成,即我们第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。
不再热衷于寻找因果关系。
第三个转变因第三个转变因前两个转变而促成,即我们不再热衷于寻前两个转变而促成,即我们不再热衷于寻找因果关系。
这部分内容将在第找因果关系。
这部分内容将在第3章阐述。
引言引言一场生活、工作与思维的大变革一场生活、工作与思维的大变革第一部分第一部分大数据时代的思维变革大数据时代的思维变革第一部分第一部分大数据时代的思维变革大数据时代的思维变革CH01更多:
不是随机样本,而更多:
不是随机样本,而是全体数据是全体数据小数据时代的随机采样,最少的数据获得小数据时代的随机采样,最少的数据获得最多的信息最多的信息故事:
穿孔卡片与美国人口普查(故事:
穿孔卡片与美国人口普查(p32)观点:
统计学家们证明:
采样分析的精确观点:
采样分析的精确性随着采样随机性的增加而大幅提高,但性随着采样随机性的增加而大幅提高,但与样本数量与样本数量采样分析的精确性随着采样随采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的机性的增加而大幅提高,但与样本数量的增加关系不大。
增加关系不大。
CH01更多:
不是随机样本,而是全体数据更多:
不是随机样本,而是全体数据小数据时代的随机采样,最少的数据获得小数据时代的随机采样,最少的数据获得最多的信息最多的信息故事:
大数据与乔布斯的癌症治疗(故事:
大数据与乔布斯的癌症治疗(p36)观点:
随机采样取得了巨大的成功,成为观点:
随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。
但这现代社会、现代测量领域的主心骨。
但这只是一条捷径,是在不可收集和分析全部只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固数据的情况下的选择,它本身存在许多固有的缺陷。
有的缺陷。
不是随机样本,而是全体数据全数据模式,样本全数据模式,样本全数据模式,样本全数据模式,样本=总体总体故事:
Xoom与跨境汇款异常交易报警与跨境汇款异常交易报警(p39)观点:
观点:
【大数据洞察大数据洞察】我们总是习惯把统计抽样我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。
但是统计抽样其实只是理和万有引力定律一样。
但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。
如些特定问题而产生的,其历史尚不足一百年。
如今,技术环境已经有了很大的改善。
在大数据时今,技术环境已经有了很大的改善。
在大数据时代进行抽样分析就像是在汽车时代骑马一样。
代进行抽样分析就像是在汽车时代骑马一样。
不是随机样本,而是全体数据第一部分第一部分大数据时代的思维变革大数据时代的思维变革CH02更杂:
不是精确性,而是混更杂:
不是精确性,而是混杂性杂性允许不精确允许不精确故事:
微软与语料库数据添加(故事:
微软与语料库数据添加(p50)观点:
【大数据洞察大数据洞察】“大数据大数据”通常用通常用概率说话,而不是板着概率说话,而不是板着“确凿无疑确凿无疑”的面的面孔。
整个社会要习惯这种思维需要很长的孔。
整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。
但现在,时间,其中也会出现一些问题。
但现在,有必要指出的是,当我们试图扩大数据规有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。
模的时候,要学会拥抱混乱。
CH02更杂:
不是精确性,而是混杂性更杂:
不是精确性,而是混杂性大数据的简单算法比小数据的复杂算法更大数据的简单算法比小数据的复杂算法更有效有效故事:
无所不包的谷歌翻译系统(故事:
无所不包的谷歌翻译系统(p53)观点:
数据多比少好,更多数据比算法系观点:
数据多比少好,更多数据比算法系统更智能还要重要。
统更智能还要重要。
不是精确性,而是混杂性纷繁的数据越多越好纷繁的数据越多越好故事:
麻省理工与通货紧缩预测软件故事:
麻省理工与通货紧缩预测软件(p57)观点:
【大数据洞察大数据洞察】如今,我们已经生活在信如今,我们已经生活在信息时代。
我们掌握的数据库越来越全面,它不再息时代。
我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。
我包括了与这些现象相关的大量甚至全部数据。
我们不再需要那么担心某个数据点对整套分析的不们不再需要那么担心某个数据点对整套分析的不利影响。
我们要做的就是要接受这些纷繁的数据利影响。
我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不并从中受益,而不是以高昂的代价消除所有的不确定性。
确定性。
不是精确性,而是混杂性混杂性,不是竭力避免,而是标准途径混杂性,不是竭力避免,而是标准途径观点:
要想获观点:
要想获要想获得大规模数据带来的好处,要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免混乱应该是一种标准途径,而不应该是竭力避免的。
的。
传统的关系数据库是为数据稀缺的时代设观点:
传统的关系数据库是为数据稀缺的时代设计的,所以能够也需要仔细策划。
计的,所以能够也需要仔细策划。
不是精确性,而是混杂性新的数据库设计的诞生新的数据库设计的诞生故事:
Hadoop与与VISA的的13分钟(分钟(p63)观点:
【大数据洞察大数据洞察】大数据要求我们有所改变,大数据要求我们有所改变,我们必须能够接受混乱和不确定性。
精确性似乎我们必须能够接受混乱和不确定性。
精确性似乎一直是我们生活的支撑,就像我们常说的一直是我们生活的支撑,就像我们常说的“钉是钉是钉,铆是铆钉,铆是铆”。
但认为每个问题只有一个答案的。
但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。
一旦我想法是站不住脚的,不管我们承不承认。
一旦我们承认了这个事实甚至拥护这个事实的话,我们们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。
离真相就又近了一步。
不是精确性,而是混杂性第一部分第一部分大数据时代的思维变革大数据时代的思维变革CH03更好:
不是因果关系,而是更好:
不是因果关系,而是相关关系相关关系林登与亚马逊推荐系统林登与亚马逊推荐系统观点:
知道人们为什么对这些信息感兴趣可能是观点:
知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要。
但是,有用的,但这个问题目前并不是很重要。
但是,知道知道知道知道“是什么是什么是什么是什么”可以创造点击率,这可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商种洞察力足以重塑很多行业,不仅仅只是电子商可以创造点击率,这种洞察力足以重塑很多行业,可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。
不仅仅只是电子商务。
CH03更好:
不是因果关系,而是相关关系更好:
不是因果关系,而是相关关系关联物,预测的关键关联物,预测的关键故事:
沃尔玛,请把蛋挞与飓风用品摆在一起故事:
沃尔玛,请把蛋挞与飓风用品摆在一起(p73)观点:
【大数据洞察大数据洞察】相关关系的核心是量化两个数据值相关关系的核心是量化两个数据值之间的数理关系。
相关关系强是指当一个数据值增加时,之间的数理关系。
相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。
我们已经看到过这另一个数据值很有可能也会随之增加。
我们已经看到过这种很强的相关关系,比如谷歌流感趋势:
在一个特定的地种很强的相关关系,比如谷歌流感趋势:
在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。
相反,相关关系弱就意味着当一个数更多的人患了流感。
相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。
例如,我据值增加时,另一个数据值几乎不会发生变