大数据读书报告Word文档下载推荐.docx
《大数据读书报告Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《大数据读书报告Word文档下载推荐.docx(15页珍藏版)》请在冰豆网上搜索。
我对这个观点还是比较认同的,如果真能收集到整体的数据而且分析数据的工具也足够先进,自然是全体数据研究得出的结果更令人信服。
但是这个观点也过于绝对,就算是在大数据时代要想收集到全体数据还是不太可能实现的,因为收集全体数据要付出的代价有时会很大。
比如说,你要检测食品中致癌物质是否超标,你不可能每一件食品你都检测一遍吧。
第二,要效率不要绝对的精确。
作者说,执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的。
如果不接受混乱,剩下95%的非结构化数据都无法被利用。
作者是基于数据不可能百分之百正确的考虑而做出这样的判断的,如果采用小数据一个数据的错误就会导致结果的误差很大,但是如果数据足够多、数据足够杂那得出的结果就越靠近正确答案。
大数据时代要求我们重新审视精确性的优劣,甚至还说到大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
谷歌翻译的成功很好地证明了这一点,谷歌的翻译系统不像candide那样精确地翻译每一句话,它谷歌翻译之所以优于ibm的
candide系统并不是因为它拥有更好的算法机制,和微软的班科和布里尔一样,谷歌翻译增加了各种各样的数据,并且接受了有错误的数据。
第三个观点,不是因果性,而是相关性,这是这本书中争议最大的一个观点,不仅是读者,就算是本书的译者也在序言中明确地说到他不认同"
相关关系比因果关系更重要"
的观点。
作者觉得相关关系对于预测一些事情已经足够了,不用花大力气去研究他们的因果关系。
作者用林登的亚马逊推荐系统的成功,证实了大数据在分析相关性方面的优势以及在销售中获得的成功。
沃尔玛也是充分利用并挖掘各类数据信息的代表,从啤酒和尿布的案例,以及作者举的有
关蛋挞和飓风天气的案例,都说明了掌握了相关关系对于他们策略的帮助。
一句话,知道是什么就够了,不用知道为什么。
很明显作者所举的例子都是属于商业领域的,但是对于其他领域来说这个观点就值得商榷了。
比如说,在科学研究领域,你需要知其然也需要知道其所以然,找到事件发生的原理。
用文中的一个例子说明,乔布斯测出整个基因图谱来治疗癌症,但是你治疗癌症你必须知道癌症发病的原理,知道哪一段基因导致了这种疾病,不可能只是说收集各种数据,然后利用其相关性来判断哪里出现了问题
作者在书中把大数据说的很厉害,在最后一部分分析大数据带来无数好处的同时带来的不良影响以及如何面对这些影响。
用麦克纳马拉的例子来说明对数据过度依赖所带来的后果。
也用《少数派的报告》这部电影来说明如果痴迷于数据会导致我们将生活在一个没有独立选择和自由意志的社会,如果一切变为现实,我们将被禁锢在大数据的可能性之中。
所以书中提出了几种解决方法,一种是使用数据时征询数据所有个人的知晓和授权。
第二个技术途径就是匿名化。
毫无疑问,大数据将会给社会管理带来巨大的变革。
大数据给人类社会的方方面面带来了巨大的变革,这是社会发展的潮流,不可逆转,我们只有顺应这种潮流,在思想上和技能上做好准备才能成为时代的弄潮儿。
对于一家公司或一个国家,要从根本上改变思维和观念,尽早适应这种潮流。
最后,附上一段来自原著的结语:
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。
大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。
篇二:
《大数据时代》读书报告
读书报告
--读《大数据时代》
坦白地说,这是我第一本看了睡不着的书,我还记得第一次阅读时的兴奋和激动,就像一场头脑风暴。
书里的事例是那么的鲜活与生动,完全颠覆我的思维方式,打破了我大脑中解决问题原有的枷锁。
这本书让我明白了太多~~~
它让我明白生活必须要主动。
有些人碰到了不公就自认倒霉,能干一点的可能还会去讨个说法,但并没有解决实际问题,这一次可能挽回了那么一点点的损失,但下次遇到了仍是如此,无限循环。
当你绞尽脑汁为了节约成本而提前一个月去购买一张你自以为廉价的飞机票,回头却发现,比那些只提前一天购买的人所付的钱还要高出很多时,不知你会怎么想?
是被动的接受还是想方法让现实变得更美好?
它让我更好地去理解现实生活的很多情况。
现在才理解,为什么网络上有这么多验证码的存在,为什么社交网要用实名制注册,为什么有这么多的"
我猜你喜欢"
~~~
虽然我很喜欢那些"
黑匣子"
,会让我感觉很神奇,但当我真正理解的他的原理时,其实更让我兴奋不已。
原来谷歌翻译背后是这样操作的,原来那些每天时不时闯进我们眼球的广告并非偶然,原来预测流感不需要疾控中心而是网络词条,原来电影在开播前就已经知道了收视率和票房~~~
当然以上这些相当抓人眼球,但这只是大数据的表面,其真正的价值远不仅如此。
人类总是以为自己很强大,能控制一切,当然最好还能预测未来。
其实大数据真的可以做到,虽然不可能很精确。
在我看来这样更好,大致结果可以意料,这就够了,如果发现结果不尽如人意,我们可以提前控制。
当然还会有我们意想不到的情况发生,这样会让未来更充满想象,更加充满期待。
它让我懂得不能墨守成规,也不能自以为是。
大数据环境是那些微型企业发展的福地,它是行业竞争重新洗牌的动力源泉。
在大数据面前,小公司不需要妄自菲薄,大的商业帝国也只有打气十二分的精神才可能让自己立于不败之地。
他让我知道没有做不得,只有想不到。
现在的赚取资本的方式已经不再是单靠苦力就可以解决问题的时代了,看见朋友圈里的那些做代购的,都在自我催眠"
不要看我们现在是微商~~~微商将来前途无量~~~·
"
我一直都抱着看看不说话的心态,难免也会哂笑,真的不知道他们和菜场卖菜的有什么本质区别~~~现在是一个依靠知识科技来富国强兵的时代了,真正的优势来源于你提前想到了别人还没去想的,提早完成了别人还没有筹备的计划。
他让我学会世界上没有光杆司令,我们必须学会合作。
一个人的能力是有限的,一个人的时间也是有限的,同样公司,国家都是一样的。
我们知道谷歌,亚马逊,facebook以及中国的阿里巴巴,XX,新浪这些企业都很强大,可是他们仍然在不断收购合并整合其他一些小的公司,为的是引用他们的科技技术来强大自己的事业版图。
它还教会我在机会面前必须要眼疾手快。
在你还在犹豫不决或是自我陶醉的时候,你的对手已经用一个非常低廉的价格得到了他想要翻身的王牌,当你发现时,要么花大血本去换取一张相似的王牌,要与他赤身搏斗。
大部分情况下那些聪明的人往往会选择前者,因为他们知道宁可为自己现在的失误埋单也不会让自己靠近万丈深渊。
因为若丧失了主动权,那么很有可能导致的结果就是,那个原来看起来微不足道的"
小木桩"
却扳倒了你这体积庞大的"
大象"
。
说了这么多大数据给我的启示,其实就是想突出大数据背后的那种神奇的力量。
在近代我们似乎与每一样新的科技都失之交臂,但是这一次我们似乎还有机会和时代同步伐,甚至如果我们足够重视,可能还会走在时代的前沿。
虽然我们现在谁都没有把握中国到底会利用大数据到什么程度,但已经有好多像周涛一样的有志之士看好中国在利用大数据上的实力,并且付诸了他们的努力。
他们一直都坚信以前的落后仅仅是时间上的后知后觉,他们在这一次想
要做到与世界同步,和欧美同步发行此书,在最早一刻就向大家推广大数据这一新名词,向大家灌输着大数据的思维。
对此,我也很庆幸,在恰当的时间点与大数据的偶遇。
当然,世界上没有十全十美的东西,再好的发明总是有它的缺陷,大数据也不会例外。
舍恩伯格这个对大数据最有权威发言权的人,既然有能力将大数据的好处讲得淋漓尽致,毫无疑问自然也是最清楚大数据危险的人。
我很尊敬他的严谨和坦诚,他在细致入微地解释大数据革命性优势的同时,毫无修饰地点明了大数据的劣根性。
他很准确地说明了如果我们滥用或误用数据,我们将会受到毁灭性的打击,后果将会如何不堪设想,并且这篇幅一点都不敷衍。
作者非常专业,他并没有像某些专家一样,一味地鼓吹自己的"
一家之言"
而是在我们头脑发热,一哄而上之前,就给我们非常而且深刻的警醒。
这也正是大数据思维的其中之一:
馈前控制。
读完这本书以后,我有的确一点蠢蠢欲动,因为它让我觉得大数据并没有像想象的那么遥不可及。
书中说,会好好利用大数据的有三种人:
第一种是拥有庞大数据库的政府或者商业机构,他们之前只是不知道那些尘封已久的数据还可以创造巨大的价值。
第二种是利用技术手段,让数据发挥它独特功能,从而帮他们解决实际问题的数据分析学家,统计师,精算师和其他一些有关于处理数据的相关人员,他们非常了解数据的状态,结构和特征。
的确这两类人实力雄厚,前者拥有数据本身,而后者拥有技术。
但他们有着同样的短板,那就是他们没有更为创新,灵动的视野,他们很难或者说没有更多的时间去发现那些数据的真正力量。
因为他们有太多的思维定式,但种种利用大数据的成功事例表明,每次数据创造的奇迹总在那么的偶然和不经意之间。
而这正是我们第三种人的长处,我们没有思维定式,更有闲暇的时间来感受生活,激发灵感。
篇三:
《大数据》读书笔记
《大数据》读书笔记
版本介绍
书名:
《大数据》作者:
涂子沛
出版社:
广西师范大学出版社
副标题:
正在到来的数据革命,以及它如何改变政府、商业与我们的生活(2.0升级版)出版年:
2013-11
页数:
362
字数:
242千字
开本:
700mm*1000mm1/16
定价:
49.90元
isbn:
9787549518371
作者介绍
学术界评价
大数据具有催生社会变革的能量。
但释放这种能量。
需要严谨的数据治理、富有洞见的数据分析,以及一个激发管理创新的环境。
涂子沛的《大数据》这本书总结了美国的经验和实践,并为中国提出了一个路线图。
我为他的成就感到骄傲。
这本书完整地融合了技术、政治、商业三个角度,体现了我们学院师资教学的独特优势。
我相信本书会在中国激发新的思想和讨论,帮助中国迎接大数据的挑战。
---ramayyakrishnan(卡内基梅隆大学海因兹学院及信息管理学院院长、终身教授)《大数据》是一本视角独特、取材新颖、别开生面的好书。
它以数据位轴线,描绘了美国走过的开放创新历程。
从该历程中我们看到,数据挖掘是一种知识生产过程,从中产生创新,产生管理,产生推动社会变革的理论与实践。
更有意思的是,美国政治的发展,公民权利的实现,以及各种自由与福利的保障,都和对数据的创造性应用密切相关。
这对已经步入信息时代的中国,尤其有借鉴意义。
趋势所在,数据乃大。
涂子沛先生的专业性分析和介绍,
是一项创造性的工作。
---魏巍青(中山大学政治与公共事务管理学院教授)
内容概要
本书通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例--奥巴马建设"
前所未有的开放政府"
的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,以及云计算、facebook和推特等社交媒体、web3.0与下一代互联网的未来图景等等,细解了数据创新给公民、政府、社会带来的种种挑战和变革。
"
美国是全书主体,但又处处反观中国当下的现实。
回望中国,胡适批评"
差不多先生"
,黄仁宇求索"
数目字管理"
,作者从太平洋对面看到中美两国的差距,深知中国缺少什么、需要什么,故将十多年观察、思索所得,淘洗成这一本书。
分析评价
此书的一个重要特点就是全书以美国为例贯穿始终,讲述了美国如何利用数据改变自身,可是作为读者的我们又不得不面对中国的现实,所以对比是不用明说大家就会自行进行的。
数据改变世界,但是作者通过一个个例子有告诉我们,数据并不仅仅是数据,改变世界的也不是数字,而是数据组合背后的信息量。
书中处处讲国家决策,可是个人阅读的时候需要将自身情况带入,但又要考虑时代,能不能理解为需要理解力呢?
师夷长技以制夷,美国虽然一定程度上是中国的对手,但是在大数据到来的时代我们必须"
追随"
它的脚步,学习大数据的进程,就好像一个工具的使用说明书,学会用它,你才有可能比别人用的更好。
对读者的启发
作者在概念化"
大数据"
,这样一个泛化的理论在普及时会给人以"
不明觉厉"
(不知道怎么回事但是感觉很厉害)的印象,有助于推广,也有助于畅销书的卖座。
但是作为读者我认为必须要理解什么是真正的大数据。
我理解的大数据,按照作者所言,它的终极应该是一种宏观规律。
可以这么理解,宏观规律是一直客观存在的,这个规律只要遵循就能让事情按照最顺利的方式进行。
但是人们并不知道这个规律,因为他体现在大量数据堆叠中的一个宏观现象,就好像一滴一滴的水在运动,而宏观规律则是海浪的运动方向。
在古代近现代,人们缺乏大量数据的收集统计分析手段,但是在现代计算机等技术的发展下,数据尽量详细的收集和分析成为可能,这就让人们能够通过数据的分析接近宏观规律,就好像数学里通过几个点的坐标推理出函数关系一样。
但是因为宏观规律是理想的,所以理论上只能无限接近而不能完全符合,但这依然足以让获取这些数据的人得到巨大的好处,按照规律办事永远会有最节省的花费和最好的效果。
大数据时代意味着足够多足够细致的数据收集和分析,掌握大局,所谓的"
大局观"
也
具象化为一种可以判断的规律。
那么大数据时代需要的有两个方面,一个是足够的技术支持,这个是基础条件;
另一个则是对于数据的敏感程度,这关乎收集的质、量。
还有重要的一点就是大数据时代应该更加强调团队合作及人与人的交流,因为这已经不是个人能够完成的事项了,即使有计算机的帮助。
引文摘要
我们信靠上帝。
除了上帝,任何人都必须用数据来说话。
这句话在美国流传极广
我们信靠上帝"
源于美国国歌,印在货币上不说,还是美国的国家箴言。
作为一个宗教大国,美国有90%至92%的人都声称相信上帝。
除了上帝,任何人都必须用数据来说话"
,这句话吧数据提到了和上帝相提并论的高度,这反映了美国人对于数据的无比推崇。
---p062第三章:
数据治国篇四:
大数据时代读书笔记
大数据时代--读书笔记
一、引论
1.大数据时代的三个转变:
1.可以分析更多的数据,处理和某个现象相关的所有数据,而不是随机采样
2.不热衷于精确度
3.不热衷与寻找因果关系
2.习惯:
用来决策的信息必须是少量而精确的。
实际:
数据量变大,数据处理速度变快,
数据不在精确
3.危险:
不是隐私的泄露而是未来行动的预判
二、大数据时代的思维变革
1.原因:
没有意识到处理大规模数据的能力,假设信息匮乏,发展一些使用少量信息的技
术(随机采样)
1.1086年末日审判书英国对人的记载
2.约翰·
格朗特:
统计学,采样分析精确性随着采样随机性上升而大幅上升,与样本数
量关系不大
3.1890年,穿孔卡片制表机,人口普查
4.随机采样有固有的缺陷
1.采样过程中存在偏差
2.采样不适合考察子类别
3.只能得出实现设计好的问题的结果
4.忽视了细节考察
2.全数据模式:
样本=总体
1.通过异常量判断信用卡诈骗
2.大数据分析:
不用随机抽样,而是采用所有数据。
不是绝对意义而是相对意义。
(xroom信用卡诈骗,日本相扑比赛)
3.多样性的价值(社区外联系很多》社区内联系很多)
3.混杂性而非精确性
1.葡萄树温度测量:
数据变多,虽然可能有错误数据,但总体而言会更加精确。
2.包容错误有更大好处
3.word语法检查:
语料库》算法发展
4.google翻译:
让计算机自己估算对应关系,寻找成千上万对译
结论:
大数据的简单算法好过小数据的复杂算法
5.大数据让我们不执著于也无法执着于精确
6.mit的通货紧缩软件:
即时的大数据
7.标签:
不精确
8.想要获得大规模数据的好处,混乱是一种标准途经
9.新的数据库:
大部分数据是非结构化的,无法被利用
10.hadoop:
与mapreduce系统相对的开源式分布系统,输出结果不精确,但是非常快结论:
相比于依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事情的真相。
部分"
和"
确切"
的吸引力是可以理解的。
但是当我们的视野局限在我们可以分析和确定的数据上时,我们对世界的整体影响就会产生偏差和错误。
不仅失去了尽力收集一切数据和活力,也失去了从不同角度观察时间的权利。
三、不是因果是相关
1.知道是什么就够了,不需要知道为什么。
1.亚马逊放弃书评组,使用大数据预测人们的未来购书需求
2.
2.在小数据世界,相关关系有用,但是大数据背景,相关关系大放异彩。
通过找关联
物,相关关系可以帮助我们捕捉现在和预测未来
1.a和b经常一起发生,那么a发生时可以预测b发生
2.例子:
沃尔玛把飓风用具和蛋挞放在一起
3.过时的寻找关联物的方法
a)原因:
数据少且收集花时间
b)在建立,应用假想和选择关联物时容易犯错误
c)结论:
我们不需要人工选择关联物
3.大数据的相关分析法更准确,更快
1.例子:
fico我们知道你明天会做什么
2.伊百丽:
根据个人信用卡交易记录预测个人收入,防止逃税
3.aviva:
根据生活方式数据预测疾病
4.美国零售商target:
通过购买习惯预测是否怀孕
4.通过找出新种类数据的相互联系解决日常需要:
找到关联物并监控,我们可以预知未来
ups与汽车修理预测
2.新生儿健康监测:
肉眼看不到,但是计算机能看到
5.当收集分析和储存数据的成本较高时,应当适当丢弃一些数据
6.数据的非线性关系
1.幸福的非线性关系
7.快速思维模式使人们偏向于用因果关系看待周围的一切,因此经常对世界产生错误认识。
这也使大脑为了避免辛苦思考而产生的捷径。
大数据会经常被用来证明我们习惯的思维方式是错误的。
8.证明因果关系的实验开销大,难于操作;
相关关系很有用,不仅是因为能为我们提供新的视角,而且提供的视角都很清晰。
一旦我们考虑因果关系,这些视角会被蒙蔽。
9.大数据并非是理论消亡的时代。
四、一切皆可量化
1.莫里的信息交换计划:
总结所有船只的航海日志已获得好的航线,为第一根大西洋电缆奠定基础
2.坐姿研究与汽车防盗系统
3.数据化
1.把现象转变成可指标分析的量化形式的过程
2.计量和记录促成了数据:
1.阿拉伯数字
2.计数板
3.复式记账法
3.数字化与数据化的区别
google的数字图书馆:
开始使用扫描-》数字化,进而光学识别-》数
据化。
google借此改进自己的翻译
2.文化组学:
定量分析揭示人类行为
4.文字变成数据:
人可以阅读,机器可以分析
5.方位变成数据:
需要一套标准的标记系统和收集,记录数据的工具。
1.始于古希腊
2.1884年,国际子午线会议
3.1978年,全球定位系统
4.英国汽车保险
5.ups的最佳行车路线:
减少左转
6.收集用户地理位置数据,以便进行忠诚度计划。
或者可以预测交通情况
6.现实挖掘
1.处理大量手机数据,发现并预测人类的行为。
预测流感隔离区域
3.例子:
通过非洲预付费用户的位置信息和他们账户的资金,发现贫民窟是
经济繁荣的跳板