数据库安全技术第6章学习指导Word文件下载.docx
《数据库安全技术第6章学习指导Word文件下载.docx》由会员分享,可在线阅读,更多相关《数据库安全技术第6章学习指导Word文件下载.docx(12页珍藏版)》请在冰豆网上搜索。
1PB=1,024TB
1EB=1,024PB
1ZB=1,024EB
1YB=1,024ZB
1BB=1,024YB
1NB=1,024BB
1DB=1,024NB
2.大数据的特征
(1)容量(Volume):
数据的大小决定所考虑的数据的价值和潜在的信息。
(2)速度(Velocity):
获得数据的速度要快。
(3)种类(Variety):
数据类型的多样性,结构化、非结构化和半结构化数据。
(4)价值(value):
大数据隐藏着巨大的价值。
3.认识大数据
(1)大数据理论
最早提出大数据时代到来的是麦肯锡:
“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。
人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
”
业界(IBM最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:
第一,数据体量巨大。
大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);
第二,数据类型繁多。
比如,网络日志、视频、图片、地理位置信息等等。
第三,价值密度低,商业价值高。
第四,处理速度快。
最后这一点也是和传统的数据挖掘技术有着本质的不同。
(2)大数据思维
维克托·
迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:
在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。
书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;
Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;
Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。
那么,什么是大数据思维?
迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;
2-关注效率而不是精确度;
3-关注相关性而不是因果关系。
阿里巴巴的王坚对于大数据也有一些独特的见解,比如,
“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。
“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。
“你千万不要想着拿数据去改进一个业务,这不是大数据。
你一定是去做了一件以前做不了的事情。
特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。
有人把数据比喻为蕴藏能量的煤矿。
煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。
与此类似,大数据并不在“大”,而在于“有用”。
价值含量、挖掘成本比数量更为重要。
(3)价值探讨
大数据是什么?
投资者眼里是金光闪闪的两个字:
资产。
比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。
如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
Target超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。
Target的例子是一个很典型的案例,这样印证了维克托·
迈尔-舍恩伯格提过的一个很有指导意义的观点:
通过找出一个关联物并监控它,就可以预测未来。
Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。
如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;
通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。
不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
从大数据的价值链条来分析,存在三种模式:
1)手握大数据,但是没有利用好;
比较典型的是金融机构,电信行业,政府机构等。
2)没有数据,但是知道如何帮助有数据的人利用它;
比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。
3)既有数据,又有大数据思维;
比较典型的是Google,Amazon,Mastercard等。
未来在大数据领域最具有价值的是两种事物:
1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;
2-还未有被大数据触及过的业务领域。
这些是还未被挖掘的油井,金矿,是所谓的蓝海。
Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。
这些例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;
与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。
(4)现在和未来
我们先看看大数据在当下有怎样的杰出表现:
大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;
大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;
大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;
大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;
大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;
大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;
大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;
大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。
其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。
比如,Amazon的最终期望是:
“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。
Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。
而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。
未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。
人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。
比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:
医疗机构将实时的监测用户的身体健康状况;
教育机构更有针对的制定用户喜欢的教育培训计划;
服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;
社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;
政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;
金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;
道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;
(5)与大数据相关技术
1)云技术
大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。
可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
云计算思想的起源是麦卡锡在上世纪60年代提出的:
把计算能力作为一种像水和电一样的公用事业提供给用户。
如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:
云计算提供基础架构平台,大数据应用运行在这个平台上。
业内是这么形容两者的关系:
没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;
没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。
那么大数据到底需要哪些云计算技术呢?
这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。
云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:
可以提供更多基于海量业务数据的创新型服务;
通过云计算技术的不断发展降低大数据业务的创新成本。
如果将云计算与大数据进行一些比较,最明显的区分在两个方面:
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。
然而大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。
而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。
2)分布式处理技术
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。
以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。
而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,在数据被分割后通过