1、大数据将给我们带来怎样的变化大数据将给我们带来怎样的变化大数据将给我们带来怎样的变化?摘要:我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。 标签:大数据 我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。如果把所有这些数据都存入DVD光盘,光盘高度将等同于从地球到月球的一个来回也就是大约480,000英里。对于那些喜欢杞人忧天
2、的人来说,这是数据存储的末日即将到来的不祥预兆。而对于机会主义者们而言,这就好比是个信息金矿,随着技术的进步,金矿开采会变得越来越容易。走进大数据-一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。大数据已经站在了数据存储宣传的风口浪尖,也存在着大量不确定因素,这点上非常像“云”。我们请教了一些分析人士和大数据爱好者,请他们解释一下
3、大数据究竟是什么,以及它对于未来数据存储的意义。大数据走进历史舞台适用于企业的大数据已经出现,这在部分程度上要归功于计算能耗的降低以及系统已具备执行多重处理的能力这样一个事实。而且随着主存储器成本的不断下降,和过去相比,公司可以将更多的数据存到存储器中。并且,将多台计算机连到服务器集群也变得更容易了。这三个变化加在一起成就了大数据,IDC 数据库管理分析师Carl Olofson如是说。“我们不仅要把这些事情做好,还要能承受得起相应的开支”,他说。 “过去的某些超级计算机也具有执行系统多重处理的能力,(这些系统标准”。比如天睿资讯公司的系统就是个例子,它比以前更便宜,而且自身也是一个可扩展的聚
4、合系统,他补充道。但其他人却不这么认为。 “通常使用RDBMS和标准BI工具进行的一般性处理其实不能算是大数据,”高德纳公司数据管理分析师Marcus Collins说。 “这种处理很早之前就有了。”那么,谁在真正使用大数据呢?一年前,大数据技术的主要用户还都是像Facebook和雅虎这样的大型互联网企业,它们希望借此技术分析点击流数据。但今天,“这项技术的使用已经不仅限于这些大型网络公司了,它正在走进任何你能想到的存有大量数据的公司,”Collins 说。银行,公共事业单位,智能社区都已搭上了大数据这趟列车。虽然大数据的某些技术还不成熟,存在使用风险,但还是有一些人对它非常热衷,因为他们需要
5、这些技术,比如建立由社会化媒体推动的网络服务时就要用到其中的某些技术。这些试吃螃蟹的人对这些项目的发展做出了很大的贡献。同样地,大数据技术也已经对Catalina公司产生了革命性的影响。 这家位于佛罗里达圣彼得斯堡的公司有一个2.5PB的大型客户忠诚度数据库,里面存有1.9亿多家美国杂货店多年来的购买历史记录。其中最大的一个单数据库里就有多达4250亿行数据,仅这一个数据库中,每天公司需要处理的数据就有6.25亿行。通过分析这些数据,Catalina帮助消费商品主要生产商和大型连锁超市预测消费者可能买什么,以及谁会对新产品感兴趣。“我们想把技术应用于数据,而不是把数据丢给技术”,Eric Wi
6、lliams,Catalina执行副主席兼CIO说。 “现在已经有了能让SAS这样的公司将它们的分析技术应用于数据库的技术了,整个公司因此产生了很大的改变。我们过去一直在这么做,但受到了很大的限制,因此无法深入到我们想到的程度。因此我们只能使用自己研发的工具,但因为还很初级,所以它能完成的工作非常有限。大数据技术对我们而言真是及时雨啊,它改变了整个公司。”除了在自己的专有系统中使用了一些开源软件之外,Catalina也在Netezza数据库平台中使用了SAS分析法。一些公司正在“开发可通用于基于Intel的硬件的技术,这种技术可使硬件具备操作二级和三级产品的能力,例如SAS分析法的计分法就可直
7、接应用于运行数据库的Netezza(软件),”Williams 说。 “能使用这项技术并将其直接作用于数据库意味着Catalina可以将数据开采方案的研发时间从数周缩减到大约几个小时。”根据2010年10月美国银行主管大数据和分析法的前总经理Abhishek Mehta在Hadoop World大会上的发言,大数据正在从根本上改变美国银行的营业模式。 “我觉得现在的Hadoop就像是20年前的Linux。我们都已经看到了Linux对企业软件领域的发展作出的贡献。软件行业被极大程度地分化了,Hadoop将来也一样,讨论其是否会发生已经完全没有意义,目前的焦点在于它什么时候到来。”除了能进行点击量
8、和交易分析之外,Hadoop 还可以让美国银行具备快速处理业务问题的能力。 “现在,作为银行的一员,我已经可以想到欺骗行为消失的那天了,”Mehta说。“现在我已经可以建一个模型,把过去五年里发生在个人身上的每一起诈骗案例都存进去,而不是只抽取几个样本建个模型,发现了模型里没有的新案例时,就重新建一次模型。这样的日子已经过去了。”公共事业行业也正在意识到指尖敲击之下产生的巨大数据量,以及这些数据会带来的价值。一家美国中西部的公共事业单位已经在使用Hadoop 分析智能仪表收集的录入信息了,以前这些智能仪表主要被用来作记账自动化,但也能收集关于线路安培数的波动信息。 “如果你收集到这方面的信息后
9、对其进行分析,你会发现某个地方的转换器将会出现故障,从而能提前采取应对措施。”Olofson说。 “或者如果发生了供电中断,他们会在用户打电话询问前及时发现情况并采取行动。”沿着这个思路,他还看到公共事业单位使用大数据将带来的其他好处通过监控和检测电网以及对电网进行微调来改善客户服务质量,减少运行成本-但如此一来可能需要对老化的基础设计进行有效升级。品牌营销商们正在用Hadoop对社会化媒体作情感分析实验。现在越来越多的服务供应商也开始使用Hadoop,帮自己的客户筛选Twitter用户们正热衷于谈论的产品,以及对这些产品有怎样的想法。继续保持谨慎大数据技术发展很快。目前正在使用该技术的公司有
10、一大批技术上格外出众的IT员工,能对技术的进步并根据公司要求做出适当调整。“如果你还没有能力这么做,那就去找一家服务供应商来合作吧-比如找一家云服务公司-或者再等一等,等到大数据发展到一定程度就有大量成熟的软件产品和服务了。”Olofson 建议说。 “到时候至少有些东西是你的员工可以理解的了。”毫无疑问,数据读取方式已经发生了根本性地转变。但分析师们认为大数据技术不会彻底取代现在的数据库和数据读取工具。“现在的数据处理唯一做的就是建立相对复杂的模型,里面没有太多的数据。”高德纳公司的Collins说。“而如今的大数据会给你大量的数据-所以你应该不再需要那么复杂的模型了。这可能意味着数据处理模
11、式已经完成了升级。”“我的观点是数据库市场事实上将因此得到扩展,”Olofson说。 “他们会使用像MapReduce这样的技术,不论是通过Hadoop或是其它的广告宣传,来生成一些有趣的商业智能数据,这些数据在以前是根本无法得到的。然后,为了再次使用这些数据并追踪历史模型,他们将把它们存入数据库并真正扩大它的使用范围。”是否具备扩展能力是一个挑战,Collins说,另一个挑战是“还没有成形的结构模型来利用该项技术。我们还在一边学习一边摸索。”他说,随着软件包的引入,附带在软件包里的某些工具正在导致技术风险的扩散,但这项技术主要还是一个编程接口-这对于商务智能而言是一种倒退。比如,Collins说“Hadoop是一个技术含量很高的系统,商务智能的发展将其推向了普通企业,进入了桌面电脑之中,并拥有一个非常友好的界面。”我们已经让Hadoop退了一步,新的卖家们将帮助它回到用户社区,那个它应该去到的地方。“大数据应该跳出IT的圈子,而且我们必须把工具放到业务部门用户的手里”他补充道。 “但现在这种想法还没有实现。”作者:Collett,电脑世界撰稿人
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1