适应大数据环境的技术变革与管理创新初探.docx
《适应大数据环境的技术变革与管理创新初探.docx》由会员分享,可在线阅读,更多相关《适应大数据环境的技术变革与管理创新初探.docx(5页珍藏版)》请在冰豆网上搜索。
适应大数据环境的技术变革与管理创新初探
适应大数据环境的技术变革与管理创新初探
2014年5月18日
摘要:
“大数据”现象诞生于人们对数据搜集能力、数据传输能力、数据存储能力以及数据处理能力的极大发展,随着大数据时代的来临,“大数据”问题迅速从技术层面上升到国家战略的最高层面,大数据蕴含着巨大的社会价值和商业价值,发展潜力十分巨大。
对大数据的利用将成为企业提高核心竞争力、抢占市场先机的关键。
本文简要阐述了大数据研究的发展与现状,探索如何让我国技术创新管理工作迅速适应大数据环境,发挥大数据分析的价值,对比了大数据时代信息技术的变革,探讨了大数据应用与研究所面临的机遇和挑战,深入研究大数据环境下管理创新的新变化与新思路,并对大数据分析方法与传统分析技术进行对比,构建了大数据生态平台,设计了适合大数据分析的数据挖掘架构。
关键词:
大数据;数据分析;数据挖掘
1引言
随着社交网络的逐渐成熟,移动宽带技术的迅速提升,各种传感器如手机、台式电脑、笔记本、平板电脑、智能电视、导航定位等、使得终端应用遍布各个角落,形式也越来越多样化,如浏览网页、刷新微博、搜索关键词、上传文件、发送邮件、交友、购物,我们每个人是数据的传播者和分享者。
数据单位也从G、T到P、E、Z、Y的演变,数据量和信息量的增长态势迅猛,据IDC在《数字宇宙膨胀:
到2020年全球信息增长预测》所做的数据统计,数字信息每年按照几何级数态势递增,到2020年,数字量将越来越超出想象,就像数字宇宙,将达到40ZB。
2007年,雅虎的首席科学家沃茨博士在《自然》上发表了一篇文章《21世纪的科学》指出,得益于海量数据与人们前所未有的活动记录信息,为社会科学的定量分析提供了极为丰富的数据,使得预测得更准、计算更精确,社会科学的发展,在21世纪全面迈进数字科学的殿堂。
2011年5月,美国麦肯锡全球研究院(MGI)发表一篇名为《Bigdata:
Thenextfrontierforinno-vation,competitionandproductivity》(大数据:
未来创新、竞争、生产力的指向标)的研究报告,“BigData”(大数据)这个关键词便开始流行起来。
大数据的研究从2010年以来,迅速成为各国各界人士关注的热点和研究的主题,本文的研究主要从两个方面探讨,一是大数据对商业模式的创新性影响,二是大数据分析技术与传统技术的挑战,旨在寻求一种可行的利用大数据分析的方法对管理创新提供决策支持。
2大数据的特征
大数据(BigData)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。
”即包括所建立的数据库等结构化信息,也包括文本、图片、视频等非结构化信息,难以用一般技术来管理的大量数据的集合,业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
一是数据体量巨大(Volume)。
数据量之大,无法用现有技术来管理,基本上是指从几十TB到几PB,而且随着技术的进步,数量呈几何级数增加。
二是数据类型繁多(Variety)。
数据类型多样,主要可以把数据分为两种类型:
结构化数据和非结构化数据。
相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多种多样的数据类型对数据的处理能力提出了更高要求。
三是价值密度低(Value)。
价值密度的高低与数据总量的大小成反比。
以视频为例,一部1h的视频,在监控中,有用的数据可能仅有一二秒。
如何通过强大的机器算法完成大数据量的价值“提纯”,是目前大数据时代下亟待解决的难题。
四是处理速度快(Velocity)。
有别于传统数据挖掘的最显著特征,大数据的产生和更新的频率非常快,每时每秒都在即时增加,面对如此海量的数据,如何提升处理数据的效率,是企业的重要课题。
上述4V特征的定义着眼点仅仅在于数据的性质上,其实大数据是一个更加综合的概念,所包含的内容更加广泛,针对具备上述特征而难以管理的数据,这些数据的存储、处理、分析的技术,以及通过分析和利用大数据技术而获得应用和商业价值的人和组织,都是广义的大数据所包含的内容。
3大数据时代信息技术变革
1946年,自从人类历史上第一台电子计算机在美国费城问世,信息技术产业的发展变革就一直没有停止过,而且不断升级,越来越智能化,《TheBigDataRevolution》书中[3]作者涂子沛指出,在信息技术演进过程中,主要任务是围绕如何收集数据、分析数据、发布数据,提高商业运营效率,促进企业的发展。
这一系列与数据有关的信息技术,在商业界被称为商务智能(BusinessIntelligence,简写为BI),这个概念是1989年时任美国高德纳咨询公司的分析师HowardDresner所提出的,BI的主要目的是分析从过去到现在发生了什么,为什么发生,并做出报告,在技术的大潮中,商务智能的发展和演进主要有以下几个阶段:
决策支持系统:
学界普遍认为,1947年,卡内基梅隆大学的赫伯特.西蒙(HerbertSimon)教授对决策支持系统的研究,是现代商务智能概念最早的源头和起点。
主要研究的问题是如何将数据、信息转化为知识,辅助决策支持。
但在半个多世纪的漫长过程中,决策支持系统曾一度因为缺乏有效的数据组织方式而徘徊不前。
管理信息系统:
计算机科学家一直研究数据在软件内部的最佳组织方式,1970年,IBM的研究员埃德加.科德(EdgarCodd)发明了关系型数据库,成为软件发展历史上一个跨跃性的里程碑,引发了一场信息管理系统的广泛应用,但这些信息系统,都是针对特定的业务过程,处理离散事务的“运营式”信息系统,数据只是商业流程的记录,不断积累,但仅用于查询,而不是分析。
数据仓库:
由数据仓库之父比尔·恩门(BillIn-mon)在1991年出版的《BuildingtheDataWarehouse》(《建立数据仓库》)一书中所提出的定义被广泛接受。
数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。
数据挖掘:
由于数据仓库、联机分析技术的发展和成熟,为商务智能奠定了框架,但真正给商务智能赋予“智能”生命的是它的下一个产业链,数据挖掘,即在海量的数据当中通过分析和建模,发现数据背后隐藏的模式和微妙的关系,以揭示过去的规律、预测未来的趋势,实现了从数据、信息到知识的演变。
商务智能与大数据的交叉:
传统的数据挖掘是指在结构化的数据中发现潜在的关系和规律,但随着商业竞争的白热化,非结构化的数据如各种文本、图像、音频、视频等达到空前规模,如何把散布在网络上的资源整合起来,从中挖掘出有价值的信息,是当前数据挖掘面临的最大挑战之一,迫切需要更加高端的数据挖掘的方法和技术。
大数据最根本的,就是促进经济的发展,知识时代的特点就是信息和数据的整合产生新的价值。
《大数据时代》一书的作者舍恩伯格指出,大数据时代最大的转变就是放弃对因果关系的渴求,取而代之以关注相关关系。
也就是说只要知道是什么,而不需要知道为什么,颠覆了千百年来人类的思维惯例……为什么这么说?
这是因为有了大数据,所有问题的答案就在细节中!
“是什么”细节事实就揭示了问题的“为什么”!
那如何挖掘藏在细节的答案?
如何才能贯穿数据、信息、知识到智慧的通道?
4大数据服务于管理创新,提供真正的价值
目前,大数据研究和应用已经成为信息科技领域中的热点,世界各国均高度重视大数据领域的研究探索,并从国家战略层面推出研究规划以应对其带来的挑战。
我们正处在一个真正的大数据时代:
数据作为新一轮信息战的主角,将创造无限商机,既便利又危及着每个人的生活。
大数据之“大”,不仅仅在于其规模容量之大,更多的意义在于:
人类可以处理、分析并使用的数据在大量增加,通过这些数据的处理、整合和分析,人类可以发现新知识、创造新价值,带来管理创新方面的大发展。
在大数据的运用方面,一些企业已经或正在收获丰硕的成果,比如一些欧美互联网企业Google、Amazon、Facebook、Twitter、eBay等,这些称霸互联网的企业,它们成功的因素,主要是商业模式的创新,而商业创新主要来自于充分运用大数据,他们自行开发了一些用于分析大数据的产品和技术,并由此获得巨额的收益。
中国的XX、腾讯、阿里巴巴等互联网公司也纷纷投入巨大的力量致力于分析和利用大数据,目前应用比较广泛的领域主要在预防性预测、用户行为分析、企业决策推荐、互联网企业舆情分析、移动应用、社交媒体分析等方面,大数据在以下方面的应用效果,将颠覆传统方式。
1)有效地预知未来趋势
2009年的一篇文章中提到,谷歌是用了五千万搜索关键词,寻找这些关键词出现的频次和流行病在疾控中心预报出来的数据的关联,最后找出了一些关联词,利用这些关联词,利用非常简单的方法,多元线性回归里面的线性分析进行预测。
结果非常准,并在当天就可以做预报,而疾控中心往往要晚一到两周。
这是大数据分析的一个很独特的优点。
2)有助于财务精益分析的实现
有了大数据的基础,精益财务分析就有了充分的发挥空间。
比如说库存周转率,之前每月10日前做一次分大类的上月库存周转分析,但这种分析方法既粗放又滞后,对管理的改善相当有限,使财务分析就失去了意义。
仍就库存周转率来说,当已有细至每一天、每一种物料、每一次进出库、每一个批次的数据时,系统就可以结合次日的生产计划计算出即时的细到每一个库存量单位的存货周转率。
这种大数据基础之上的精益财务分析赋予了数据新的实在意义,并实际突破了学术上的库存周转率的桎梏。
传统的用月度平均库存来算库存周转,是因为当时的数据基础和计算条件所限,大数据的时代,财务分析的方式方法也要与时俱进。
3)获得商务管理的实时、动态性决策
商务管理与市场研究的大数据分析方法的研究应聚焦于基于大数据的商务分析,以实现商务管理中的实时性决策方法和持续学习能力。
传统的数据挖掘和商务智能研究主要侧重于历史数据的分析,面对大数据的大机遇,企业需要实时地对数据进行分析处理,帮助企业获得实时商业洞察,比如,在大数据时代,企业对市场关键业绩指标(KPI)可以进行实时性的监控和预警,及时发现问题,做出最快的调整。
5大数据生态平台系统的构建
5.1开放的大数据平台
数据仓库发展的30年,产生了大量面向客户业务的数据处理工具(如Informactica、DataStage等)、分析软件(如SPSS、R、Matlab等)和前端展现工具(如水晶报表)等,这些软件是一笔宝贵的财富,已被分析人员所熟悉,是大数据时代中小规模数据分析的必要补充。
因此,新的数据仓库需考虑同传统商务智能工具的兼容性.由于这些系统往往提供标准驱动程序,如ODBC、JDBC等,这项需求的实际要求是对SQL的支持。
所以规划一个大数据架构并不只是意味着理解其特殊之处,还意味着如何将新的特点融合到您已经拥有的技术中,从数据库和BI基础结构到IT工具和最终用户应用程序。
真正的行业挑战是不将大数据视为特殊的科学项目,而是把它集成到主流的IT应用中。
将讨论如何把大数据的功能添加到企业的信息总架构中,从企业架构的角度进行规划,将各种信息技术的高度集成与融合、演进、优化和整合。
在大数据处理的基础平台中,需要由Hadoop和NoSQL数据库来担任核心角色,这两项技术是在现有关系型数据库和SQL等数据库,很难处理非结构化数据这一背景下,由Google、Amazon、Facebook等企业因自身迫切的需求而开发的,而且是开源的,NoSQL数据库作为非关系数据库,有别于传统的关系数据库(RDBMS)模型,并不是对现有RDBMS的否定和取代,而是对RDBMS所不擅长的部分进行补充,因此应该理解为“NotonlySQL”的意思。
要从大数据中高效地发现有价值的信息,机器学习、数据挖掘、语义检索、自然语言处理、统计分析等相关技术也是非常重要的补充,所以对大数据进行分析时,数据仓库系统需具备的几个重要特性。
简要说明高度可扩展性横向大规模可扩展,大规模并行处理高性能快速响应复杂查询与分析高度容错性查询失败时,只需重做部分工作支持异构环境对硬件平台一致性要求不高,适应能力强较低的分析延迟业务需求变化时,能快速反应易用且开放接口既能方便查询,又能处理复杂分析较低成本较高的性价比向下兼容性支持传统的商务智能工具
5.2数据分析基础架构:
结构化与非结构化数据并存
随着企业多年来的信息化建设,在ERP系统、配有射频识别流水线的仓库管理、客户关系管理等系统的支持下,企业积累了海量数据,其中包括了很多结构化和半结构化数据,在信息的丰富度方面达到了前所未有的速度、厚度、细度和准确度,较之以前,已隐隐有大数据之势。
同时,企业又通过社交媒体、网络收集到各种非结构化的数据如文本、音频、视频等,如何将结构化与非结构化数据进行有效的挖掘和分析,需要搭建不同类型的架构,对于传统的结构化数据可以采用数据仓库DW系统来进行分析和处理;对于半结构化的数据仓库主要用Sigularity来存储;对于非结构化数据,通过Hadoop进行分析和处理,三者可以相互结合和补充才是最优方案。
5.3大数据仓库系统的构建
大数据仓库系统的核心支撑技术是列存储技术、分布式存储模型技术和大规模集群并行处理技术等。
大数据仓库(BigDataWare-house)大数据仓库需要在系统架构上吸收Hadoop灵活和高可扩展的技术优势,在存储和复杂分析处理上吸收数据库的高性能和高存储效率的技术优势,提高系统综合性能,减少系统管理复杂度,降低大数据仓库管理成本。
利用一整套集成、建模和部署工具,帮助企业简化数据仓库的开发、实施和维护。
这些工具能够进行多维分析,帮助用户从数量庞大的结构化或非结构化数据中提取出可行信息,为商业智能提供支持。
借助压缩和性能监控功能,这些工具还有助于提高数据仓库的性能。
此外,企业还可利用集成的分析、工作负载管理、性能管理和内存多维数据集建模功能,将信息换化为洞察力。
综上所述,作为传统数据仓库的用户,可以利用Hadoop将非结构化数据转化为结构化数据,然后导入数据仓库中,现使用传统的商务智能方法来进行分析和决策;此外,将结构化和非结构化数据整合起来,都存放在大数据仓库中,进行综合分析,从而获得过去无法获得的判断,满足用户的需求。
6总结
大数据时代已经到来,而且将成为全世界下一个创新、竞争和生产率提高的前沿。
当人们确信“人类将可以通过对这些大数据的交换、整合和分析来发现新的知识、创造新的价值,带来大知识、大科技、大利润和大发展”的时候,大数据将对人类社会的进步与发展发挥其巨大价值。