中国大数据发展与展望Word文件下载.docx
《中国大数据发展与展望Word文件下载.docx》由会员分享,可在线阅读,更多相关《中国大数据发展与展望Word文件下载.docx(21页珍藏版)》请在冰豆网上搜索。
世界各国也纷纷将大数据视作重要的战略制高点,如美国提出的《大数据研究和发展倡议》、中国公布的《促进大数据发展行动纲要》以及经济合作与发展组织(OECD)推出的《使用大数据作决策》等一系列重要文件。
(二)概念
大数据是一个宽泛的概念,其中“大”的概念已成为一致共识,但仅凭“数量庞大的数据集”还远远不足以清晰描述大数据。
此后,随着相关研究与应用的深入,越来越多的研究者开始尝试从技术处理、属性归纳以及其他角度重新诠释大数据。
大多数研究者最初都倾向从技术角度来看大数据,认为大数据是一种难以处理的大规模数据集。
比如,亚马逊大数据科学家约翰·
劳萨(JohnRauser)在一个大数据和高性能计算峰会上就简明地提出,“大数据是超过了一台计算机处理能力的数据量”。
虽然这种说法太过局限,但很多研究者也都认识到了大数据具有“用现有一般技术难以管理”的特点,如野村综合研究所研究员城田真琴在《大数据的冲击》中将其定义为,“用当前企业数据库中占主流地位的关系型数据库所无法进行管理的、具有复杂结构的数据”。
在技术难度之外,他还提出从“响应时间”角度来看,可以将大数据归纳为那些数据量过于庞大,从而导致数据查询响应时间超过最大容忍范围的数据集合。
中国工程院院士李国杰也提出过“可容忍的时间内”[2]的表述。
在从技术角度解构大数据的研究中,相对较早的权威提法是出自麦肯锡,其观点为“大数据是大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集”,此后的大部分研究者都沿用了此观点(见表2)。
表2技术维度下的大数据定义
同时,也有一些公司和研究者试图通过不同属性去归纳、描绘大数据。
譬如高德纳公司就将大数据视为一种具备某些特性的信息资产,这些特性为规模大、增长高、种类繁多等,这使得人们需要更优秀的决断力、洞察力、优化力才能发掘出更多价值。
中科院院士徐宗本也提出过类似的观点,在他看来,大数据的部分甚至整体都呈现为一种低价值密度、高价值总量的特殊数据存态,其规模之大、结构之复杂使得人们难以在有效时限内完成分析处理,也无法进行集中形式的存储。
[3]此后,许多研究者开始用其特征来描述大数据,如国际数据公司(IDC)就曾通过规模(Volume)、速度(Velocity)、类型(Variety)和价值(Value)的“4V”特征来定义大数据。
此外,随着大数据的影响从技术层面扩展至其他层面乃至整个社会,研究者们也开始从更为宏观的角度去理解大数据。
如《大数据时代的历史机遇》一书作者赵国栋就提出,大数据是“在多样的或者大量数据中,迅速获取信息的能力”,[4]他将大数据概念延展到了“能力范畴”,大数据的关键是把握应用数据背后的逻辑并应用在对未来发展的研判上。
维克托·
迈尔-舍恩伯格也在其所著的《大数据时代》中指出,大数据在政治、经济、文化领域的方方面面,都为人类带来了前所未有的大变革。
此外,中国信通院(CAICT)发布的《大数据白皮书(2016)》中也提出大数据是一种复杂混合体的认知理念,并肯定大数据作为一种新型的信息资源、管理分析技术和思维理念的重要价值。
近年来,从研究、应用再到产业发展,大数据正在从单一的“数据集”概念逐渐丰富为一种糅合了数据、技术及产业的综合体系。
正如国务院在《促进大数据发展行动纲要》中所明确的,“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”(见表3)。
表3大数据概念的外延及补充
(三)特征
时至今日,对大数据特性的理解仍未形成统一认识,国际数据公司、高德纳公司、弗雷斯特研究公司(ForresterResearch)、国际商业机器公司(IBM)等著名国际组织和企业,以及道格·
莱尼、维克托·
迈尔-舍恩伯格等众多研究者认为,大数据的基本特性可以从数据容量(Volume,或称规模性)、结构类型(Variety,或称多样性)及处理速度(Velocity,或称高速性)三个维度来考察,简称“3V”。
此外也有许多研究者贡献了不同的看法,比如可从价值维度(Value)、真实性(Veracity,或称准确性)、灵活性(Variability,或称易变性)、正当性(Validity,或称合法性)来看,大数据的属性判断也在逐渐呈现立体化(见表4)。
表4研究者对大数据特性的认识
国家统计局统计科学研究所综合国内外研究经验,将大数据的特点归纳为“6V加1C”。
[5]从数据体量(Volume)来看,大数据规模巨大,EMC公司提出多数用户的大数据规模应该能达到PB级;
从结构类型(Variety)来看,大数据涵盖了复杂多样的结构化数据、半结构化数据以及非结构化数据,从文字、图片、音频、视频等多媒体再到地理位置,信息众多,形式无所不包;
从处理速度(Velocity)来看,大数据对传统及现有的技术形成了挑战,需要在短时间内利用新的基础架构进行多空间的大量计算;
从应用价值(Value)来看,大数据是通过规模效应将低价值密度的数据整合为高价值、作用巨大的信息资产;
从交互方式来看,获取与发送的方式多样灵活(Variability),具有易变性;
从数据的真实程度(Veracity)来看,大数据对信息源与数据内容提出了安全度高、可信性强等精准要求;
从分析难度(Complexity)来看,大数据技术难度高,不仅仅是对硬件水平与计算方法的要求高,还受到分析者的决策能力影响。
二当前大数据发展的态势与特征
在2016年7月高德纳公司发布的新一年度新兴技术成熟度曲线中,往年备受关注的大数据及相关技术概念并没有出现。
“这些从曲线消失的技术依然关键,只是不再‘新兴’”,正如高德纳公司如此解释。
随着大数据相关的基础设施、产业应用和理论体系的发展与完善,目前大数据也越来越被各界所了解,而不像前几年那样仅是少数科技极客眼中的“新领域”。
目前,大数据以爆炸式的发展速度迅速蔓延至各行各业。
随着各国抢抓战略布局,不断加大扶持力度,以及资本的青睐及投资,使得全球大数据市场规模保持了高速增长态势。
总体来看,大数据进入了从概念推广到应用落地的关键转折期。
(一)数据战略
1.大数据全球战略布局全面升级
发达国家期望通过建立大数据竞争优势,巩固其在该领域的领先地位。
美国作为大数据发展的策源地和创新的引领者,最早正式发布国家大数据战略。
美国政府在2012年3月发布《大数据研究和发展倡议》(BigDataResearchandDevelopmentInitiative),将大数据提升为一种战略性资源应用在科研、工程、教育与国家安全上,该倡议一出台便立即得到多个联邦部门和机构的响应。
随后,美国政府又在2016年5月发布《联邦大数据研究与开发战略计划》,围绕人类科学、数据共享、隐私安全等七个关键领域部署推进大数据建设的相关计划。
之后全球各组织、国家都纷纷在大数据战略推进方面付诸积极行动。
以欧盟为例,在2011年发布《开放数据:
创新、增长和透明治理的引擎》后,又出台了《数据驱动经济战略》,着力开展对开放数据、云计算、数据价值链等关键领域的研究。
澳大利亚、英国、日本、韩国等国家也相继推出大数据战略。
澳大利亚政府于2011年5月和2013年8月先后发布《国家数字经济战略报告》(NationalDigitalEconomyStrategy)与《公共服务大数据战略》(AustralianPublicServiceBigDataStrategy),为国家大数据战略发展确立了基本原则与政策指导。
英国的数据能力战略注重强化数据分析能力。
该国商务、创新和技能部在2013年10月发布《英国数据能力发展战略规划》,对数据能力的定义和优化进行了系统的研究和指导,以大数据分析为突破点提高国家和社会的大数据研究应用水平。
日本于2012年7月发布《面向2020年的ICT综合战略》,又于2013年出台新IT战略——“创建最顶尖IT国家宣言”,以大数据应用开发为主要战略方向,通过新技术革命带动IT产业与传统产业的协调发展,助力地区联动、民本高效、安全开放的高水平信息社会建设。
同处亚洲地区的韩国,也积极推行了“创意经济”计划,以孵化信息通信技术(ICT)与融合领域有潜力的新兴企业和项目为抓手,催化互联网相关产业的发展。
早在2011年韩国科学技术政策研究院就曾提出“大数据中心战略”以及“构建英特尔综合数据库”等计划,设计未来发展路线,2013年韩国政府又率先宣布建设首个面向社会公众开放的全行业数据中心。
对比世界各国的大数据发展战略可以发现三个共同点:
一是政府全力推动,同时引导市场力量共同推进大数据发展;
二是推动大数据在政用、商用和民用领域的全产业链覆盖;
三是重视数据资源开放和管理的同时,全力抓好数据安全问题。
2.中国加快构建大数据战略体系
中国敏锐地把握了大数据的兴起及发展趋势。
在短短几年内,大数据迅速成为我国社会各领域关注的热点。
我国政府高度重视大数据作为一种前瞻领域的战略意义,并在近几年加快推行相关政策的制定实施工作,启动未来促进大数据发展的数据强国计划。
2015年8月国务院发布《促进大数据发展行动纲要》,提出全面推进我国大数据的发展和应用,加快建设数据强国;
同年10月,中共十八届五中全会将“大数据”写入会议公报并升级为国家战略;
2016年3月,国家在出台的“十三五”规划纲要中再次明确了大数据作为基础性战略资源的重大价值,提出要加快推动相关研发、应用及治理。
2017年1月,《大数据产业发展规划(2016-2020年)》正式发布,全面制订了未来五年的大数据产业发展计划,为“十三五”时期大数据产业的持续健康发展确立了目标与路径。
3.地区大数据发展格局初步形成
在《促进大数据发展行动纲要》发布之前,广东、上海、贵州等地率先开展了大数据地方政策的先行先试。
广东省经信委在2012年底拟定了到2020年完成“智慧广东”基本建设的构想,并将其写入《广东省实施大数据战略工作方案》。
上海市科委在2013年7月12日编制发布《上海推进大数据研究与发展三年行动计划(2013-2015年)》,为该市大数据发展建立了具体目标,以及若干保障措施与推进机制。
2014年2月25日,贵州省政府印发《关于加快大数据产业发展应用若干政策的意见》和《贵州省大数据产业发展应用规划纲要(2014-2020年)》,提出了大数据产业的三阶段发展路径。
而在《促进大数据发展行动纲要》发布后,各地政府也在加快跟进。
截至2017年2月,全国有28个省份出台了与大数据相关的政策文件。
2016年2月25日,贵州获批设立全国首个大数据综合试验区。
同年10月8日,包括京津冀、珠江三角洲、上海、河南、重庆、沈阳及内蒙古在内的七个国家大数据综合试验区建设方案获批。
第二批获批的大数据综合试验区共分为跨区域类、区域示范类及大数据基础设施统筹发展类。
在这两批次的试验区建设中各地探索和总结的经验做法,将对东、中、西、东北四个区域的大数据发展起到辐射带动作用,同时对各地区的数据共享、大数据产业发展工作也极具参考价值。
经过几年的探索与实践,地区大数据发展的梯次格局初步显现。
北京、广东、上海等东部发达地区产业基础完善、人才优势明显,成为发展的核心地区;
而地处西部欠发达地区的贵州、重庆等地,通过战略创新形成先发优势,政府积极实施政策引导,引进大数据相关产业、资本与人才,也在区域竞争格局中占据一席之地(见图1)。
图1中国大数据产业圈分布
(二)数据资源
1.人类将迎来“数据核爆”
从计量的角度看,PB级(Petabyte级,帕字节,10的15次方字节)是大数据的临界点。
根据IDC数字宇宙报告——《大数据,更大的数字身影,最大增长在远东》,2020年以前全球数据量将保持40%以上的指数增长速度,大约每两年翻一倍。
到2020年人类拥有的数据量以ZB(Zettabyte,泽字节,10的21次方字节,1ZB=1048576PB)计量,数字宇宙规模将超出预期,达到40ZB(见图2)。
仅就数量而言,40ZB的数据相当于地球上每个人产生5200G数据,如果存入现有的蓝光光盘则对应200张光盘。
而随着中国大数据的全面发展,中国产生的数据占数字宇宙的比例将从2012年的13%上升到2020年的21%。
图22009~2020年全球所产生的数据量
2.数据成为核心生产资料
与农业时代的土地、资源及劳动力,工业时代的技术与资本不同的是,数据是人类自己创造的全新的生产资料。
在互联网没有出现之前,数据就已经存在,但互联网的发展使数据流动和利用变得更为容易。
数据用于记录、反馈和提升互动体验,过往杂乱、无用、静态的数据因为流动而变得鲜活,数据拥有了生命,能够用于量化决策与预测。
发掘数据价值的技术成本降低,数据可以用于全局流程及价值优化,并且实现真正的数据业务化,产生新的社会经济价值。
3.判断数据价值成为数据管理的核心能力
数据总量的爆炸性增长也给存储、分析和使用大数据带来挑战。
据统计,当下世界各大公司存储的数据中有半数以上是价值模糊的暗数据,在总体数据中的占比达到52%;
此外还有大约33%的历史数据处在难以发掘的尴尬境地,或是失去了时效性,或是难以进行二次利用,又或是价值含量过低。
[6]因此,除数据总量构成的挑战以外,大数据自身所包含的模糊性、时效性以及冗杂性,都无不对海量数据的价值挖掘能力提出了更高的要求。
因此,在数据规模从PB级增长到ZB量级的时代背景下,迫切需要开发者与决策者加快对大数据处理技术和分析能力的研究。
(三)数据流动
1.跨境数据流推动全球化进入新阶段
麦肯锡全球研究院(MGI)发布的《数字全球化:
新时代的全球性流动》(DigitalGlobalization:
TheNewEraofGlobalFlows)报告提出,“2008年以来,在全球商品流动趋缓、跨境资本流动出现下滑的趋势下,全球化并没有因此而逆转或停滞。
相反,因为跨境数据流的飙升,全球化进入了全新的发展阶段”。
根据该报告关于全球化各类要素流动的比较,在2005~2014年,全球数据流从4.7TB达到211.3TB,增长了43倍(见图3、图4)。
与之对应的全球商品流从10.6万亿美元增长到19万亿美元,全球服务贸易流从2.5万亿美元增长到4.9万亿美元,全球资本流(外商直接投资)从1.39万亿美元增长到1.63万亿美元,这些均远低于全球数据流的增长。
研究发现,从1995至2013年的十多年,上述流动共拉动了全球约10%的GDP增长,仅2014年总价值便高达7.8万亿美元。
其中数据流直接创造的价值为2.2万亿美元(占总值的近1/3),高于外商直接投资;
此外,数据流还通过间接促进其他类型的跨境交流,为全球经济创造了2.8万亿美元的价值。
因此,综合考虑其直接和间接作用,数据流对GDP的贡献已超过全球商品贸易。
在短短的十几年间,跨境数据流从几乎可以忽略不计增长至此,实在令人惊叹。
图32005年全球跨境总宽带
图42014年全球跨境总宽带
2.数据开放建设取得初步成效
有研究表明,开放数据将能够帮助G20国家在五年内实现1.1%的GDP增长,而单这一项带来的增长就已占到了G20国家五年GDP增长总目标的50%。
面对开放数据所能带来的巨大潜能,中国也正推动全国范围的数据开放工作。
2015年8月发布的《促进大数据发展行动纲要》,是中国第一个明确推动数据开放的国家层级政策文件。
《纲要》提出,要在2017年底前形成跨部门数据资源共享共用格局;
在2018年底前建成国家政府数据统一开放平台;
到2020年逐步实现交通、医疗、卫生、环境、气象、企业登记监管等领域数据向社会开放。
从中央层面看,各个部门间的数据共享与开放工作已取得了一定进展,国家电子政务外网搭建任务迈上了新台阶。
现今约有13个不同领域的部门实现或拟订了数据交换共享计划,电子政务外网的建设提高了一百多个部门的信息利用水平,涉及的中央单位数量达到118个,涵盖全国性的业务系统数量达到47个,同时辐射带动了各省、市、县下设的14.4万个单位。
从地方层面来看,以上海、北京为代表的地方政府自2011年便陆续启动了自己的开放数据计划。
截至目前,已有十余个地方政府建立了开放数据门户(见表5)。
表5已建立政府数据开放网站的省市
3.构建交易平台成为促进数据流通的主要举措
拥有大量数据的政府部门、科研机构以及商业机构希望让各自手中的数据流动起来,并且通过可以公开交易的场所,掌控数据获取的有效性和成本。
大数据交易平台建设恰好为数据流动、价值变现以及安全保障等一系列数据交易问题提供了解决方案,带动了相关产业的繁荣。
近年来,贵阳、北京、武汉、上海等地纷纷启动了大数据交易平台建设。
在2015年及之前,北京、贵阳市成立了大数据交易所,湖北省成立了长江、东湖两家交易所,加上河北的与陕西的西咸新区,共有6家大数据交易所投入运营。
2016年,江苏、浙江、上海以及哈尔滨等地也纷纷参与交易中心的筹建,据不完全统计,2016年底已达到16家。
贵阳大数据交易所发布的《2016年中国大数据交易产业白皮书》显示,我国的大数据交易市场2015年的规模为33.85亿元,预计到2020年将提升至545亿元。
(四)数据产业
1.大数据产业核心层将保持40%的增长速度
目前大数据产业的统计口径尚未建立,对于我国大数据产业的规模,各个研究机构均采取间接方法估算。
通常认为,大数据产业核心层主要是指围绕大数据采集、存储、管理和挖掘等环节所形成的产业链条。
它为全社会大数据应用提供数据资源、产品工具和应用服务,支撑各个领域的大数据应用,是大数据在各个领域应用的基石。
来自在线调查公司Statista的数据显示,在经历了快速增长期后,全球范围内的大数据服务进入了平稳增长的阶段。
2015年全球大数据产业规模将近1500亿人民币,同比增长24.2%;
中国大数据产业规模为160亿元,仅占全球总规模的10.7%,但同比增长率为64.9%,是全球增长率的2.7倍。
预计2015年至2018年全球大数据产业的复合增长率为21.8%。
由于中国大数据行业目前仍处于快速发展期,36氪研究院认为2018年中国大数据产业规模将超过500亿元,2015年至2018年的复合增长率将达到47.0%,是全球复合增长率的2.2倍(见图5、图6)。
中国信通院数据显示,未来两年内大数据核心产业还有40%左右的高增长空间。
图52012~2018年全球大数据市场规模
图62012~2018年中国大数据市场规模
2015年,中国信息产业收入达到17.1万亿元,其中软件业务实现收入4.3万亿元,相比之下,大数据目前的产业规模占比还非常小。
任何产业的发展都不是一蹴而就的,美国国家研究理事会的研究结果显示,通常需要花费20到40年的时间,才能让一个产业从“实验室”走出并发展到百亿美元的规模。
从大数据产业走势来看,在开始的2~5年产业规模并不是很大,发展初期产业的规模常常低于人们的预期。
在盈利模式模糊、技术发展不成熟的情况下,许多决策者受环境影响而判断力不足,一方面对短期发展盲目乐观,发展一味求大、求快;
另一方面又缺乏长久计划,政策、计划持续性差,这两种问题都需要尽量避免。
2.大数据产业规模2020年要突破1万亿
目前,大数据产业已超出了信息产业的范畴,其广义范围涵盖到关联层与衍生层各大领域的应用。
从2017年1月发布的《大数据产业发展规划(2016-2020年)》中所使用的大数据产业范围的广义范畴来看,其定义首先包含了围绕数据采集、存储、加工等而产生的一系列的经济现象,同时还涉及数据资源本身和相关硬件的产销环节,此外,信息技术服务也可以归纳在内。
《规划》提出,到2020年大数据产业要突破1万亿的规模,年均复合增长率要达到30%。
三大数据发展的“四维”驱动力量
(一)需求驱动
大数据几乎影响到各行各业。
政府利用大数据优化政务流程、建设智慧城市,企业利用大数据充分发掘企业沉淀的数据价值,互联网上的大数据更是与各行各业有着千丝万缕的关系。
随着信息化程度不断提高,人工智能的快速推进,政府、企业和个人对大数据都将提出更高的要求,大数据在各个领域的应用持续升温。
据高德纳公司调查,2015年,大公司在大数据相关项目上的平均投入约为1800万美元,而全球范围内已经投资大数据应用或未来两年有同样计划的企业比例达到76%,比2014年增长了3个百分点(见图7)。
此外,在2017年1月发布的《高德纳全球IT支出预测》报告称,全球数据中心系统支出在2016年、2017年和2018年分别达到1700亿美元、1750亿美元和1760亿美元,增长率为-0.6%、2.9%和0.6%。
第39次《中国互联网发展状况统计报告》显示,2016年受访企业对大数据技术的认知比例为52.1%,与2015年持平;
而对大数据技术的采用或计划采用比例达到19.3%,比上年有了较大提高。
得益于政府鼓励,大数据的应用环境和创新氛围已经形成,并深刻影响着企业的转型升级。
另外,大数据的效益尚未得到充分验证。
很多大数据产业的系统仍处在发展期,盈利模式与预期收益比较模糊。
比如Wikibon公司2014年的统计显示,美国企业的高层管理人员期望大数据能够带来总计3.5倍的投资回报,但实际回报当时只能达到55%。
图7各国主要企业在大数据方面的平均支出
(二)技术驱动
大数据技术创新取得明显突破。
在中国信息化建设进程中,数据的收集、存储、分析、应用能力在不断提高。
相关统计表明,目前已开放的政府网站数量达到8.4万个,而在“十二五”期间全国共完成