大数据处理技术现状及其应用展望.docx

上传人:b****9 文档编号:26068143 上传时间:2023-06-17 格式:DOCX 页数:11 大小:26.23KB
下载 相关 举报
大数据处理技术现状及其应用展望.docx_第1页
第1页 / 共11页
大数据处理技术现状及其应用展望.docx_第2页
第2页 / 共11页
大数据处理技术现状及其应用展望.docx_第3页
第3页 / 共11页
大数据处理技术现状及其应用展望.docx_第4页
第4页 / 共11页
大数据处理技术现状及其应用展望.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

大数据处理技术现状及其应用展望.docx

《大数据处理技术现状及其应用展望.docx》由会员分享,可在线阅读,更多相关《大数据处理技术现状及其应用展望.docx(11页珍藏版)》请在冰豆网上搜索。

大数据处理技术现状及其应用展望.docx

大数据处理技术现状及其应用展望

大数据处理技术发展现状及其应用展望

一、定义

著名的管理咨询公司麦肯锡曾预测到:

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。

人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。

”这是大数据的最早定义。

业界(于2012年,高德纳修改了对大数据的定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:

第一,海量数据量。

大数据计量单位至少是PB级别;

第二,数据类型繁多。

比如,网络日志、视频、图片、地理位置信息等等都是囊括进来。

第三,商业价值高。

第四,处理速度快。

在大数据时代,三分技术,七分数据,得数据者得天下。

在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。

Google利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。

对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

二、大数据的技术

技术是大数据价值体现的手段和前进的基石。

我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

2.1、云技术

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。

可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。

云计算思想的起源是麦卡锡在上世纪60年代提出的:

把计算能力作为一种像水和电一样的公用事业提供给用户。

如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:

云计算提供基础架构平台,大数据应用运行在这个平台上。

业内是这么形容两者的关系:

没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

那么大数据到底需要哪些云计算技术呢?

这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。

2.2、分布式处理技术

分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。

而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,在数据被分割后通过Map函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce函数的程序将结果汇整,从而输出开发者需要的结果。

再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

其次,Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。

Hadoop还是可伸缩的,能够处理PB级数据。

此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)

2.3、存储技术

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:

大数据存储的目的是支撑大数据分析。

到目前为止,还是两种截然不同的计算机技术领域:

大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

提到存储,有一个著名的摩尔定律相信大家都听过:

18个月集成电路的复杂性就增加一倍。

所以,存储器的成本大约每18-24个月就下降一半。

成本的不断下降也造就了大数据的可存储性。

比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。

以Amazon举例,AmazonS3是一种面向Internet的存储服务。

该服务旨在让开发人员能更轻松的进行网络规模计算。

AmazonS3提供一个简明的Web服务界面,用户可通过它随时在Web上的任何位置存储和检索的任意大小的数据。

此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon用它来运行其全球的网站网络。

再看看S3的设计指标:

在特定年度内为数据元提供99.999999999%的耐久性和99.99%的可用性,并能够承受两个设施中的数据同时丢失。

S3很成功也确实卓有成效,S3云的存储对象已达到万亿级别,而且性能表现相当良好。

S3云已经拥万亿跨地域存储对象,同时AWS的对象执行请求也达到百万的峰值数量。

目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。

这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。

2.4、预测技术

大数据的核心在于“预测”,而云计算使数据从“小样本”转变成有机会对所有可能的数据进行分析,预测将基于“数据之间的关联性”而非“为什么是这样的因果性”,我们只需要按照预测出来的趋势去响应,使用这些结果。

比如预测机票价格的走势,并给出可信度,帮助用户来决定什么时间购买机票最省钱。

它不用关心为什么机票会有差异,是因为季节性还是因为其他什么原因,它仅仅是预测当前的机票未来一段时间会上涨还是下降。

如果机票价格有上涨的趋势,系统就系统用户立即购买机票。

而原始的数据可以从机票预订数据库或者行业网站上扒下来。

这项预测技术可以用在类似的相关领域。

比如宾馆预订,商品购买等。

比如通过汽车引擎的散热和振动来预测引擎是否会出现故障。

亚马逊的推荐系统是很好的例子:

亚马逊从每一个客户身上捕获了大量的数据,历史购买了什么,哪些商品只是浏览却没有购买,浏览停留的时间,哪些商品是合并购买的,它要做的是找到产品之间的关联性。

在零售行业,销售数据的统计分析,可以让供应商监控销售速率、数量、以及存货情况,可以知道什么货物和什么货物摆在一起,放在什么位置销量最好,特定的季节,什么产品销量最高。

公共设施领域,不再是随机的巡检,而是针对设施上报的数据以及故障发生的历史数据、环境数据进行分析和预测,集中人力和物力优先检查最有可能出现问题的那些设施,减少整体平均的故障发生率。

最近的”棱镜计划“,从音视频、图片、邮件、文档以及连接信息中分析个人可能对国家安全造成威胁的行动。

三、大数据处理技术的展望

3.1、对于企业

对于企业的大数据,随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。

这里尤其有两个明显的现象:

1)外部数据的重要性日益超过内部数据。

在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2)能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

以IBM举例,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。

IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。

”IBM积极的提出了“大数据平台”架构。

该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(DataWarehouse)和信息整合与治理(InformationIntegrationandGovernance)

3.2、对于个人

个人的大数据,与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。

未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。

用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,比如,牙齿监控数据,心率数据,体温数据,视力数据,记忆能力,地理位置信息,社会关系数据,运动数据,饮食数据,购物数据等等。

用户可以将其中的牙齿监测数据授权给XX牙科诊所使用,由他们监控和使用这些数据,进而为用户制定有效的牙齿防治和维护计划;也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对的制定和调整个人的运动计划;还可以将个人的消费数据授权给金融理财机构,由他们帮你制定合理的理财计划并对收益进行预测。

当然,其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的,比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。

3.3、对于政府

奥巴马政府此前宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。

奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。

这些数据在每个政府部门里面看起来是单一的,静态的。

但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。

从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。

“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。

大数据为智慧城市的各个领域提供决策支持。

在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。

在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。

在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。

在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

四、大数据的应用

4.1、大数据在电子政务中的应用

大数据的发展,将极大改变政府现有管理模式和服务模式.具体而言,就是依托大数据的发展,节约政府投入、及时有效进行社会监管和治理,提升公共服务能力.以大数据应用支撑政务活动为例,美国积极运用大数据推动政府管理方式变革和管理能力提升,越来越多的政府部门依托数据及数据分析进行决策,将之用于公共政策、舆情监控、犯罪预测、反恐等活动.例如,作为大数据的强力倡导者,奥巴马及其团队创新性地将大数据应用到竞选活动中,通过对近2年搜集、存储的海量数据进行分析挖掘,寻找和锁定潜在的己方选民,运用数字化策略定位拉拢中间派选民及筹集选举资金,成为将大数据价值与魅力发挥到淋漓尽致的典型.借助大数据,还能逐步实现立体化、多层次、全方位的电子政务公共服务体系,推进信息公开,促进网上电子政务开展,创新社会管理和服务应用,增强政府和社会、百姓的双向交流、互动。

4.2、大数据在网络通信业的应用

大数据与云计算相结合所释放出的巨大能量,几乎波及到所有的行业,而信息、互联网和通信产业将首当其冲.特别是通信业,在传统话音业务低值化、增值业务互联网化的趋势中,大数据与云计算有望成为其加速转型的动力和途径.对于大数据而言,信息已经成为企业战略资产,市场竞争要求越来越多的数据被长期保存,每天都会从管道、业务平台、支撑系统中产生海量有价值的数据,基于这些大数据的商业智能应用将为通信运营商带来巨大机遇和丰厚利润.

例如,电信业者可通过数以千万计的客户资料,分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济.中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪,系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情.据计世资讯预测,到2015年,电信业大数据应用市场规模预计将达到18.3亿元。

4.3、大数据在医疗行业的应用

伴随医疗卫生行业信息化进程的发展,在医疗业务活动、健康体检、公共卫生、传染病监测、人类基因分析等医疗卫生服务过程中将产生海量高价值的数据。

数据内容主要包括医院的PACS影像、B超、病理分析、大量电子病历、区域卫生信息平台采集的居民健康档案、疾病监控系统实时采集的数据等对大数据,医疗行业遇到前所未有的挑战和机遇.例如,SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个户。

该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息.在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。

通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折.大数据让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。

也许在数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日3次,1次1片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药.社交网络为许多慢性病患者提供临床症状交流和诊治经验分享平台,医生借此可获得在医院通常得不到的临床效果统计数据。

基于对人体基因的大数据分析,可以实现对症下药的个性化治疗。

对于公共卫生部门,可以通过全国联网的患者电子病历库,快速检测传染病,进行全面疫情监测,并通过集成的疾病监测和响应程序,快速进行响应。

4.4、大数据在能源行业的应用

能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,只有综合各种数据所包含的信息才能得出真实的地质状况.能源行业企业对大数据产品和解决方案的需求集中体现在:

可扩展性、高带宽、可处理不同格式数据的分析方案.智能电网现在欧洲已经做到了终端,也就是所谓的智能电表.在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来.通过电网收集每隔5min或10min收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电.预测后,就可以向发电或者供电企业购买一定数量的电.因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵.通过预测可以降低采购成本.维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点.利用大数据,以往需要数周的分析工作,现在仅需要不足1h便可完成.

4.5、大数据在零售行业的应用

从商业价值来看,大数据究竟能往哪些方面挖掘出巨大的商业价值呢?

根据IDC和麦肯锡的大数据研究结果的总结,大数据主要能在以下4个方面挖掘出巨大的商业价值:

对顾客群体细分,然后对每个群体量体裁衣般地采取独特的行动;运用大数据模拟实境,发掘新的需求和提高投入的回报率;提高大数据成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率;进行商业模式、产品和服务的创新.

在商业领域,沃尔玛公司每天通过6000多个商店,向全球客户销售超过2.67亿件商品,为了对这些数据进行分析,HP公司为沃尔玛公司建造了大型数据仓库系统,数据规模达到4PB,并且仍在不断扩大.沃尔玛公司通过分析销售数据,了解顾客购物习惯,得出适合搭配在一起出售的商品,还可从中细分顾客群体,提供个性化服务.在金融领域,华尔街德温特资本市场公司通过分析3.4亿微博账户留言,判断民众情绪,依据人们高兴时买股票、焦虑时抛售股票的规律,决定公司股票的买入或卖出.

阿里巴巴公司根据在淘宝网上中小企业的交易状况筛选出财务健康和讲究诚信的企业,对他们发放无需担保的贷款.当我们去购物时,我们的数据会结合历史购买记录和社交媒体数据来为我们提供优惠券、折扣和个性化优惠.零售企业也监控客户的店内走动情况以及与商品的互动,它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例.

4.6、大数据在气象行业的应用

与世界大数据时代的进程相同,气象数据量不断翻番.目前,每年的气象数据已接近PB量级(1024GB=1TB,1024TB=1PB)。

以气象卫星数据为例:

虽然气象卫星是用来获取与气象要素相关的各类信息的,然而在森林草场火灾、船舶航道浮冰分布等方面,气象卫星却同样也能发挥出跨行业的实时监测服务价值.气象卫星、天气雷达等非常规遥感遥测数据中包含的信息十分丰富,有可能挖掘出新的应用价值,从而拓展气象行业新的业务领域和服务范围.比如,可以利用气象大数据为农业生产服务.美国硅谷有家专门从事气候数据分析处理的公司,从美国气象局等数据库中获得数十年来的天气数据,然后将各地降雨、气温、土壤状况与历年农作物产量的相关度做成精密图表,可预测各地农场来年产量和适宜种植品种,同时向农户出售个性化保险服务.气象大数据应用还可在林业、海洋、气象灾害等方面拓展新的业务领域.

除了上述行业应用外,大数据在教育科研、生产制造、金融保险、交通运输等行业也有密切应用.大数据在金融行业可用于客户洞察、运营洞察和市场洞察.大数据在智能交通、智慧城市建设方面也有出色表现.随着社会、经济的发展,各行业各类用户对于智能化的要求将越来越高,今后大数据技术会在越来越多领域得到广泛应用,通过大数据的采集、存储、挖掘与分析,大数据在营销、行业管理、数据标准化与情报分析和决策等领域将大有作为,将极大提升企事业单位的信息化服务水平.随着云计算、物联网、移动互联网等技术的快速发展,大数据未来发展空间将更加广阔。

五、总论

大数据应用六大模式 

捧着金饭碗,第三方大数据公司是如何在数据堆中觅得“金块”的呢?

 “数据挖掘公司的规模不同,影响力不同导致数据挖掘公司的商业模式也有所不同。

目前比较盛行的数据挖掘公司多为两大运营模式:

第一种是直接为企业用户提供其所需求的数据;

第二种则是为不同的企业或企业不同的需求,对数据进行分析,提供针对性的信息,以此获利,如天相投顾就是此类公司之一。

 

数据挖掘公司一般有六种商业模式值得参考:

第一种是以广联达等公司为代表的租售数据模式,它们通过出售广泛收集、精心过滤时效性强的数据,成为各自行业的翘楚。

而庞大的“数据库”则是它们的资产,也是竞争对手难以逾越的门槛;

第二种则是以彭博为代表的租售信息模式,它们聚焦在某个行业,广泛收集相关数据、深度整合萃取信息,以庞大的数据中心加上专用的数据终端,形成数据采集、信息萃取、价值传递的完整链条;

第三种则是数字媒体模式,在电视、纸媒衰落的背景下,新型的数字媒体公司充分发挥大数据技术的优势,广泛搜集数据开展精准营销业务;

第四种则是数据使能模式。

譬如阿里金融为代表的小额信贷和电影的票房预测等业务,如果没有大量的数据,缺乏有效的数据分析技术,这些业务就难以开展;

第五种则是数据空间运营模式,比如近期势头强劲的网盘,如果从大数据角度来看,便是因为各家纷纷嗅到大数据商机,开始抢占个人、企业的数据资源;

第六种则是大数据技术提供商,比如开发语音、视频等数据处理技术的企业。

 

数据提供商:

服务对象的“首席执行客户” “不管是哪种商业运营模式,拥有庞大的数据库是根本。

只有拥有了大而全的数据,才能使数据挖掘公司为多个领域提供数据。

有了数据库基础,数据挖掘公司应该做的便是不断完善和更新自己的数据挖掘工具,包括数据分析流程、技术等。

 

从目前的行情来看,大多数数据挖掘公司都主要服务于银行业、保险业。

因为这些行业需求大量客户数据以此来发展业绩,从中获得盈利。

 大数据可掘金的行业几乎无处不在,企业对数据的需求已经像毛细血管一样渗透到各个领域。

数据挖掘公司要做好大数据,应该比他服务的公司更了解其客户,才能深入分析客户的需求。

如要给一家影院做数据挖掘,就应该调查常来这家影院的消费者,每一个时间段对应什么样的消费者,他们对电影的偏好,以及相关消费的偏好等,数据挖掘公司要做的就是深入到消费者中去。

 “以前的数据挖掘,只在乎解决企业的技术问题,大数据时代的数据挖掘,则应该是帮助业务部门开拓市场,扩大客户群体,提供的不只是技术,还包括运营、经营方案等。

”具备数据挖掘能力的公司也是资本的宠儿。

 

数据的商机就在于媒体策略与选择的更加有效性、媒体可利用的效率提高、传播信息的效率提高等。

做到极致,其实数字媒体能够卖的不仅仅是受众的眼球,而是其通路的价值。

随视传媒与多家大型流量媒体伙伴合作,要把数据商机和在线销售通路画上等号。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1