大数据的应用现状与展望.doc
《大数据的应用现状与展望.doc》由会员分享,可在线阅读,更多相关《大数据的应用现状与展望.doc(13页珍藏版)》请在冰豆网上搜索。
自然辩证法小论文
大数据的应用现状与展望
指导老师:
张立
组长、主讲:
刘开耀21428164
PPT制作:
刘玉婷21428171
论文撰写:
雷颖颖21428172陈瞳21421083
资料收集:
毕晨光21428165黄一锋21428170
邵炳21428166姜灵轩21428163
董丽华21435015周晴21418185
黄河羚婕JX14014
2015/4/18
大数据的应用现状与展望
摘要:
大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点。
大数据应用就是利用数据分析的方法,从大数据中挖掘有效信息,为用户提供辅助决策,实现大数据价值的过程。
本文主要介绍了大数据的分析方法、分析模式以及常用的分析工具,将大数据应用归纳为6个关键领域:
结构化数据分析、文本分析、Web分析、多媒体分析、社交网络分析和移动分析,并列举了若干大数据的典型应用。
最后从基础理论、关键技术、应用实践以及数据安全等4个方面总结了大数据的研究现状,并对大数据应用未来的研究进行展望。
关键词:
大数据数据分析数据存储4V
在过去的20年中,各个领域都出现了大规模的数据增长,包括医疗保健和科学传感器用户生成数据、互联网和金融公司、供应链系统等。
国际数据公司IDC报告[1]称,2011年全球被创建和复制的数据总量为1.8ZB(1ZB≈1021ZB),在短短5年间增长了近9倍,而且预计这一数字将每两年至少翻一番。
大数据这一术语正是产生在全球数据爆炸增长的背景下用来形容庞大的数据集合。
与传统的数据集合相比,大数据通常包含大量的非结构化数据,且大数据需要更多的实时分析。
此外,大数据还为挖掘隐藏的价值带来了新的机遇,同时给我们带来了新的挑战,即如何有效地组织管理这些数据。
1大数据的定义
目前,虽然大数据的重要性得到了大家的一致认同,但是关于大数据的定义却众说纷纭。
大数据是一个抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。
一般意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
科技企业、研究学者、数据分析师和技术顾问们,由于各自的关注点不同,对于大数据有着不同的定义。
通过以下定义,或许可以帮助我们更好地理解大数据在社会、经济和技术等方而的深刻内涵。
2010年ApacheHadoop组织将大数据定义为,“普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集”。
在此定义的基础上,2011年5月,全球著名咨询机构麦肯锡公司发布了名为“大数据:
下一个创新、竞争和生产力的前沿”的报告,在报告中对大数据的定义进行了扩充。
大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。
该定义有两方而内涵:
(1)符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;
(2)不同部门符合大数据标准的数据集大小会存在差别。
目前,大数据的一般范围是从几个TB到数个PB(数千TB)[2]。
根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标准,数据规模不断增长,以及无法依靠传统的数据库技术进行管理,也是大数据的两个重要特征。
大数据价值链可分为4个阶段:
数据生成、数据采集、数据储存以及数据分析。
数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。
2大数据的特点
大数据的4V特点:
Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
“大数据”是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
“大数据”首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。
最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
“大数据”的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的“4个V”之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。
换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
从某种程度上说,大数据是数据分析的前沿技术。
简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。
大数据最核心的价值就是在于对于海量数据进行存储和分析。
相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。
3大数据分析
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。
那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。
基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
可视化分析analyticvisualization
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
数据挖掘算法dataminingalgorithms
大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。
另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
预测性分析能力predictiveanalyticcapabilities
大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
语义引擎semanticengines
大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。
数据质量和数据管理dataqualitiesandmasterdatamanagement
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
4大数据应用
大数据的类型大致可分为三类:
(1)传统企业数据(Traditionalenterprisedata):
包括CRMsystems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
(2)机器和传感器数据(Machine-generated/sensordata):
包括呼叫记录(CallDetailRecords),智能仪表,工业设备传感器,设备日志(通常是Digitalexhaust),交易数据等。
(3)社交数据(Socialdata):
包括用户行为记录,反馈数据等。
如Twitter,Facebook这样的社交媒体平台。
大数据挖掘商业价值的方法主要分为四种:
(1)客户群体细分,然后为每个群体量定制特别的服务。
(2)模拟现实环境,发掘新的需求同时提高投资的回报率。
(3)加强部门联系,提高整条管理链条和产业链条的效率。
(4)降低服务成本,发现隐藏线索进行产品和服务的创新。
从三大产业的角度将大数据的核心商业价值分类讨论。
大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。
从理论上来看:
所有产业都会从大数据的发展中受益。
但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
各个行业利用大数据价值的难易度以及发展潜力以及OpenData时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融[3],如图一。
图1大数据的经济价值
4.1企业内部大数据应用
目前,大数据的主要来源和应用都是来自于企业内部,商业智能(businessintelligence,BI)和OLAP可以说是大数据应用的前辈。
企业内部大数据的应用,可以在多个方而提升企业的生产效率和竞争力。
具体而言:
市场方而,利用大数据关联分析,更准确地了解消费者的使用行为,挖掘新的商业模式;销售规划方而,通过大量数据的比较,优化商品价格;运营方而,提高运营效率和运营满意度,优化劳动力投入,准确预测人员配置要求,避免产能过剩,降低人员成本;供应链方而,利用大数据进行库存优化、物流优化、供应商协同等工作,可以缓和供需之间的矛盾、控制预算开支,提升服务。
在金融领域,企业内部大数据的应用得到了快速发展。
例如,招商银行通过数据分析识别出招行信用卡价值客户经常出现在星巴克、DQ、麦当劳等场所后,通过“多倍积分累计、积分店而兑换”等活动吸引优质客户;通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15%和7%;通过对客户交易记录进行分析,有效识别出潜在的小微企业客户,并利用远程银行和云转介平台实施交叉销售,取得了良好成效。
当然最典型的应用还是在电子商务领域,每天有数以万计的交易在淘宝上进行,与此同时相应的交易时间、商品价格、购买数量会被记录,更重要的是,这些信息可以与买方和卖方的年龄、性别、地址、甚至兴趣爱好等个人特征信息相匹配。
淘宝数据魔方是淘宝平台上的大数据应用方案,通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品
牌的市场状况、消费者行为情况等,并可以据此进行生产、库存决策,而与此同时,更多的消费者也能以更优惠的价格买到更心仪的宝贝。
而阿里信用贷款则是阿里巴巴通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。
据透露,截至目前阿里巴巴己经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。
4.2物联网大数据应用
物联网不仅是大数据的重要来源,还是大数据应用的主要市场。
在物联网中,现实世界中的每个物体都可以是数据的生产者和消费者,由于物体种类繁多,物联网的应用也层出不穷。
在物联网大数据的应用上,物流企业应该有深刻的体会。
UPS快递为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和UPS。
同时,这些设备也方便了公司监督管理员工并优化行车线路。
UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。
2011年