1、浅谈大数据及展望未来浅谈大数据及展望未来XX(班级:班,学号:*)引言早在007年,人类制造的信息量有史以来第一次在理论上超过可用存储空间总量,近几年两者的剪刀差越来越大。10年,全球数字规模首次达到了“ZB”(1ZB=102TB)级别。212年,淘宝网每天在线商品数超过亿件。0年底,中国手机网民超过6亿户。随着互联网、移动互联网、传感器、物联网、社交网站、云计算等的兴起,我们这个社会的几乎所有方面都已数字化,产生了大量新型、实时的数据。无疑,我们已身处在大数据的海洋。有两个重要的趋势使得目前的这个时代(大数据时代)与之前有显著的差别:其一,社会生活的广泛数字化,其产生数据的规模、复杂性及速度
2、都已远远超过此前的任何时代;其二,人类的数据分析技术和工艺使得各机构、组织和企业能够以从前无法达到的复杂度、速度和精准度从庞杂的数据中获得史无前例的洞察力和预见性。大数据是技术进步的产物,而其中的关键是云技术的进步。在云技术中,虚拟化技术乃最基本、最核心的组成部份。计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数据在数据存储、挖掘、分析和应用分享等方面不仅在技术上可行,在经济上也可接受。在人类文明史上,人类一直执着探索我们处的世界以及人类自身,一直试图测量、计量这个世界以及人类自身,试图找到隐藏其中的深刻关联、运行规律及终极答案。大数据以其人类史上从未有过的庞大容量、极大的复杂性、快速的生产及
3、经济可得性,使人类第一次试图从总体而非样本,从混杂性而非精确性,从相关关系而非因果关系来测量、计量我们这个世界。人类的思维方式、行为方式及社会生活的诸多形态(当然包括商业活动)正在开始发生新的变化。或许是一场革命性、颠覆性的变化。从这个意义上讲,大数据不仅是一场技术运动,更是一次哲学创新。1 大数据的概述.大数据的概念 大数据(Big Dta)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。 数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷
4、歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。 对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebk通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Fceook,它们都是大数据时
5、代的创新者。1.大数据的三层关系204移动互联发展大会暨第五届中国手机应用开发者大会移动大数据论坛在北京国际饭店举行。英特尔公司中国研究院吴甘沙出席论坛并做了题目为“大数据的探索历程回归初心”的主题演讲。吴甘沙谈了做大数据研究一路走来着重处理的三个关系。第一层关系:数据与机器的关系。大数据纪元刚开始,产业界碰到的第一个核心问题就是“大”的问题。做了几十年的数据仓库甚至海量并行处理的数据库都不能处理那么大的数据,怎么办?需要范式切换。主要有三个方面,新型的数据与机器关系当中的第一条就是重新考虑架构与算法,重新考虑舍得,有舍才能得,天下没有免费的午餐,所以必须要舍弃一些,得到一些新的。必须舍弃贵族
6、化的高端小型机和服务器,得到平民化的更大量的X6服务器。通过这样一种可横向、可水平扩展服务器处理每两年翻番的数据量的挑战。第二个舍得是舍弃硬件的可靠性和可用性,得到软件的可靠性和可用性。这也就是谷歌三大论文以及Hdp的核心重点。第三个舍得是舍弃传统数据库的强一致性,获得更放松一致性、可扩展架构,如NoSQL。第四个舍得是传统算法强调非常严格的精确性,现在要放弃一些精确性,通过近似、采样这种方式来获得更好的扩展性。最早大数据的处理范式是Mapredu的批量处理,英特尔慢慢有其他的需求,实时的流处理、多迭代的处理、图计算、即时查询等等新的范式百花齐放,最后万法归宗。刚才王斌老师将讲的SA的HNA本
7、身就是数据管理和分析的融合,现在非常流行的Haoop之后的SPARK,就是把前面的各种范式进行了融合。存储与内存的消长,大数据第一个要解决把数据存储下来,后来发现要把它放到大的内存里进行处理,获得实时性,接着在存储和内存之间现在又出现了闪存,有闪存化甚至全闪存的存储,也有闪存化的内存,把所有的计算在闪存里面处理,已经被微软、acebook等等大量使用。大家可以预期,两年以后出现新的非易失性的闪存,它的速度可能要比闪存快几百倍,和内存相似,这又会极大地颠覆数据与机器的关系。第二层关系:数据与人的关系。主要是价值的觉醒,如果数据不能产生价值它可能是负面资产。数据怎么能够给人带来价值?我们介绍一下它
8、的价值维度,把它映射到二维的时空象限里,用六个关键词来描述它。第一是“Voum”,两个关键词,小数据见微对个人进行刻划,大数据知著能够了解宏观规律,它是空间概念,同时也是时间概念,数据刚刚产生的时候,它的个性化价值、见微的价值最大,而随着时间的推移,它渐渐退化到只有集合价值。第二是Vcy,时间轴的原点是当下实时价值,副轴是过往,正轴是预测未来,如果知道知前后就能够做到万物的皆明。第三是aie,多源异质的数据,能够过滤噪声、查漏补缺、去伪存真,就是辩讹。还有晓意,能够从大量的非结构化数据中获得语意,从而能够使机器窥探人的思维境界,这六个价值维度怎么去实现?主要是两部分人,一是数据科学家要洞察数据
9、,另外一个是终端用户和领域专家要去解读数据并利用数据。首先看洞察数据,数据科学,人和机器作用发生了消长,讲个例子,机器学习大家觉得是机器的问题,其实人在里面起到很重要的作用,尤其是机器学习是模型加特征,而特征工程是一个人力工程,你要有经验非常丰富的特征团队去死磕特征,找出更好、更多的特征,才能够使机器学习的效果更好。但是现在深度学习这些新技术出来,能够用机器学习特征,能够在大量非结构化数据中找到丰富的信息维度用特征表达出来,这远远超出了人的能力。大家知道黑客帝国描述了一个场景,人脑袋后面插一个插头,给机器提供营养,我可能不会那么悲观,但是像这样的互动关系以一种更良性的方式出现了,现在人的一言一
10、行、社交行为、金融行为都已经成为机器的养料、机器的数据,使得机器获得更好的洞察。终端用户需要更好地、更傻瓜化的分析工具和可视化工具,两年前我去参加大数据的会,基本上都是Haop和NSQL现在大家参加大数据会可以看到清一色的分析工具和可视化工具。大数据跟各行各业的化学作用正在发生。如果马化腾说“互联网”是互联网与各行各业的加法效应,那么大数据将与各行各业产生乘法效应。第三个关系,数据与数据的关系。现在只有海面平的数据是搜索引擎可以检索到,深海的数据可能是黑暗的数据,在政府、在企业里大家看不到。我们怎么办呢?必须让数据发现数据。只有让数据能够发现数据、遇到数据,才能产生金风玉露一相逢、便胜却人间无
11、数的效果。这里有三个重要的观念,需要法律、技术、经济理论和实践上配合。法律上要明确数据的权利,数据所有权,数据的隐私权,什么数据不能给你看;数据的许可权,什么数据是可以给你看的;数据的审计权,我给你看了以后,你是不是按照许可的范围去看;数据的分红权。数据像原油又不同于原油,原油用完了就没有了,数据可以反复地产生价值,因此数据的拥有者应该得到分红。我们要保证数据的开放、共享、交易。公共数据和部分科研数据要开放,开放过程中注意保护隐私。企业之间可以进行数据的点对点共享,最高境界是不丢失数据的所有权和隐私权的前提下共享,这里有多方安全计算的概念。1982年姚期智老先生提出了百万富翁的窘境的问题,两个
12、百万富翁他们想要比谁更富,但是谁都不愿意说出来自己都多少钱,在我们的数据共享当中要通过各种各样的技术达到这样的效果。还有数据交易,建立多边多边平台来支持数据交易。互联网能发展起来经济学理论和实践是很重要的支撑,梅特卡夫定律决定了一个互联网公司的价值,跟它用户数的平方成正比,又比如说谷歌请最好的经济学家,它的一个广告业务的核心就是建立在一个非常先进的拍卖经济学的模型基础上。数据经济也需要这样一些基础的理论,比如数据定价和信息定价不一样,信息做一个咨询报告000美金卖给你,可以卖给所有人。但数据对不同的单位价值不一样,可能我之毒药是彼之蜜糖。另外估值,一个企业拥有大量的数据,是无形资产的一部分,对
13、于企业的市场价值带来了多大的增长。13 大数据的四个特性大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特征: 数据规模大( lue) ,数据种类多( Variety),数据要求处理速度快( Velocity) ,数据价值密度低(Value) ,即所谓的四V特性。数据规模大( Volue):企业面临着数据量的大规模增长。例如,DC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚
14、是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1B数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。数据种类多(Vait):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。处理速度快( Vlocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和
15、服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMResarch关于数据创建速度的调查,据预测,到202年全球将拥有22亿部互联网连接设备。数据价值密度低( Value):大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。.4大数据的三个特征除了有四个特性之外,大
16、数据时代的数据还呈现出其他三个特征。第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求.第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。 大数据的技术与处理2.1 大数据的技术1.数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓
17、库或数据集市中,成为联机分析处理、数据挖掘的基础。 2.数据存取:关系数据库、NOSQL、SQL等。 .基础架构:云存储、分布式文件存储等。 4.数据处理:自然语言处理(NLP,NaturalaguagProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言,所以自然语言处理又叫做自然语言理解(NLU,aualnguag Undersadin),也称为计算语言学(mputaionl Linguistis。一方面它是语言信息处理的一个分支,另一方面它是人工智能(A,ifical Inteligenc)的核心课题之一。 5统计分析:假设检验、显著性
18、检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、loistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrp技术等等。 6.数据挖掘:分类 (Clasification)、估计(Esimatn)、预测(Pction)、相关性分组或关联规则(Aiiygroing or assoiato rules)、聚类(Custering)、描述和可视化、Descriptio an Visuatio)、复杂
19、数据类型挖掘(Text, Web ,图形图像,视频,音频等)。 7.模型预测:预测模型、机器学习、建模仿真。 8.结果呈现:云计算、标签云、关系图等。2. 大数据的处理1.采集大数据的采集是指利用多个数据库来接收发自客户端(eb、或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和racle等来存储每一笔事务数据,除此之外,es和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访
20、问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。.导入预处理虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自itter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。3.统计/分析统计与分析主要利用分布式数据库,或者分布
21、式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到MC的GrenPlm、rce的xada,以及基于MyQL的列式存储Inobrigt等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。4.挖掘与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Prct)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Km、用于统计学习的SVM
22、和用于分类的NaivBae,主要使用的工具有aop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。3 大数据的应用1 大数据在金融方面的应用正如诸多文献所谈到的,大数据对许多行业的影响和冲击已经呈现。例如,商业零售、物流、医药、文化产业等。金融,作为现代经济中枢,其实也已透出了大数据金融的曙光。过去的201年,中国金融界热议最多的或许是互联网金融,更有人指出213年是中国互联网金融元年。确实,第三方支付、2P、网贷、众筹
23、融资、余额宝、微信支付等发展迅速。众多传统金融业者也或推出自己的电商平台,或与互联网企业联手提供相应的金融产品和服务。互联网金融,无论是业界、监管者或理论界,都在试图给出自己的理解和定义。但到目前为止,尚未有一个统一的、规范的概念。在我看来,互联网金融本来就是一个不确切的概念,也不可能有一个明确的定义。严格说来,所谓互联网金融只是大数据金融的一种展现或形态。换言之,前者是表,后者是里。这是因为,无论是互联网还是金融业,其实质都是大数据(信息)。首先,对互联网企业而言,流量、客户等数据(信息)是其涉足金融业的基石。对金融企业而言,提供中介服务,撮合金融交易也是以数据(信息)为基础。其次,没有大数
24、据技术的支撑,所谓互联网金融也难以快速、持续成长。0世纪9年代互联网浪潮的蓬勃兴起,至今已近二十年。但从世界范围看,所谓互联网金融却发展缓慢。当然,其中原因很多,但其主要原因则是大数据技术是近几年才快速发展起来的。最后,从金融企业来看,在数据中心建设,软硬件系统建设,数据(信息)挖掘、分析等方面也是做得有声有色,其庞大的客户数据、海量交易记录及众多信息源,使其在大数据应用方面也做了许多积极探索。因此,要准确反映近年新金融趋势,“大数据金融”比“互联网金融”更为贴切。32大数据金融有以下七大特征 网络化的呈现。在大数据金融时代,大量的金融产品和服务通过网络来展现,包括固定网络和移动网络。其中,移
25、动网络将会逐渐成为大数据金融服务的一个主要通道。随着法律、监管政策的完善,随着大数据技术的不断发展,将会有更多、更加丰富的金融产品和服务通过网络呈现。支付结算、网贷、P2P、众筹融资、资产管理、现金管理、产品销售、金融咨询等都将主要通过网络实现,金融实体店将大量减少,其功能也将逐渐转型。 基于大数据的风险管理理念和工具。在大数据金融时代,风险管理理念和工具也将调整。例如,在风险管理理念上,财务分析(第一还款来源)、可抵押财产或其他保证(第二还款来源)重要性将有所降低。交易行为的真实性、信用的可信度通过数据的呈现方式将会更加重要,风险定价方式将会出现革命性变化。对客户的评价将是全方位、立体的、活
26、生生的,而不再是一个抽象的、模糊的客户构图。基于数据挖掘的客户识别和分类将成为风险管理的主要手段,动态、实时的监测而非事后的回顾式评价将成为风险管理的常态性内容。 信息不对称性大大降低。在大数据金融时代,金融产品和服务的消费者和提供者之间信息不对称程度大大降低。对某项金融产品(服务)的支持和评价,消费者可实时获知该信息。 高效率性。大数据金融无疑是高效率的。许多流程和动作都是在线上发起和完成,有些动作是自动实现。在合适的时间,合适的地点,把合适的产品以合适的方式提供给合适的消费者。同时,强大的数据分析能力可以将金融业务做到极高的效率,交易成本也会大幅降低。 金融企业服务边界扩大。首先,就单个金
27、融企业而言,其最合适经营规模扩大了。由于效率提升,其经营成本必随之降低。金融企业的成本曲线形态也会发生变化。长期平均成本曲线,其底部会更快来临,也会更平坦更宽。其次,基于大数据技术,金融从业人员个体服务对象会更多。换言之,单个金融企业从业人员会有减少的趋势,或至少其市场人员有降低的趋势。 产品的可控性、可受性。通过网络化呈现的金融产品,对消费者而言,是可控、可受的。可控,是指在消费者看来,其风险是可控的。可受,是指在消费者看来,首先其收益(或成本)是可接受的;其次产品的流动性也是可接受的;最后消费者基于金融市场的数据信息,其产品也是可接受的。 普惠金融。大数据金融的高效率性及扩展的服务边界,使
28、金融服务的对象和范围也大大扩展,金融服务也更接地气。例如,极小金额的理财服务、存款服务。支付结算服务等普通老百姓都可享受到。甚至极小金额的融资服务也会普遍发展起来。传统金融想也不敢想的金融深化在大数据金融时代完全实现。3. 大数据金融图景 尽管大数据技术还处于早期发展阶段,但大数据金融已透出了一片曙光。我们结合多方面的文献和事实,试图勾勒出大数据金融图景。 泛金融化。金融供给也许不再是传统金融业者的专属领地,许多具备大数据技术应用能力的企业都会或多或少涉足、介入金融行业。在未来的某一天,也许银行与非银行间,证券公司与非证券公司间,保险(放心保)公司与非保险公司间的界限会非常模糊。金融企业与非金
29、融企业间的跨界融合成为常态。同时,金融企业在提供传统金融服务的同时,其服务范围、内容也会泛金融化,会提供综合的、社会化的服务。 多层次的行业格局。大数据金融时代,金融服务层次将空前丰富,既有行业寡头,也有区域金融服务企业。同时,也存在大量的地方、社区金融企业,也会出现无实体店的金融企业。行业市场更加细分。不同层次的消费者都能享受到特定的金融服务。在此过程中,会催生许多与大数据金融相关的行业和企业。 网络化加新型实体店。大数据金融将网络化呈现和线下消费者体验相互融合,以满足金融消费者不同需求。网络化尤其是移动网络的迅速发展,金融服务场景会发生很大变化,所谓“3A”(nywhere、Anyime、
30、Anow)金融将在许多金融产品领域实现。线下实体店既是网络化的节点,也会以高度智能化的形态呈现。也许传统柜台不复存在。综合金融服务方案定制、体验式服务、更多社会化服务会成为金融实体店的主要内容。高度个性化金融。大数据金融时代,客户已被高度数据化。大数据技术的进步,使成千上万的客户都能被精准细分与定位,真正实现以客户为中心。金融企业的服务将是高度个性化的,能充分满足客户的个性需求。4 大数据应用中的三大未解难题近年来,大数据这个词成为互联网领域关注度最高的词汇,时至今日,大数据已经不再是I圈的“专利”了,从去年的春晚,到刚刚过去的两会,都能见到它的身影,但实际上春晚与两会的数据都只能叫做小数据,
31、它与真正的大数据还相差甚远。即便如此,数据所产生的价值已经被人们所认知。就大数据来说,它的发展可以分成三个阶段,第一个阶段是组织内部的数据,这些数据通常都是结构化的数据,我们一般将这些数据进行分类、排序等操作,将相同类型的数据进行对比、分析、挖掘,总而言之基本上都是统计工作。到了第二阶段,数据的范围扩大到行业内,各种各样的应用数据出现,数据量大规模增长,尤其是非结构化数据的出现。典型的像视频、图片这一类的数据,在这一阶段的特点就是非结构化和结构化数据并存,且数据量巨大,要对这些数据进行分析是我们目前现阶段所处在的状态。第三阶段则是未来大数据发展的理想化状态,首先它一定是跨行业的,且数据的范围是
32、整个社会。通过对这些数据进行分析加以使用,将直接改变我们的生活方式,这也是现在很多企业所设想的未来交通、医疗、教育等领域的发展方向。1大数据太大不敢用第三个阶段是我们所憧憬的,但在我们所处的第二阶段面对的更多是问题。其中的一个问题就是“大”。大数据给人最直观的感受就是大,它所带来的问题不仅仅是存储,更多的是庞大的数据没办法使用,以交通为例,从001年开始在北京的主干道上都增设了一些卡口设备,到了今天基本上大街小巷都能看到。这些设备每天所拍摄的视频及照片产生的数据量是惊人的,仅照片每天就能产生2千万张,而解决这些数据的存储只是最基本的任务,我们更需要的是使用这些数据。例如对套牌车辆的检查,对嫌疑车辆的监控,当你想要使用这些数
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1