大数据云计算文献综述.docx

上传人:b****5 文档编号:11745312 上传时间:2023-03-31 格式:DOCX 页数:58 大小:462.98KB
下载 相关 举报
大数据云计算文献综述.docx_第1页
第1页 / 共58页
大数据云计算文献综述.docx_第2页
第2页 / 共58页
大数据云计算文献综述.docx_第3页
第3页 / 共58页
大数据云计算文献综述.docx_第4页
第4页 / 共58页
大数据云计算文献综述.docx_第5页
第5页 / 共58页
点击查看更多>>
下载资源
资源描述

大数据云计算文献综述.docx

《大数据云计算文献综述.docx》由会员分享,可在线阅读,更多相关《大数据云计算文献综述.docx(58页珍藏版)》请在冰豆网上搜索。

大数据云计算文献综述.docx

大数据云计算文献综述

大数据云计算文献综述

一个大数据的调查

摘要:

在这篇论文中,我们将回顾大数据的背景以及当前发展状况。

我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:

云计算、物联网、数据中心,以及Hadoop。

接下来我们着重大数据价值链的四个阶段,也就是:

数据生成,数据采集,数据存储和数据分析。

对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。

最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。

这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。

这个调查包括了对开放问题和未来方向的讨论。

关键字大数据云计算物联网数据中心Hadoop智能电网大数据分析

1、背景

1.1大数据时代的曙光

在过去的二十年,数据在各种各样的领域内爆炸式增长。

按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。

在未来这个数字至少每两年增加一倍。

在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。

与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。

另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。

近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。

此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。

这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。

大数据的时代已经到来超越一切质疑[10]。

目前,与互联网公司的业务相关联的大数据快速增长。

例如,谷歌处理的数据

达数百拍字节(PB),Facebook的生成日志数据每月有超过10PB,XX一家中国公司XX,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。

图1示出的全球数据量的热潮。

当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下:

图一、持续增长的数据

信息技术的最新发展(IT)使其更容易以产生数据。

例如,每分钟有平均72个小时的视频上传到YouTube[11]。

因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。

云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。

云计算提供了安全措施,访问网站以及数据资产的渠道。

在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。

这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。

日益增长的数据造成怎样在当前硬件和软件的基础上

存储和管理如此庞大的异构数据集的问题。

考虑到大数据的异质性,可扩展性,实时性,复杂性和保密性,我们将有效地通过在不同层面分析,建模,可视化和预测,进而“开采”数据集,从而揭示其内在的性能以及完善决策。

1.2、大数据的定义和特点

大数据是一个抽象的概念。

除了大量的数据,它也有一些其他的功能,这决定本身和“海量数据”或之间的差异“很大的数据。

”目前,虽然大的数据的重要性已经成为共识,人们仍然对它的定义有不同意见。

一般情况下,大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。

因为不同的关注点,科技企业,研究学者,数据分析,技术从业人员对大数据有不同的定义。

以下定义可以帮助我们有一个在更好地理解大数据在社会,经济里的技术内涵。

2010年,ApacheHadoop将大数据定义为“大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。

”在这一定义的基础上,在2011年5月,麦肯锡公司,一个全球咨询机构宣布大数据作为下一个前沿创新,竞争和生产力。

大数据系也可指可能用经典数据库软件无法获得、存储、管理的数据集,这个定义包括两个含义:

一是数据集“卷符合大数据的标准正在发生变化,可随着时间的推移或技术的进步;其次,数据集“卷顺应大标准

在不同的应用数据彼此不同。

在目前,大数据一般为几个TB到几PB[10]。

从麦肯锡公司的定义,可以看出,一个数据集的体积不是唯一标准大数据。

日益增长的数据规模不能由传统的处理,并对其管理数据库技术是接下来的两个关键特性。

事实上,早在2001年,META的分析师(现Gartner公司)道格·莱尼通过3VS模型将大数据定义为挑战和机遇。

即,增加的数据数量,速度和品种,在研究报告中[12],尽管这种最初不是用模型来定义大数据,未来十年里,Gartner等多家企业,其中包括IBM[13]和微软的[14]研究部门仍然采用的是“3VS”模型来描述大数据。

在“3VS”的模式中,数据卷是指,与人民群众的产生和收集数据,数据规模越来越大;速度意味着大数据的时效性,具体而言,数据采集和分析等必须迅速和及时进行的从而为最大限度地利用大数据的商业价值;各种指示各种类型的数据,其中包括半结构化和非结构化数据,例如音频,视频,网页,和文字,以及传统的结构化数据。

然而,其他人有不同的意见,包括IDC,一个在大数据和研究领域最有影响力的领导人之一。

2011年,IDC的报告定义大数据为“大数据技术描述了新一代的技术和架构,旨在在经济上提取捕捉,发现,和/或分析非常大量的各种数据的“[1]根据这个定义,大数据的特点可以概括为4Vs时,即体积(大体积),

品种(各种形式),速度(快速生成),和价值(巨大的价值,但很低密度)。

如图2,这类4Vs定义被广泛认可它强调大数据,即意义和必要性,探索隐藏的巨大价值。

这个定义说明在大数据中最关键的问题,是如何在一个巨大的规模,各类型和快速生成的数据集中发现价值。

至于周帕瑞克,Facebook的副总监工程师说,“如果你不利用所收集的数据,你只能拥有的数据不是大数据,“。

[11]

此外,NIST的定义大数据“大数据应其中,平均数据的数据量,采集速度,或数据表示限制使用传统的能力关系的方法来进行有效的分析或数据这可能有重要的水平缩放技术“,其重点是技术得到有效处理大数据方面。

它表明,有效的方法或技术需要开发并用于分析和处理大数据,已经有来自大量讨论。

工业界和学术界对大数据[16,17]的定义。

除了制定一个适当的定义,大数据如何研究还应该着眼于如何提取它的价值,使用数据,以及如何将“一堆数据”变成“大

数据。

 

图2、大数据的4Vs模型

1.3大数据的价值

麦肯锡公司观察到大数据创造价值观对美国医疗保健的深入研究后,欧盟公共部门管理,美国零售业、全球制造,和全球个人位置数据。

通过对代表全球经济的五大核心产业的研究,麦肯锡的报告指出,大数据可以充分发挥经济职能,我证明了企业和公共部门的生产力和竞争力,为消费者创造了巨大的利益。

在[10],麦肯锡总结大数据可以创造的价值:

如果大数据C将创造性和有效利用来提高效率和质量,美国的医疗行业通过获得的数据可能会超过300美元亿美元的潜在价值,从而减少花费引言美国医疗8%以上;零售商充分利用大数据可以提高超过60%的利润;也可以利用大数据来提高政府的效率,歌剧在欧洲,这样的发达经济体可以节省超过100欧元亿美元(不包括减少欺诈、错误和税收差异影响)。

 

麦肯锡的报告被视为前瞻性和预测性,而下面的事实可以验证大数据值。

2009流感大流行期间,谷歌获得及时的信息,通过分析化大数据,甚至提供比由疾病预防中心提供更多有价值的信息。

几乎所有国家所需的医院通知机构,如疾病预防中心流感病例的新类型。

然而,患者通常没有立即看医生的时候,感染。

同时也花了一些时间从医院到疾病预防的信息中心和疾病预防中心分析总结等信息。

因此,当公众意识到新流感的大流行,这种疾病可能已经一到两周的时间,一个滞后的性质。

谷歌发现,在流感的传播,作品经常寻求在其搜索引擎将不同于那些普通的钛MES和参赛作品的使用频率相关的流感传播的时间和地点。

谷歌发现45的搜索条目组密切相关的疫情流感和将它们在具体的数学模型来预测流感的传播,甚至预测流感传播的地方。

相关研究成果已发表的他在自然[18]。

2008,微软收购了Farecast,美国科技公司Farecast的机票预测系统,预测趋势和上升/下降的机票价格范围。

该系统已被纳入微软的必应搜索引擎。

到2012时,该系统已节省近50美元每名乘客的门票,与预测精度高达75%。

目前,数据已成为重要的生产因素,可能是与物质资产和人力资本。

多媒体、社交媒体、物联网是发展,企业将收集没有更多的信息,领先

指数增长的数据量。

大数据将有一个巨大的和不断增加的潜力,为企业和消费者创造价值。

1.4大数据的发展

在上世纪70年代末,出现“数据库机器”的概念,是一种专门用于存储和分析数据的技术。

随着数据量的增加,存储和处理能力单一主机系统的一个不充分。

在上世纪80年代,人们提出了“无共享,“并行数据库系统,以满足日益增长的数据量需求[19]。

分享没有系统的架构是基于集群的使用,每个机器都有自己的处理器,存储和磁盘。

Teradata系统是第一个成功的商业并行数据库系统。

苏最近的数据库变得非常流行。

1986年6月2日,一个具有里程碑意义的事件发生时,Teradata交付第一并行数据库系统的存储容量1TB凯马特帮助大通用电气规模在北美国的零售公司,以扩大其数据仓库[20]。

在20世纪90年代末,并行数据库的优势在数据库领域得到了广泛的认可。

然而,许多大数据的挑战出现了。

随着互联网服务的发展,索引和查询内容的迅速增长。

因此,搜索引擎公司不得不面对的挑战处理这些大数据。

谷歌创造了GFS[21]和[22]编程模型MapReduce处理所带来的数据管理和分析在互联网规模的挑战。

此外,内容由用户生成,传感器,和其他无处不在的数据源也要压倒性的数据流,这需要一个根本性的变化,在计算架构和大型数据库加工机理。

在一月2007,吉姆灰色,数据库软件的先驱,这种转变称为“第四范式”[23]。

他还认为,应对这种范式的唯一途径是开发新一代的计算工具来管理,可视化和分析质量我的数据。

2011年六月,另一个具有里程碑意义的事件发生;EMC/IDC发表题为从混沌[1]提取价值的研究报告,其中介绍的概念和对F大数据潜力第一次。

本研究报告引发了业界和学术界对大数据的极大兴趣。

在过去的几年中,几乎所有的大公司,包括EMC、Oracle、IBM、微软、谷歌、AMAZON,和Facebook等已经开始了他们的大数据项目。

以IBM为例,自2005,IBM已经投资16美元亿30收购大数据相关。

在学术界,大数据也在聚光灯下。

在2008,自然发表了一个大数据的特殊问题。

2011、科学性在大数据的“数据处理”的关键技术,推出了一个特殊的问题。

2012、欧洲信息学与数学研究协会(会)新闻出版大型特刊数据。

在2012年初,一份题为“大数据”的大冲击在瑞士达沃斯论坛上发表,宣布大数据已经成为一种新的经济资产,就像货币一样或黄金。

一个国际研究机构Gartner,发出炒作周期从2012到2013,其中大数据计算、社会分析、存储数据分析等48个新兴技术值得最关注。

许多国家的政府,如美国也非常重视大数据。

月2012日,奥巴马政府宣布了2亿美元的投资,推出“大数据研究和去发展计划,“这是一次重大科技发展计划1993“信息高速公路”的倡议后。

七月2012,“轰轰烈烈的日本通信技术”项目发出由日本内政部和交通部表示,大数据的发展应该是一个国家战略和应用技术应该是重点。

在七月2012,联合国有限的国家发行的大数据的发展报告,总结了各国政府如何利用大数据更好地服务和保护他们的人。

1.5大数据的挑战

急剧增长的海量数据在大数据时代,对数据的采集、存储的巨大挑战,管理和分析。

传统的数据管理和分析系统的基础上关系数据库管理系统(RDBMS)。

然而,这样的关系数据库管理系统只适用于结构化数据,半结构化或非结构化的数据比其他。

此外,越来越多地利用关系数据库管理系统越来越贵的硬件。

这是明显地,传统的关系数据库管理系统无法处理大数据量大、异质性大。

研究界提出了一些解决方案,从不同的视角。

例如,云计算是用来满足对胸骨的要求对于大数据,例如,成本效率,弹性结构,平滑升级/降级。

对于大规模无序数据集、分布式文件系统的永久存储和管理解决方案的[24][25]和NoSQL数据库都是不错的选择。

这样的程序明框架,在处理集群的任务,特别是对网页排名取得了很大的成功。

各种大数据应用可以基于这些创新技术或平台开发。

此外,它是不平凡的部署大数据分析系统。

一些文献[26,28]讨论大数据应用程序开发中的障碍。

面临的主要挑战如下:

–数据表示:

许多数据集具有异质性的类型、结构、语义、组织、粒度一定的水平,和可访问性。

数据表示的目的是使数据更有意义计算机分析与用户解释。

然而,不适当的数据表示将减少原始数据的价值甚至可能阻碍有效的数据分析。

高效数据表示应反映数据结构、类和类型,以及集成技术,以便在不同的数据集上进行高效的操作。

–冗余以及数据压缩:

总的来说,有一个高水平的冗余数据。

减少冗余和数据压缩是有效的降低企业的间接成本对这些数据的潜在价值不受影响的前提下IRE系统。

例如,大多数数据所产生的传感器网络是高度冗余的,可过滤和压缩在奥德震级的。

–数据生命周期管理:

与相对缓慢的进步存储系统相比,无处不在的传感和计算在数据速率和规模产生了前所未有的。

我们面临有很多紧迫的挑战,其中之一是目前的存储系统不能支持这样的海量数据。

一般而言,隐藏在大数据的值依赖于数据的新鲜度。

因此,E、数据重要性原理来分析价值相关应决定哪些数据将存储的数据将被丢弃。

——分析机理:

大数据分析系统在有限时间内处理大量的数据。

然而,传统的关系数据库管理系统,严格的设计与缺乏可扩展性和可扩展性,不能满足性能要求。

非关系数据库在非结构化数据处理中显示出其独特的优势。

开始成为主流的大数据分析。

即便如此,仍有非关系型数据库的性能问题和一些特定的应用。

我们会找到一个妥协的关系型数据库和非关系型数据库之间的解。

例如,一些企业利用混合数据库体系结构,集成了数据库类型(例如,Facebook的优势和淘宝。

在内存数据库和基于近似分析的样本数据的基础上,需要进行更多的研究。

数据机密性:

目前大多数大数据服务供应商或业主不能有效地维护和分析这些庞大的数据集,因为他们的能力有限。

他们必须依靠专业onals或工具来分析这些数据,从而增加了潜在的安全风险。

例如,事务性数据集一般包括一组完整的操作数据来驱动关键业务流程专家。

这些数据包含了最低的粒度和一些敏感信息,如信用卡号码。

因此,大数据的分析,可以提供给三分之一方处理采取适当的预防措施来保护这些敏感数据,以确保其安全。

能源管理:

主要框架计算系统的能源消耗,从经济和环境角度都受到了很大的关注。

随着数据量和分析需求的增长而且,处理,存储,和大数据的传输会消耗更多的电能。

因此,系统级的功耗控制和管理机制应该是电子建立大数据的可扩展性和可访问性,保证了。

–的可扩充性和可扩展性:

大数据分析系统必须支持当前和未来的数据集。

解析算法必须能够处理日益扩大和更为复杂的Datasets。

–合作:

大数据分析是一个跨学科的研究,这需要不同领域的专家合作,收获大数据的潜力。

一个全面的大数据网络结构结构必须建立有助于各种领域的科学家和工程师访问不同类型的数据,充分利用他们的专业知识,以配合完成分析的目的专家。

2、相关技术

为了深入理解大数据,这一秒,将介绍一些基本的技术,是密切相关的大数据,包括云计算,物联网,数据中心,和Hadoop。

2.1、云计算与大数据的关系

云计算与大数据有着密切的关系。

云计算的关键组成部分如图3所示。

大数据是计算密集型操作的对象和应力的存储电容“云系统。

云计算的主要目的是在集中管理利用巨大的计算和存储资源,从而提供大数据应用的细粒度的计算t-ing能力。

云计算的发展为大数据的存储和处理提供了解决方案。

另一方面,大数据的出现也加速了云的发展计算。

基于云计算的分布式存储技术能够有效的人年龄大的数据;通过云计算的并行计算能力的美德可以提高ACQ效率大数据的采集和分析。

尽管有很多重叠的技术在云计算和大数据,他们在如下两方面的不同。

首先,概念在一定程度上是不同的。

云计算入门ansformsIT体系结构而影响商业决策的大数据。

然而,大数据依赖于云计算作为基础设施的顺利运作。

其次,大数据和云计算有不同的目标客户。

云计算是一种技术和产品向首席信息官(CIO)作为一种先进的IT解决方案。

大数据是一个产品针对首席执行官(CEO)重点业务。

由于决策者可以直接感受到来自市场竞争的压力,他们必须打败商的反对在竞争更加激烈的方式。

随着大数据和云计算的发展,这两种技术都是肯定和越来越纠缠对方。

云计算,其职能类似于为t计算机和操作系统的软管,提供系统级资源;大数据在云计算支持的上层提供的功能类似于数据库和高效的数据处理能力。

电磁兼容的总裁基辛格表示,美联社大数据的应用必须基于云计算。

大数据的演变是由快速增长的应用需求和云计算从虚拟化技术发展。

因此,云计算不仅提供了计算对大数据的处理,也是一种服务模式。

在一定程度上,云计算的进步也促进了大数据的发展,两者相辅相成。

 

 

 

图3云计算的关键组成部分

2.2物联网与大数据的关系

在物联网的范例中,大量的网络传感器被嵌入到不同的设备和机器中,在现实世界中。

这样的传感器部署在不同的领域可能会收集各种类型的ATA,如环境数据、地理数据、天文数据、物流数据。

移动设备、交通设施、公用设施、家用电器都是数据采集在物联网方面的设备,如图4所示。

通过物联网大数据具有不同的特点,与一般的大数据相比,由于数据收集的不同类型,其中最典型的特征包括他均质、品种、非结构化特征,噪声和冗余度高。

虽然目前物联网数据不占主导地位的大数据,由2030,数量传感器将达到一兆,然后物联网数据将是大数据的最重要的一部分,根据前投。

来自英特尔的一份报告指出,大数据在物联网有三大壮举符合大数据模式的特性:

(一)丰富的终端产生大量的数据;

(二)物联网所产生的数据通常是半结构化或非结构化的;(三)物联网的数据是有用的,只有当它被分析。

目前,物联网的数据处理能力已经收集到的数据背后,是加速大数据技术的发展推动了我介绍迫在眉睫加班。

物联网的许多运营商实现大数据由于物联网的成功是依赖于大数据和云计算的有效整合的重要性。

物联网的广泛部署将也带来许多城市进入大数据时代。

有一个令人信服的需要采取大数据的物联网应用,而大数据的发展已经落后于。

它已被广泛认可,这两种技术是相互依赖的凹痕应共同开发:

一方面,物联网的广泛部署驱动在数量和范畴数据的高增长,从而提供了机会,为应用大数据的发展;另一方面,大数据技术在物联网中的应用也加快了物联网的研究进展和业务模式。

 

 

图4物联网数据采集设备的说明

2.3数据中心

在大数据模式,数据中心不仅是一个数据集中存储平台,同时也承担更多的责任,如获取数据、管理数据、组织数据,一利用数据值和函数。

数据中心主要关注“数据”而非“中心”。

它有大量数据、组织和人的年龄数据根据其核心目的和发展新台币的路径,这比拥有一个好的网站和资源更有价值。

大数据的出现带来了良好的发展机遇和巨大挑战的数据中心。

大数据是一个新兴数据中心的爆炸式增长,促进了基础设施和相关软件的爆炸性增长。

物理数据中心网络是支持大数据的核心,但目前,是最迫切需要的关键基础设施[29]。

大数据需要数据中心提供强大的后台支持。

大数据技术具有非绅士的要求对存储容量和处理能力,以及网络传输容量。

企业必须把数据中心的发展纳入考虑,以提高在有限的价格/性能比下快速、有效地处理大数据的能力。

这个数据中心应为基础设施提供大量的节点,建立一个高速的内部网络,有效的散热,有效的备份数据。

只有当一个高能源效率耳鼻喉、稳定、安全、可扩展,和冗余的数据中心建设,大数据应用的正常运行,可以保证。

大数据应用的增长加速了数据中心的革命和创新。

许多大数据应用具有独特的体系结构和直接促进发展数据中心的存储、网络和计算技术的应用。

随着结构化和非结构化数据量的持续增长,以及各种来源的分析数据,数据处理和计算能力的数据中心,将大大提高。

此外,随着数据中心规模的不断扩大,如何对数据中心进行研究也成为一个重要的课题降低数据中心发展的运营成本。

–大数据赋予更多的功能到数据中心。

在大数据模式,数据中心不仅要关注硬件设施也加强软能力,即能力大数据的获取、处理、组织、分析和应用。

数据中心可以帮助业务人员分析现有的数据,发现企业经营的问题,和发展从大数据的运算解决方案。

2.4Hadoop和大数据之间的关系

目前,Hadoop是广泛应用于大数据应用的行业,例如,垃圾邮件过滤、网络搜索、点击流分析、社会推荐。

此外,相当学术研究了基于Hadoop的。

一些代表性的病例是在下面。

在2012六月宣布,雅虎运行Hadoop42000服务器在四个数据中心,以支持其产品和服务,如例如,搜索和垃圾邮件过滤,等。

目前,最大的Hadoop集群有4000个节点,而节点的数量将增加至10000与Hadoop2版本。

在同一个月,英足总cebook宣布他们的Hadoop集群可以处理100PB的数据,增长了0.5,铅每天2012十一月。

一些知名的机构使用Hadoop进行分布式计算的李以[30]。

此外,许多公司提供的Hadoop商业执行和/或支持,包括Cloudera,IBM,MAPR,EMC,Oracle。

现代工业机械系统中,传感器被广泛应用于环境监测、故障预测等收集信息,bahga和别人在[31]提出了一个框架网络的数据组织和云计算基础设施,称为云景。

云观采用混合结构,局部节点,基于Hadoop的远程集群分析机器生成的数据。

本地节点用于实时失败的预测;基于Hadoop集群用于复杂的离线分析,例如,案例驱动的数据分析。

基因组数据的指数增长和测序成本的急剧下降,将生物科学和生物医药的数据转换为数据驱动的科学。

gunarathne等人。

在[32]利用云计算基础设施三、亚马逊AWS、微软azune,和数据处理框架基于MapReduce,Hadoop和微软的DryadLINQ跑两平行生物医药应用:

(我)基因组片段组装;(ii)在化学结构分析的降维。

在随后的应用中,使用166-d数据包括26000000个数据点。

作者比较了所有的性能效率,成本和可用性方面的框架。

根据这项研究,作者得出结论,松散耦合将越来越多地应用于电子云的研究,和磷并行编程技术(MapReduce)的框架,可以为用户提供更方便的服务界面和减少不必要的成本。

3大数据的生成与获取

我们已经介绍了几种关键技术与大数据、云计算、物联网,即数据中心,和Hadoop。

下一步,我们将重点放在价值链的大数据,这一般可以分为四个阶段:

数据生成、数据采集、数据存储和数据分析。

如果我们把数据作为原材料,数据生成和数据采集是一个开发在处理过程中,数据存储是一个存储过程,数据分析是利用原材料来创造新的价值的生产过程。

3.1数据生成

数据生成是大数据的第一步。

以互联网数据为例,在搜索条目、互联网论坛帖子、聊天记录、微博留言等方面的数据量巨大产生。

这些数据与人们的日常生活密切相关,具有高价值、低密度的特征。

这样的数据可能是毫无价值的个人,但通过开发并积累了大量数据,有用的信息,如习惯和爱好的用户可以被识别,它甚至可以预测用户的行为和情绪。

此外,通过纵向和/或分布式数据源产生的数据集更大规模、高度多样化的,复杂的。

这些数据源包括传感器、视频、点击流,和/或将其他可用的数据源。

目前,大数据的主要来源是经营和交易信

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1