互联网大数据文献综述.docx

资源描述

互联网大数据文献综述.docx

《互联网大数据文献综述.docx》由会员分享，可在线阅读，更多相关《互联网大数据文献综述.docx（10页珍藏版）》请在冰豆网上搜索。

互联网大数据文献综述.docx

互联网大数据文献综述

大数据分析的趋势

亮点

大数据分析中的当前的最先进技术的概述。

大数据分析的规模和应用前景趋势。

在硬件上的现况和未来的发展趋势，如何帮助我们解决大规模数据集。

讨论目前采用的软件技术和未来趋势，以解决大数据分析应用。

关键词：

大数据分析数据中心分布式系统

摘要:

大数据分析是并行的分布式系统未来的主要应用之一。

数据仓库目前应用的规模已经超过EB级，并且其规模还在不断增长。

当数据集和相关应用程序超出了他们的规模,给这些的构成要求和软件开发方法的考虑带来了重大挑战。

数据集通常是分布式，它们的大小和安全考虑到分布式技术来得到保证。

数据经常驻留在不同的平台上计算，对网络能力，容错性，安全性和访问控制的考虑是在许多应用中的关键。

在其他应用程序中，分析任务的截止时间主要与数据质量有关。

对于大多数新兴应用程序,数据驱动的模型和方法,能够大规模操作的方法,到目前还未找到。

即使知道可以缩放的方法,验证结果又是一个重大的问题。

硬件平台的特性和软件堆栈从根本上影响数据分析。

在这篇文章中，我们提供了一个概述的最先进的硬件和软件的趋势在大数据分析应用程序前景的应用。

引言

随着互联网关键的技术的发展，计算作为一个实用程序的设想在上世纪90年代中期开始形成。

在网格计算时代的早期人们通常认为硬件作为主要资源。

网格计算技术专注于分享、选择和聚合各种各样的地理上分布的资源。

这些资源包括超级计算机、存储和其他设备，用来解决在科学、工程和商业的大规模计算密集型问题。

这些框架的一个关键特性是他们的支持透明跨域管理和资源管理能力。

“数据即资源”的概念被普及在p2p系统。

Napster、Gnutella，和BitTorrent允许节点共享多媒体数据内容通常直接彼此以分散的方式。

这这些框架强调互操作性和动态性，降低成本，资源共享特定的沟通和协作，聚集。

然而，在这些平台上，匿名，隐私问题和扩展性问题的考虑是次要的。

最近,云计算环境的可靠性、服务的健壮性被（通常的访问来自客户机的浏览器）来自于客户端，大规模生产的移动设备和通用计算机的访问检验。

云计算的服务观念概述为“基础架构即服务”（云计算资源在云中可用）,数据即服务（数据在云中可用）和软件即服务（访问程序在云中执行）。

从服务提供者的角度来看这提供了相当大的好处（在硬件和管理的成本降低），整体资源的利用率，以及更好的客户端接口。

云环境的计算底层通常依赖于高效和弹性的数据中心架构，基于虚拟化的计算和存储技术,高效利用商品硬件组件。

目前的数据中心通常规模为成千上万的节点，计算在云计算中经常跨越多个数据节点。

新兴的基于云的环境与分布式数据中心托管的大型数据仓库，同时也为分析提供强力的处理有效的并行/分布式算法的需要。

潜在的社会经济效益的大数据分析，与多样性的应用提出是很大的挑战，在本文的其他部分我们重点强调数据分析问题的规模和范围。

我们描述了常用的硬件平台上执行分析应用的相关情况，并考虑存储，处理，网络和能量。

然后，我们专注于应用程序，即虚拟化技术，运行时系统/执行环境和编程的软件基础模型。

我们在多样性数据分析的应用中，对健康和人类福利进行计算机建模与模拟得出一个简短的结论。

1.1数据分析的规模和范围

最近保守的研究估计，在2008年世界上的企业服务器系统已经能处理了9.57×10^21字节的数据。

这一数字预计将从这基础上每两年翻了一番。

举一个例子，沃尔玛的服务器每过一个小时就要处理超过一百万客户交易，这些信息插入到数据库，存储超过2.5PB的数据与167座国会图书馆的书籍数量相当。

在欧洲核子研究中心的大型强子对撞机每年将产生大约15千兆字节的数据，足以填满超过170万个双层DVD。

每天,Facebook产生近500TB的用户日志数据和数百万TB的图像数据。

每分钟，在YouTube有100小时的视频被上传，有135000小时的视频被观看。

每一秒,有超过28000个多媒体（MMS）消息被发送。

在2012大约4600万的移动应用程序被下载了，每一个应用程序收集到更多的数据。

推特的服务上有超过5亿5000万的活跃用户，他们每秒钟产生9100条推特。

eBay系统每一天处理超过100PB的数据。

在其他领域,波音喷气发动机每运转30分钟能产生10TB的操作信息。

其中，如果每一天有25000的航班，仅仅数据传感器和机器生产的足迹信息的数据，在横渡一次大西洋将产生几百TB的数据。

这些例子只是惊鸿一瞥，来自不同数据源的生态系统的数据集在迅速扩张。

结构化数据（例如，金融，电子医学记录，政府统计），半结构化数据（例如，文本，微博，电子邮件），非结构化（例如，音频和视频），和实时数据（如网络痕迹，一般的监测日志）。

如果有组织和适当的分析的话，所有这些应用都有可能提供宝贵的见解。

在当今广泛公认需要有效分析的大型数据集的应用程序。

这些应用包括医疗保健分析（例如，个性化基因组学），业务流程优化，和社会网络为基础的建议。

然而,预测表明数据增长将在很大程度上超过了可预见的成本改善,密度的存储技术,来处理它可用的计算能力和相关的能源熵。

例如，在2002和2009之间数据流量增长了56倍，相比，相应的计算能力的增加是16倍（主要是跟踪穆尔的法律）。

相比之下，1998至2005数据中心的规模的增长是每年173%。

这些趋势推断,大概需要13年对于计算能力的增加才能满足需求。

然而，能源效率并不是像预期在同一时间内增加25倍。

这产生几乎40倍的严重的不匹配的增加在数据分析能源足迹上。

负载特性。

大数据工作负载的全面研究，可以帮助他们理解对硬件和软件设计的影响。

由数值计算的“七个小矮人”，MEHUL，Shah等。

试图定义一组“数据小矮人”即关键数据处理内核用来提供当前和未来的数据中心的负载特性的报道。

在2010年借鉴一组广泛的负载特性，他们建立了一套分类尺寸（响应时间，访问模式，工作组，数据类型，读与写，处理复杂度），并得出结论，五个工作负载模型可以令人满意的覆盖以数据为中心的工作负载：

（一）在PB级规模的分布式排序，

（二）在内存中的索引搜索，（三）推荐系统，具有较高的处理负载和规则的通信模式，（四）顺序访问为基础的数据复制（五）视频上传和流交互应答率的服务器。

在联机分析处理（OLAP）的工作负载可以表示为

（1）、（3）、（4）的组合、在线事务处理（OLTP）的工作量只能部分捕获，在未来可能需要另一个类别，在内存索引和查询支持捕获一些这些负载特性的方面，但工作集因为太大而不能放在内存中。

1.2.设计考虑

在未来，大的规模、范围和性质（负载特性）的大数据分析应用，能独立的分别对硬件系统，软件系统和架构设计提供有趣的见解。

对硬件的影响。

数据访问模式和访问数据的频率（冷与热数据）可以驱动未来的内存层次结构的优化：

数据一般为热数据；但是随着时间的推移，它变成了归档，冷的数据，最适合存储在NVM中。

然而，有显着的例外的周期性或客户流失的访问模式（季节相关主题，名人的标题），和热庞大的数据集（比较基因组计算）应加以考虑。

此外,潜在的维度之间的相关性出现能对硬件堆栈的进行预测：

一个视频，由于存在多种格式或语言字幕，结果有许多版本，这些可以离线生成和存储（因此需要足够的存储）或动态生成（代码转换和翻译调控）数据给数据中心，或是在用户的设备上（客户端计算）带来计算压力。

另外，可能要重新考虑相对优先级的进展，在处理器设计的性能的考虑在当前的子系统的I/O之上。

存在这样一种替代的极端，一种选择将是考虑一个可能的“版本”：

层次结构的计算支持数据存储的元素，而不是今天的设计存储层次结构为计算元素服务。

逐渐瓦解现有的存储层次结构的平滑过渡，这样进一步提供节省能源消耗。

了解工作负载也能在硬件识别可能会用于直接执行特殊用途处理单元。

图形处理器、现场可编程门阵列（FPGA），专业化的特定应用集成电路（ASIC），和专用的视频编码器/解码器都是值得考虑的。

这样的硬件加速器大大减少能源消耗，与通用处理相比较。

这些可以集成在芯片上，导致的以数据为中心的家族是非对称处理器。

对软件的影响。

软件系统、存储和计算的需要为了迎合一个相当大的问题:

数据规模的空间、工作负载的性质和其他应用程序的需求，像一致性、可用性和分区容忍。

大数据规模需求高度可扩展的分布式存储系统能够适应大量的数据，有效率的入口和出口的机制；Apache的Flume就是这样的有利于数据收集的系统。

此外，这些存储系统应该支持高效查询的内存缓存和其他OLTP工作负载；即使HDFS最近增加了支持缓存。

不同工作负载需求各种各样的计算特点引擎,流式处理更多的在线数据的查询与事务支持。

大数据分析通常允许对其定量的输出放宽精度约束,从而影响算法设计。

随机的算法应用原始的、昂贵的计算内核和最后牺牲精度（数据可证明的界限尺寸/精度权衡）。

能源意识到计算内核可以减少能源足迹的分析计算，同时保留性能与最小精度退化（能源/精度权衡）。

2.数据分析的硬件平台

我们现在考虑当前数据分析的硬件平台，以及这些平台将来如何发展。

2.1内存/存储

在传统的系统设计，磁盘用于数据持久化和DRAM内存更快的访问/磁盘缓存。

然而传统磁盘有移动的部件，很大程度上制约了他们的一生和建立对其访问的时间界限。

另一方面，DRAM芯片需要静态刷新电路独立消费能源判断是否有数据读/写活动。

非易失性存储器（NVM）技术能解决这些缺点，并有望在未来设计发挥重大作用。

有几个以数据为中心的NVM应用程序[的建议。

基于Flash的应用可以公开为块存储通过串行连接SCSI（SAS）和串行先进技术附件（SATA）或PCIExpress接口甚至结合解散汇总内存提供降低成本效益解决方案。

其他类型的非易失性存储器如相变存储器（PCRAM）和忆阻器已提出将集成作为字节寻址的内存在芯片上的存储器总线或直接堆放（3D堆）。

非易失性存储器也可以用于实现额外的缓存层次，或更换持久存储，从而用于各级促进减缓内存崩溃的内存类型。

这些建议的共同点是稳定的转变用于持久性数据存储的内存接口，理由是性能与简化。

移动计算更接近数据也受到许多大型数据管理任务的一般结构，随后产生相关框架。

例如在经常使用的MapReduce范式中,数据被分区在可用的节点和任务计划,这样配置与数据操作的数量有关。

任务和相关数据的搭配也很注重节约能源。

最近的毫微级储存方案主张计算与持久性数据存储的搭配。

这是让人想起过去的想法，活跃存储,增强磁盘控制器处理特殊计算任务,是当时应用程序范围有限的原始提案。

从进化的角度来看，磁盘仍然具有很高的成本。

因此，他们不太可能完全被取代在之后的一段时间。

NVM技术应被视为近期未来设计的有吸引力的组成部分。

在这方面，我们还应该考虑到变化的应用将引发在总体的软件的栈的变化。

例如，当前的文件系统是在以毫秒的延迟优化。

NVMs提供延迟减少约三个数量级在这段时间（微秒）。

有的建议基于闪存的固态硬盘（SSD）支持key-value存储抽象，有利于它的工作负载。

还有其他人建议固态硬盘作为传统硬盘的缓存组织（混合设计）。

理想情况下NVMs应该暴露在的持久性指令集级别（ISA）,操作系统可以使用他们有效（例如，通过重新设计的部件，承担记忆波动或提供给上层，放置档案资料节能NVM模块API。

）的数据。

另一方面，持久的记忆能力将降低分离性；可以通过持久的内存交换解决这个问题。

从算法的角度设计和相关的数据结构,non-volatility可以推动替代,优化设计和索引的实现结构，键值存储数据库和文件系统，所有大数据分析的主要组件。

2.2网络资源对于数据分析

主要考虑设计标准通信协议栈的链路，网络和传输层的设计与互操作性的不同的技术和制造商的组件。

在这个设计中链路层是不可靠的，因此拥塞或不可靠的通信信道会造成数据包丢失。

为了补救,传输层在最后要求让步传播,从而影响带宽。

然而，一个典型的数据中心网络环境是完全不同的广域网。

首先，它的信道可以被认为是无损的，这一假设应该理想地反映在它实现的流动机制。

在一个单一的行政控制下，它大多是均匀的，所以向后兼容已经部署的协议不是问题。

负载平衡器和应用程序代理从外部通信所以没有单独的内部交通与常规TCP公平性问题。

在排队的情况下，往返时间（RTT）可小于250微秒。

应用程序同时需要非常高的带宽和非常低的延迟。

此外，很少有统计复用，所以一个流可以主导一个特定的路径。

数据中心网络中的一个特殊性能瓶颈是在许多大型网络应用程序广泛使用的分区/总设计模式：

从更高层次的应用程序的请求被分解成块，并在较低层的代理聚集，查看这些代理的反应，然后汇总产生的结果。

由此可见,数据以传回多对一的方式遍历一个瓶颈环节。

随着并发者数量的增加，吞吐量的应用水平在接收时比容量低几个数量级。

例如，这可能发生在MapReduce工作的shuffle阶段，当中间的键-值对多映射转移到适当的reducers。

最近的一个变种TCP，TCP数据中心（DCTCP），解决了这个Fork-Join网络交通结构，利用工程变更协议在大多数商品交换中实现的扩展，允许端到端的网络拥塞通知丢弃数据包。

相反，未来的性能问题可能会带动开关设备的定制。

注意，处理特定网络的缺点的细节与选择的协议基本上是相关的。

这个基本的竞争者是以太网和无线带宽。

无线带宽是一种能量比例网络，这个属性让这种技术的优势，因为能源效率是一个主要的设计目标在未来数据中心。

预计这两个选项将在即将到来的未来会成为应用程序为基础。

关于互连技术，光学和电气光学设计有着显着的优点。

然而,由于光电转换代表能源效率的瓶颈,我们的目标是使用一个全光开关结构。

这种转变将被首先消除了网络接口控制器（NIC）,所以网络处理器将直接对话;同样也可以使光成为处理到内存的路径，最近发布的第一个平行光收发模块原型具有每秒传输一个TB信息能力，由IBM清楚地识别大数据分析作为目标市场,强调设备的能源效率。

英特尔还计划推出一个成本有效的光学互连的雷电接口电缆（已准备在苹果产品中使用）。

作为一种混合电/光开关的一个例子，太阳神是一个体系结构有显着减少的，布线，成本和功耗的开关元件。

它是一个二级多根树的开关和核心交换机，其中的核心包括传统的电分组交换机和微机电系统为基础的光电路开关。

包括电气交换机的原因是需要处理在聚集的交通需求之间的不同对突发性证明：

支持这一类型的交通所需的（光）电路的数目将是禁止的，和电分组交换将是可取的。

2.3大数据分析中的能量问题

能量均衡是云计算的一个重要目标系统和组件。

大多数数据中心操作超过一半的峰值负载，虽然它们的效率最大化在峰值负载。

能量比例意味着功率消耗与负载之间一个线性关系。

这是可以实现的明确地使用能量比例的设备，或仅为计算过程中绝对必要的组件。

更具体地说，工作整合通常适用于粗—像单个服务器机器一样的细粒度组件，这种方法的适用性很大程度上取决于类型的计算：

批量处理产生理想的功率减少但在线或并行应用程序不允许这样的能量储蓄计划。

请注意能量相称性不是名义上的光网络技术的特点（静态激光功率消费）。

然而，能量优化与系统在更大的部署中更容易节省电力，特别是在输送电子设备之前的能量,管道移动或存储数据处理。

冷却功率交付在大多数情况下，适合于能源的设计和实施。

安德烈等人因子数据中心的效率为三个计算设备，服务器的能源转换，执行计电子元件的效率，和计算的本身。

尽管第三项是最相关的我们的讨论,前两个因素每瓦特“生产性”消耗2.2瓦的能量。

以一个更整体的方法来优化第三项。

巴利加等人。

考虑优化能源消费在全球云系统首先分析能耗概况的运输，储存，并在各种存储即服务绘制场景服务器，软件作为一种服务，和处理作为一个云计算服务方面。

在一个更细的粒度下，已经提出了减少CPU的功耗：

如动态电压和频率缩放（DVFS），关闭功能单元的选择（占到大约三分之一的能量到硬件子系统）。

然而，静态功耗和性能要求的基本被限制。

能源方面的考虑促使不对称设计建议（专业芯片多处理器，多核处理器）；hardavellas等人。

[42]填充一个大的，多样化的应用程序特定的异构内核的骰子，可以动态禁用所有，但最适用于特定的应用程序的核心（导致在黑暗的硅点），可以达到峰值性能和能源效率。

3.虚拟化技术的

虚拟化是一个云部署背后的关键的概念来协调软件和硬件之间的天然鸿沟。

它的基本组成部分是虚拟机监控器（VMM），一个软件抽象层，使分区的底层硬件平台成一个或多个虚拟机[80]。

最重要的是（i）应该运行未修改现有的软件在每个虚拟机，（ii）优势指令的子集必须直接在处理器上执行（iii）VMM在系统资源的完全控制（经典虚拟化）。

虚拟化是在20世纪60年代末主机上下文的技术开发，最初，高性价比的机器随后的增殖，分享，取决于虚拟化资源的需要，抓住存在，在某种程度上，现代的硬件本身不支持这种模式。

然而，它提供的优点，特别是在可靠性，安全和管理硬件成为一个池资源，以运行任意服务的需求，使其使用以数据为中心，大数据分析的多租户环境中尤为重要。

具体而言，VMM提供的虚拟机的封装，从而有利于负载均衡的任务，虚拟机器复制，储存和运输，暂停/恢复方案，硬件和软件/配置故障处理。

此外，VMM虚拟墙之间提供隔离多台虚拟机的多个虚拟机的多路复用同样的硬件变得透明，从而产生了戏剧性的成本效益。

安全性和可靠性的优点自然遵循由于故障是由于程序错误或安全妥协是孤立于其它的虚拟机，问题不宣传机器执行相同的VMM下。

所有硬件子系统（中央处理器、内存、输入/输出、网络等）都可以在原则上进行虚拟化。

目前，CPU虚拟化相对成熟，其次有趣的改进是，虚拟内存管理单元（MMU）的创新和研究的建议，I/O子系统和网络。

如果它支持直接执行基本的VMM技术的CPU架构是虚拟的，虚拟机在真实的机器上执行；但是VMM有CPU的极限控制。

这通常是通过运行虚拟机的特权和非特权在CPU的特权模式的代码和保留VMM的特权模式执行；当虚拟机试图执行特权操作CPU陷入VMM，从而模拟它的更新虚拟机状态。

然而，无处不在的x86架构不提供安全透明的所有特权操作语义的陷阱。

因此，各种技术已被提出。

在半虚拟化的操作系统（OS）在虚拟机执行修补与设计适当的取代非虚拟操作，虚拟化的等价物。

然而，改变操作系统的源代码也可能由于许可问题，它可能产生的不兼容。

一个替代的方法，二进制翻译器运行非虚拟，特权的部分动态补丁“offending”指令，同时保留在高速缓存块的优化目的的翻译。

内存管理，VMM 维护每个虚拟机的内存管理数据结构，其影子页表的影子。

VMM 更新操作系统的变化反映出这些结构，并建立映射到实际的页面在硬件内存中。

这里的挑战包括使 VMM 利用高效分页进出和跨多个虚拟机，由一个单一的 VMM 监测共享相同的物理页面的操作系统的内部状态。

此共享将均匀池（在用软件配置）的虚拟机执行，在多核处理器的芯片，将来大数据分析的工作量尤为重要。

I/O虚拟化，至少基于x86架构的需求，将代码直接包含与目前存在的各装置的VMM层。

这是一个解决托管架构：

VMM运行在主机操作系统和应用程序上提出任何I/O请求从来宾操作系统。

托管架构可能不是规模在服务器环境的高性能网络和磁盘子系统。

因此，VMM执行源操作，利用认证的开源驱动程序来解决选择。

虚拟化是一个广义的概念，讨论的话题不局限于系统虚拟化。

大数据分析，高级语言虚拟化也是一个相关的概念。

最近几次目睹了虚拟的广泛采用机器（比如JVM和CLR）作为许多编译目标编程语言。

显而易见的优势是立即在虚拟机和库的共享优化一套广泛的语言。

有趣的是，这些优化包括引入新的（软件）操作码，主要是服务于需要高生产力的语言移植到这些运行时，例如，动态类型的脚本语言或使用实时（JIT）技术，让人想起硬件辅助的虚拟化和二进制翻译提。

考虑到程序员未来的开发大数据分析软件的生产力是一个重要的成本在这个方向上的进步是重要的。

4.结论

数据操作的现代应用程序正在以惊人的速度量增长，并且给并行和分布式计算平台带来了有趣的挑战。

这些挑战从构建存储系统，可以容纳这些来自地理上的分布式源存储系统大型数据集收集到的数据，对数据运行接受多样化的计算范围。

资源和语义约束，如啤酒瓶盖定理，需要处理每个应用程序的基础上，开发应用的和启发式的这些问题。

最近努力应对这些挑战可扩展的分布式存储系统（文件系统，键值存储，等等），可以处理多种计算模式执行引擎。

在未来，随着数据规模的不断增长，这些应用程序的域的不同，这些系统将需要适应应用程序特定的优化。

为了解决高度分散的性质数据，本系统可以将一些数据在源头计算，避免昂贵的数据迁移成本。

最近的硬件进步对实现分布式软件平台所需的大数据分析发挥了重要作用。

未来的硬件，处理器技术的创新，较新的内存/存储或层次结构，网络架构（软件定义的网络）将继续推动软件创新。

这些系统的设计重点将是在移动数据从存储到处理器或存储/计算节点之间的分布式环境中花费的时间最小化。

展开阅读全文