ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:132.08KB ,
资源ID:29649773      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/29649773.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据分析方法综述.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据分析方法综述.docx

1、数据分析方法综述课堂汇报数据分析理论和方法综述汇报人: 学号: 年级: 1342班 数据分析工具及可视化综述摘要:可视分析是大数据分析的重要方法。大数据分析中为实现数据的可视化,需要运用多种工具,这些工具旨在旨在充分挖掘人对于可视化信息的认知能力优势,将人、机的各自强项进行有机融合,借助人机交互式分析方法和交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧。本文主要从可视分析领域所强调的综合视角出发,分析了支持大数据可视分析的基础理论,在此基础上讨论了可视化在面向对象时的所需要的可视化技术,同时探讨了支持可视分析的各种其他技术支持。最后,指出了大数据可视分析领域面临的瓶颈问题与

2、技术挑战。关键词:大数据 分析工具 可视化Abstract: Visual Analytics is an important method of data analysis. Visualization of large data analysis for data, you need to use a variety of tools, these tools are meant to dig for the cognitive advantages of Visual information, will be integration of the respective strengths

3、 of human, machine, man-machine interactive analysis and interaction with technology, aid people in more intuitive and effective insight into the data behind the information, knowledge and wisdom. Paper emphasized the comprehensive perspective of the field of Visual analysis, analysis supports large

4、 data visualization analysis of basic theory of visualization are discussed on the basis of this need in the object-oriented visualization techniques, support for Visual analysis is also discussed a variety of other technical support. Finally, points out the Visual analysis of large data bottlenecks

5、 and technology challenges facing the field. Keywords: big data method analysis Visualization1大数据可视分析综述可视分析是大数据分析的重要方法。大数据可视分析旨在利用计算机自动化分析能力的同时,充分挖掘人对于可视化信息的认知能力优势,将人、机的各自强项进行有机融合,借助人机交互式分析方法和交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧。主要从可视分析领域所强调的认知、可视化、人机交互的综合视角出发,分析了支持大数据可视分析的基础理论,包括支持分析过程的认知理论、信息可视化理论、人机

6、交互与用户界面理论。在此基础上,讨论了面向大数据主流应用的信息可视化技术面向文本、网络(图)、时空、多维的可视化技术。同时探讨了支持可视分析的人机交互技术,包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向Post-WIMP的自然交互技术。最后,指出了大数据可视分析领域面临的瓶颈问题与技术挑战。2 大数据分析工具大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日

7、志,病历,军事监控,视频和图像档案,及大型电子商务。在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。大数据分析的常用工具通常有以下介绍的几种。2.1 HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hado

8、op还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:图 21 Hadoop上开发和运行处理海量数据的优点Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C+。2.2 HPCCHPCC,High Performance Computingand Communications(高性能计算与通信)的缩写。19

9、93年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。该项目主要由五部分组成:1.高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;2.先进软件技术与算法(ASTA),内容

10、有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;3.国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;4.基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支持这些调查和研究活动;5.信息基础结构技术和应用(IITA),目的在于保证美国在先进信息技术开发方面的领先地位。High Performance Computing Cluster (

11、HPCC)High performanceHighly concurrentRily-timedeliveryECL Developer Using ECL IDEExtraction Transfoymation LoadingWebapplication图2-2 HPCC各部分之间的联系2.3 StormStorm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、

12、乐元素、Admaster等等。Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。2.4 Apache Drill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill实现了Google

13、s Dremel。据Hadoop厂商Map RTechnologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构

14、建系统上的测试结果等等。通过开发“Drill” Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。2.5 Rapid MinerRapid Miner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。功能和特点:1)免费提供数据挖掘技术和库2)100%用Java代码(可运行在操作系统)3)数据挖掘过程简单,强大和直观4)内部XML保证了标准化的格式来表示交换数据挖掘过程5)可以用简单脚本语言自动进行大规模进程6)多层次的

15、数据视图,确保有效和透明的数据7)图形用户界面的互动原型8)命令行(批处理模式)自动大规模应用9)Java API(应用编程接口)10)简单的插件和推广机制11)强大的可视化引擎,许多尖端的高维数据的可视化建模12)400多个数据挖掘运营商支持13)耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。2.6 Pentaho BIPentaho BI平台不同于传统的BI产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发

16、。它的出现,使得一系列的面向商务智能的独立产品如J free、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。Pentaho BI平台,Pentaho Open BI套件的核心架构和基础,是以流程为中心的,因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI平台上执行的商业智能流程。流程可以很容易的被定制,也可以添加新的流程。BI平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过J2EE、Web Service、SOAP、HTTP、Java、JavaScript、P

17、ortals等技术集成到Pentaho平台中来。Pentaho的发行,主要以Pentaho SDK的形式进行。Pentaho SDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以用其它数据库服务取代的;可独立运行的Pent

18、aho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。Pentaho BI平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。3 数据化可视化分析综述3.1信息可视化、人机交互、可视分析的基本概念Card等人对信息可视化的定义为:对抽象数据使用计算机支持的、交互

19、的、可视化的表示形式以增强认知能力。与传统计算机图形学以及科学可视化研究不同,信息可视化的研究重点更加侧重于通过可视化图形呈现数据中隐含的信息和规律,所研究的创新性可视化表征旨在建立符合人的认知规律的心理映像。经过20余年的发展,信息可视化已经成为人们分析复杂问题的强有力工具。人机交互的定义为:人与系统之间通过某种对话语言,在一定的交互方式和技术支持下的信息交换过程。其中的系统可以是各类机器,也可以是计算机和软件。用户界面或人机界面指的是人机交互所依托的介质和对话接口,通常包含硬件和软件系统。信息可视化的概念最早即是在ACM“用户界面软件与技术”会议中提出,其本质是一种交互式的图形用户界面范型

20、。人机交互的发展一方面强调研究智能化的用户界面,将计算机系统变成一个有思想、有个性、有观点的智能机器人;另一方面强调充分利用计算机系统和人各自的优势,弥补彼此的不足,共同协作来分析和解决问题。大数据可视分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。3.2支持可视分析的基础理论可视化分析需要有多样的理论支持,而其中支持分析的主要认知理论模型、意义建构理论模型、人机交互分析过程的用户认知模型、分布式认知理论、信息可视化理论模型、信息可视化理论模型、人机交互与用户界

21、面理论模型等,这些为大数据的可视化处理的实现提供了坚实的理论基础。3.3面向大数据主流应用的信息可视化技术大数据可视化技术涉及传统的科学可视化和信息可视化,从大数据分析将掘取信息和洞悉知识作为目标的角度出发,信息可视化技术将在大数据可视化中扮演更为重要的角色。Shneiderman 根据信息的特征把信息可视化技术分为一维信息(1-dimensional)、二维信息(2-dimensional)、三维信息(3-dimensional)、多维信息(multi-dimensional)、层次信息(tree)、网络信息(network)、时序信息(temporal)可视化20年来,研究者围绕着上述信息

22、类型提出众多的信息可视化新方法和新技术,并获得了广泛的应用。随着大数据的兴起与发展,互联网、社交网络、地理信息系统、企业商业智能、社会公共服务等主流应用领域逐渐催生了几类特征鲜明的信息类型,主要包括文本、网络或图、时空、及多维数据等。这些与大数据密切相关的信息类型与 Shneiderman 的分类交叉融合,将成为大数据可视化的主要研究领域。表1 可视化的分类比较可视化分类文本可视化网络(图)可视化时空数据可视化多维数据可视化意义及影响文本信息是大数据时代非结构化数据类型的典型代表,是互联网中最主要的信息类型,也是物联网各种传感器采集后生成的主要信息类型,人们日常工作和生活中接触最多的电子文档也

23、是以文本形式存在。文本可视化的意义在于,能够将文本中蕴含的语义特征(例如词频与重要度、逻辑结构、主题聚类、动态演化规律等)直观地展示出来。网络关联关系是大数据中最常见的关系,例如互联网与社交网络。层次结构数据也属于网络信息的一种特殊情况。基于网络节点和连接的拓扑关系,直观地展示网络中潜在的模式关系,例如节点或边聚集性,是网络可视化的主要内容之一。对于具有海量节点和边的大规模网络,如何在有限的屏幕空间中进行可视化,将是大数据时代面临的难点和重点。除了对静态的网络拓扑关系进行可视化,大数据相关的网络往往具有动态演化性,因此,如何对动态网络的特征进行可视化,也是不可或缺的研究内容。时空数据是指带有地

24、理位置与时间标签的数据。传感器与移动终端的迅速普及,使得时空数据成为大数据时代典型的数据类型。时空数据可视化与地理制图学相结合,重点对时间与空间维度以及与之相关的信息对象属性建立可视化表征,对与时间和空间密切相关的模式及规律进行展示。大数据环境下时空数据的高维性、实时性等特点,也是时空数据可视化的重点。多维数据指的是具有多个维度属性的数据变量,广泛存在于基于传统关系数据库以及数据仓库的应用中,例如企业信息系统以及商业智能系统。多维数据分析的目标是探索多维数据项的分布规律和模式,并揭示不同维度属性之间的隐含关系。Keim 等人归纳了多维可视化的基本方法,包括基于几何图形、基于图标、基于像素、基于

25、层次结构、基于图结构以及混合方法。其中,基于几何图形的多维可视化方法是近年来主要的研究方向。大数据背景下,除了数据项规模扩张带来的挑战,高维所引起的问题也是研究的重点。3.4支持可视分析的人机交互技术信息可视化中的人机交互技术主要可概括为 5 类:动态过滤技术与动态过滤用户界面、整体+详细技术与用户界面、平移+缩放技术与可缩放用户界面(ZUI)、焦点+上下文技术与用户界面、多视图关联协调技术与关联多视图用户界面。根据上面对可视分析相关的任务建模的讨论,大数据可视分析中涉及的人机交互技术在融合与发展上述几大类交互基础之上,还需要重点研究对可视分析推理过程提供界面支持的人机交互技术以及更符合分析过

26、程认知理论的自然、高效的人机交互技术。4 数据可视化的问题与挑战大数据在可视化的发展过程中也面临着以下的问题和挑战。(1)多源、异构、非完整、非一致、非准确数据的集成与接口大数据可视化与可视分析所依赖的基础是数据,而大数据时代数据的来源众多,且多来自于异构环境。即使获得数据源,得到的数据的完整性、一致性、准确性都难以保证,数据质量的不确定问题将直接影响可视分析的科学性和准确性。大数据可视化的前提是建立在集成的数据接口,并且与可视分析系统形成松耦合的接口关系,以供各种可视化算法方便的调用,使得可视分析系统的研发者和使用者不需要关系数据接口背后的复杂机理。可见,大数据的集成和接口问题将是大数据可视

27、分析面临的第一个挑战。(2)匹配心理映像的可视化表征设计与评估科学/信息可视化领域经过几十年的发展,积累了大量各具特色的可视化表征,这将为大数据可视化提供有力的支持。然而,绝大多数在当时看来创新的可视化技术,只能被少部分研究人员所接收,却难以获得广泛的认可和应用。原因在于:大量的可视化表征的创造仅仅在于追求技术角度的创新,而忽视了可视化尤其是信息可视化领域的本源符合人的认知规律和心理映像。针对大数据所固有的特点,未来仍将涌现更多的可视化表征。然而目前仍缺乏公认的科学评价机制,对可视化表征设计的合理性、自然性、直观性及有效性等进行评估。未来随着认知科学的发展,如何创造匹配心理映像的大数据可视化表

28、征,真正能够让分析者一眼看穿大数据,将是面临的最大挑战。(3)最大限度发挥人、机各自优势的人机交互与最优化协作求解如前所述,人和机器各自拥有无可替代的优势,人具有机器所不具备的视觉系统以及强大的感知认知能力,并且具有非逻辑理性的直觉判断和分析解读能力,但是人的工作记忆却只有 7 个左右的信息块;而计算机拥有巨大的存储系统和强大的数据处理能力,能够根据数据挖掘模型在短时间内完成大规模的计算量。因此,大数据可视分析的过程就是充分利用各自优势并且紧密协作的过程。然而,目前大数据可视分析领域仍未能十分清晰和细致地界定在问题分析过程中,人机交互的多层次多粒度任务应该如何最优化地分布在人、机两侧。而且,目

29、前正处于从 WIMP 走向 Post-WIMP 的过渡期,各种交互技术如何最优的匹配具体的分析任务,仍有待深入的研究与验证。(4)以用户为中心的系统设计与开发方法论、框架以及工具随着互联网、物联网、云计算的迅猛发展,数据随处可见、触手可及。政府的政策制定、经济与社会的发展、企业的生存与竞争以及每个人日常生活的衣食住行无不与大数据有关。因此,未来任何领域的普通个人均存在着大数据分析的需求。“人人都懂大数据、人人都能可视化”将是大数据领域的发展目标之一。可视化领域大量极具潜力的创新技术,之所以未能从学术界推广至产业界,一个重要的原因是缺乏简单易行的、以用户为中心的系统设计与开发方法论、框架以及工具

30、。具体应用领域的用户往往不懂看似高深的可视化和交互技术,他们通常只提出问题需求或提供大数据。如何能使得最终用户快捷方便地、自助式地实现大数据可视分析系统,满足自己的个性化需求,将是大数据可视分析走向大范围应用并充分发挥价值的关键。(5)可扩展性问题 大数据的数据规模目前已经呈现爆炸式增长,数据量的无限积累与数据的持续演化,导致普通计算机的处理能力难以达到理想的范围。同时,主流显示设备的像素数也难以跟上大数据增长的脚步,造成像素的总和还不如要可视化的数据多。而且,大量在较小的数据规模下可行的可视化技术在面临极端大规模数据时将无能为力。然而,大数据可视分析系统应具有很好的可扩展性,即感知扩展性和交

31、互扩展性只取决于可视化的精度而不依赖数据规模的大小,以支持实时的可视化与交互操作。因此,未来如何对于超高维数据的降维以降低数据规模、如何结合大规模并行处理方法与超级计算机、如何将目前有价值的可视化算法和人机交互技术提升和拓展到大数据领域,将是未来最严峻的挑战。5 结束语可视分析是大数据分析的重要方法,能够有效地弥补计算机自动化分析方法的劣势与不足。大数据可视分析将人面对可视化信息时强大的感知认知能力与计算机的分析计算能力优势进行有机融合,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧。可视分析领域建立在可视化技术基础上,主要强调认知、可视化、人机交互的交叉与融合。本文正是从这一角度出

32、发,分析支持大数据可视分析的基础理论,包括支持分析过程的认知理论、信息可视化理论以及人机交互与用户界面理论。在此基础上,讨论了面向大数据主流应用的信息可视化技术,主要包括文本可视化、网络(图)可视化、时空数据可视化、多维数据可视化技术;同时探讨了支持可视分析的人机交互技术,主要包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向Post-WIMP 的自然交互技术。最后,我要说的是,大数据的可视化分析研究还有许多的困难要克服,希望以后能有更多的研究成果出现。参考文献1戴国忠,陈为,洪文学,刘世霞,屈华民,袁晓如,张加万,张康.信息可视化和可视分析:挑战与机遇北戴河信息可视化战略研讨会总结报告.中国科学:信息科学,2013,43(1):178 184.2袁晓如.大数据时代可视化与可视分析的机遇与挑战.2013.3任磊.信息可视化中的交互技术研究.北京:中国科学院软件研究所,2009.4任磊

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1