大数据的研究与应用 1.docx

上传人:b****7 文档编号:25661083 上传时间:2023-06-11 格式:DOCX 页数:27 大小:2.89MB
下载 相关 举报
大数据的研究与应用 1.docx_第1页
第1页 / 共27页
大数据的研究与应用 1.docx_第2页
第2页 / 共27页
大数据的研究与应用 1.docx_第3页
第3页 / 共27页
大数据的研究与应用 1.docx_第4页
第4页 / 共27页
大数据的研究与应用 1.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

大数据的研究与应用 1.docx

《大数据的研究与应用 1.docx》由会员分享,可在线阅读,更多相关《大数据的研究与应用 1.docx(27页珍藏版)》请在冰豆网上搜索。

大数据的研究与应用 1.docx

大数据的研究与应用1

毕业设计(论文)报告

题目大数据的研究与应用

二级学院物联网与软件技术学院

专业物联网应用技术

班级物联(单招)1601

学生姓名王龙

学号100160869

指导教师杨晔

 

2019年3月

毕业论文(设计)承诺书

本人郑重承诺:

1、本论文(设计)是在指导教师的指导下,查阅相关文献,进行分析研究,独立撰写而成的。

2、本论文(设计)中,所有实验、数据和有关材料均是真实的。

3、本论文(设计)中除引文和致谢的内容外,不包含其他人或机构已经撰写发表过的研究成果。

4、本论文(设计)如有剽窃他人研究成果的情况,一切后果自负。

 

作者签名:

签字日期:

年月日

 

大数据的研究与应用

摘要:

现如今的21世纪,经济水平在不断的快速发展,大数据已经不是一个陌生的代名词,越来越多的存在于人们的视线中。

无论是在人们日常的生活中,还是人们的衣食住行以及工作,都发挥着重大的用途。

不了解的人可能觉得大数据只能运用在商业或者政府机构,实际上还适用于我们每一个人。

在当今年代,伴随着计算机信息技术的不断发展,已经融入到了各种行业当中。

随着网上的信息资源量的不断膨胀增加,此技术给人们带来方便的同时,由于它的复杂性质还是带来了一些用户使用的不方便。

大数据的类型具有多样化的特征,能够进行多样化的数据存储以及分析功能,同时还能够捕获大量的信息资源进行存储和分析,这是传统的数据处理技术远远达不到的。

本文正是进行研究我国大数据技术的发展现状和面临的挑战,并提出有效的发展策略,以至于可以为中国大数据技术的发展起到借鉴意义。

 

关键词:

大数据、价值、数据处理技术、多样化

Researchandapplicationofbigdata

Abstract:

Withtherapiddevelopmentofthe21stcentury,peopleshouldbequitefamiliarwiththeterm"bigdata."Bigdataisalsoincreasinglyintegratedintoourdailylives.Fromourfoodandclothingtowork,bigdataplaysaveryimportantroleandrole.Bigdataisnotonlyforbusinessandgovernment,butforeveryoneinourlives.Nowadays,withtherapiddevelopmentofcomputerinformationtechnologyandInternetinformationtechnology,computernetworktechnologyhaspenetratedintoallwalksoflife.Theinformationresourcesonthenetworkhaveexploded,andtheuseofInternetinformationtechnologyhasbroughtgreatconveniencetoourlives.ThecomplexityoftheinformationontheInternethasalsocausedgreattroubletousers.Thedatatypesintheeraofbigdataarealsomorediverse.Traditionaldataprocessingtechniquesaredifficulttomeetthestorageandanalysisofdiversedata.However,bigdatatechnologycaneffectivelysolvetheproblemofacquisition,storageandanalysisofmassiveinformation.In-depthstudyofthedevelopmentstatusandchallengesofChina'sbigdatatechnology,andproposeatargeteddevelopmentstrategytoprovidereferenceforthedevelopmentofChina'sbigdatatechnology.

KeyWords:

Bigdata、Value、Dataprocessingtechnology、Diversification

前言1

第一章选题意义2

1.1选题的背景2

1.2大数据的发展现状和研究意义2

1.2.1大数据的发展现状2

1.2.2大数据的研究意义3

第二章数据简介4

2.1大数据的定义4

2.2大数据的内涵4

2.3大数据的特征5

第三章大数据技术6

3.1基础阶段6

3.2存储阶段7

3.3架构设计阶段8

3.4实时计算阶段9

3.5数据采集阶段9

第四章大数据的具体应用领域11

4.1金融领域11

4.2安防领域11

4.3能源领域12

4.4业务领域13

4.5医疗领域14

4.6电力行业领域15

第五章基于大数据的大气环境监测16

5.1大数据技术在大气环境监测行业中的意义16

5.2环境大数据的概念16

5.3环境数据的采集与获取17

5.4环境数据的存储与处理19

5.5环境数据的应用20

总结23

致谢24

参考文献25

前言

大数据处理模式,具有便捷而又快捷的特点,这种模式也是本文将要研究的重点。

绝大多数的人都赞同一个观点——大数据是最好的工作模式来进行大批量的数据处理,这是其他的模式替代不了的,也是毫无疑问的。

作为现在最流行的一种技术,大数据不仅能够搜集新的知识以及发现新的机遇,还能够创造出很高的价值空间。

普遍认为,大数据的时代到来并不是一个终点,而是一个起点,使得人们会对生活、工作甚至世界的认知度以及理解度增加。

现如今的计算机存储的信息增加量的速度比世界经济的发展速度还要快上4倍,同时计算机数据处理能力的进步速度比世界经济的发展速度快上9倍。

规模对于信息来说,是比较重要的,之所以大数据时代会如此的厉害,是由于存在着上千亿量的数据项支撑着,其核心是它的预测功能。

 

第一章选题意义

1.1选题的背景

在我们的生活当中,以及融入了很多的物联网、社交网络以及云计算等技术。

随着当今的计算能力、存储空间以及网络带宽的快速发展,人们在各个行业所累积的数据,都在不断的呈现着增加的趋势。

经研究可以发现,互联网搜索引擎能够支撑数十亿次数的网页搜索,几乎每天可以处理上万TB字节的数据,而且全球的通信网的主干网上在一天的时期内就有大约数万TB字节数据不断的传输。

就好比,从事于医疗方面的医院和药店等地方,每天都会记载许多的数据。

随着当今数据的存储量的升级、大数据的应用不断的广泛以及其本身自有的价值,使我们必须去深入的探究其应用,以至于我们可以更好的受益于这些数据。

大数据在本质上其实是一种针对数据技术革命,不仅在国家宏观调控,商业战略决策,服务业务以及管理方式有了重大的影响,甚至在个人的生活起居中带来了一个重大的影响。

大数据自身的高价值,也社会经济中的发展,带来了新的高收益的机遇。

同时大数据的技术更新,被称之为又一次的“工业革命”。

1.2大数据的发展现状和研究意义

1.2.1大数据的发展现状

在中国现在的大数据行业的发展还是处于初级阶段,但是其发展空间很大。

是因为中国的数据资源量特别广泛,基于这些众多的资源量,可以为中国带来好的机遇以及发展环境。

随着中国对信息技术的重视度不断增加,以及数据处理技术的广泛普及,导致我国的数据资源的曲线不断上升。

与此同时,由于中国信息产地不断地对大数据处理技术进行研究以及推进,更是为中国的大数据技术的发展推向了一个新的阶段,提供了发展动力。

在最近的几年时间,中国的大数据行业产生的产品特征,慢慢的由信息驱动转变为应用模式发展。

中国用户具有很大的需求量市场,所以大数据产业的发展前景很好,也正是因为庞大的市场效益,大数据产业才有了生存的动力。

大数据行业的发展前景还引起了国外政府的注意力,很多的国家设置了一些有关大数据的政策,并且针对大数据的发展进行了详细的研究。

现如今国与国之间的竞争已经不是单单的是军事力量,已经上升到了综合国力之间的斗争。

而有关大数据的应用就是其中一个方面,所以,各个国家都必须注重对数据的获取及其控制的研究。

美国早就在2012年的时候,奥巴马政府就进行制定了有关大数据研究及其发展的计划,现如今是美国非常重要的信息科技发展部署地。

并且美国政府坚信大数据以后肯定会成为一种好比黄金、石油一般重要的资源。

不仅是美国,还有一些其他的欧洲国家以及日本,都先后进行了有关大数据研究的计划,并为本身的国家数据行业的发展提供了初期的市场培育。

1.2.2大数据的研究意义

1、国家战略意义

相比较于自然资源和人力资源,大数据与其一样都是比较重要的战略资源,并且能够体现出一个国家数字主权。

在目前的大数据技术当代的时代中,国家的竞争已经上升到了各世界国家大数据的范围、活性和数据的分析及其运用的能力。

除去以前的海陆空战斗的模式,现在已经转变为了在网络空间的数据主权竞争。

2、科学研究意义

在人们经过采用计算机来分析记录周围自然界的发现、人们的社会发展历程以及自然与人的关系的环节中,由于大量的数据产生致使人们在无意识中建立了一种数据自然,不仅如此,人与社会以及宇宙的历史会演变为数据的历史。

中科院院士李国杰先生早在之前就说过:

“如果大数据产业处于落后的地位,那么将不能处于产业战略的制高点,并且代表着数字主权无险可守,甚至导致国家安全将出现漏洞。

第二章数据简介

2.1大数据的定义

大数据通俗来讲,说的是在不能接受的时间范畴之内,通过使用部分软件工作来获取、管理以及处理的数据集合。

必须经过新型的处理模式才能够具备更为强大的决策力、洞察力以及流程化优化能力,以及具有增长率高和信息资产的多样化的特征。

大数据的实际战略意义并不是存储大量的数据资源,而重点是对数据信息进行专业的处理。

有相关报道针对大数据的说法是:

大数据的计量范围超过了一些传统的数据库软件的功能。

大多数的人觉得大数据其实只是一种简单的概念,实际上并没有一个单独的执行标准来判定数据集合的范围限定在多少。

可以发现,时代的变化以及数据处理技术的发展,很多达到大数据规定的数据集合的范围也在不断的上升增加。

与此同时,大数据的规模也是根据行业领域及其应用的不同而变得不具有统一性。

2.2大数据的内涵

1、根据对象角度,大数据必须要着重关注的是,大数据不是简简单单、没有意义的积累资源,但是也不代表一定存在着直观的有利用性前景。

当然,想要在大数据中得到新的有价值性的信息,这就要求这些大量的数据能够有着一些关联性,这样才能具有挖掘价值。

数据间的结构性以及关联性是大数据和其他典型数据的区别所在。

2、根据技术角度,大数据和其他数据的最大的不同之处在于,大数据可以对数据对象之间进行处理。

要想能够成功达到这一要求,这就需要在大数据对象中急速的选取当中有效的信息。

这将要求我们采取合适的方式,其中包含了数据的挖掘以及分布式处理等。

由此可见,大数据技术是一个非常有效的工具来发现和挖掘其中的价值。

3、根据应用的角度,大数据是一种具有某一定性要求的大数据集合,同时具有捕捉有效信息的一种能力。

也正是因为其这种应用功能上的紧密联系性,甚至是一对一的联系,大数据的应用才成为了当中必不可少的内容。

2.3大数据的特征

普遍认为,大数据主要是具有规模性、多样性、高速性以及价值性的四个特征,也被称之为“4V”。

1、规模性。

也就是大数据的数量大的特点,存储单位也是由过去的GB变为TB,一直到PB、EB。

根据大数据技术的不断成长,数据呈现着突发性的增加。

其来源覆盖了社交网络,移动网络,以及各种智能终端等。

其中淘宝网大概拥有4亿的用户就能天天形成的货物成交额数据达到20TB。

所以急需先进的算法、快速的数据处理平台及其技术,进行计算研究、判断以及及时处理较大内容的数据。

2、多样性。

大范围的数据来源,也意味着大数据的形式变得更加的多样化。

大数据总体上可以划分为三种。

一种是结构化数据,其次是非结构化的数据最后是半结构化数据。

3、高速性。

比较于以前的档案、广播和报纸等传统数据,他们的载体是不一样的。

大数据能够进行实时分析,而不是批量性的分析,进行输入、处理和丢弃操作时候能够立马见效,没有太久的延迟。

数据的快速增长速度以及处理的速度,便是大数据的最明显的特征。

4、价值性。

这同时也是大数据最主要的特征。

在现代社会产生的数据当中,有价值的信息占据的比例是不多的。

对比于传统的小数据,大数据其最主要的价值就是根据各个不同来源的大量数据信息进行选择分析,以此来判断预测哪些是有价值的数据,并且经过机器的自主学习方法、人工智能的方法或者数据挖掘分析方法进行更进一步的研究,来发现新规律以及新的知识。

并且将其运用于农业、金融、医疗等各个行业,以至于能够改善社会治理情况,抬高生产力,并且促进科学的研究进程。

第三章大数据技术

3.1基础阶段

大数据在此阶段必须具有以下技术:

Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreducehdfsyarn等。

1.Linux命令

Linux主要的思想设计有两点:

第一,一切都是文件;第二,每一个设计出来的软件都有其本身明确的作用。

第一点的意思就是说,系统中的所有东西都被包含于一个文件,比如命令、软硬件设备、操作系统、进程等一些对于操作系统而言,都拥有属于各自的特性或类型的文件。

并且,基于此命令的系统是一款完全免费的操作系统,用户可以自己通过各种途径免费获取使用,并可以任意修改其源代码。

正是如此,全世界无数的程序员参与了Linux的修编工作,Linux吸收了无数程序员的智慧。

一般大数据的开拓都是在Linux下运行的,对比Linux,Windows是比较封锁的,以至于设计的大数据软件具有较大的局限性。

所以,只有清楚了Linux基础操作命令,才能从事一些和大数据设计相关的工作。

通常应用于大数据的融合。

2.Redis

Redis是一种key-value存储系统,它的呈现已经大范围的弥补了memcached这种key/value存储的不足的地方。

在一些特定的场合能够对关系数据库发挥到较好的补充功能,它不仅提供了Java,C/C++,C#,PHP,JavaScript等客户端,还具有使用简单便捷的特点。

大数据的开发需要完全了解Redis的装配方法、设置以及有关的使用方式。

通常应用于大数据的融合。

3.2存储阶段

大数据在此情况需要了解以下技术:

hbase、hive、sqoop等。

1.HBase

HBase—HadoopDatabase,是一个高可靠性、高性能性、面向列、可伸缩的分布式存储系统,利用HBase技术可在PCServer上搭建起大会莫结构化存储集群。

通常应用于大数据的融合。

HBase相比较于普通的关系数据库,此散布式的存储系统具有更高的高能性以及可伸缩的特点,想要对其开发需要了解HBase基本知识、运用、构造以及用法等。

图3-1:

HBase技术架构

 

2.Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,通常应用于大数据的融合。

其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Hive是建立在Hadoop上的数据仓库基础构架。

它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制,通常应用于大数据的融合。

Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。

同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。

3.3架构设计阶段

大数据在此时期需要了解以下技术:

Flume分布式、Zookeeper、Kafka等。

1、Kafka

Kafka是分散式的发布订阅信息的系统,通常应用于大数据的处理。

他主要的运行机制是在设计应用时候采取Hadoop来实现上下线的信息处理。

同时必须经过集群来进行及时的信息补充。

大数据的设计要求具备了解Kafka的框架原理和各部位组件的效果及其使用步骤和有关功能的使用。

2、Flume

Flume其实是一种可以搜集具有可用性、可靠性以及分散式的海量日志,并且具有聚集和传输功能的系统,通常应用于大数据的处理。

Flume可以在其中从发送方定制各类数据,以至于可以收集到数据。

与此同时,Flume还能够大概的对数据进行处理,以及定制各种数据接受方的能力。

对大数据进行设计必须要完全了解它的装置、装配以及有关的使用要领。

3、ZooKeeper

Hadoop和Hbase的最重要的组成部件就是ZooKeeper。

ZooKeeper是一种为分散式应用专门供应一些具有统一性的服务软件,通常应用于大数据的处理。

其所具备的效果主要是维护、域名以及组件的服务等。

在大数据的设计研究中,需要了解ZooKeeper的基础命令和如何落实其功能的措施。

3.4实时计算阶段

大数据在此时期需要了解Mahout、Spark、storm等技术。

1、Spark

Spark是一种计算引擎,在专门针对大规模形式的数据处理而产生的,通常应用于大数据的处理。

他所具有的完整的构架可以用来控制各种来源的大数据处理的需求。

大数据的开发要求具备Spark基础,SparkJob,SparkRDD,sparkjob部署与资源分配,Sparkshuffle,Spark内存管理,Spark广播变量,SparkSQL,SparkStreaming以及SparkML等相关知识。

2、storm

Storm供应了基础的基元给分散式计算机,通常应用于大数据的处理,能够被用来进行流处理、及时的消息处理甚至对数据库进行更新。

Storm可以在一组计算机中轻松地撰写和分析庞大的信息及时计算。

Storm可以被用来及时处理,如同Hadoop用于成批管理一样。

Storm确保每一条信息都能被快速处理——在此阶段中,平均每一秒能够达到数百万条信息的处理。

3.5数据采集阶段

大数据在此时期需要具备Python和Scala技术。

1、Python与数据分析

Python是面向对象的编程语言,其具有一个信息庞大的数据量,具有运用便捷以及应用范围广的特点。

通常应用于大数据的分析和挖掘,在大数据产业的运用也有不错的呈现,大部分是被用来进行数据的搜集、分析以及可视化的处理等。

由此可知,大数据的设计研究需要具备一定的Python知识。

2、Scala

scala是一种多范式编程语言,类似于JAVA,也是一种可伸缩的语言,并集成面向对象编程和函数式的各种特性,通常应用于大数据的分析和挖掘。

Scala有几项关键特性表明了它的面向对象的本质。

例如,Scala中的每个值都是一个对象,包括基本数据类型(即布尔值、数字等)在内,连函数也是对象。

Scala是静态类型的,这就允许它提供泛型类、内部类、甚至多态方法(PolymorphicMethod)。

另外值得一提的是,Scala被特意设计成能够与Java和.NET互操作。

它用scalac这个编译器把源文件编译成Java的class文件。

因此,用户可以从Scala中调用所有的Java类库,也同样可以从Java应用程序中调用Scala的代码。

Spark是一种大型数据开发的重要框架,它是用scala语言设计的。

要掌握Spark框架,就必须有Scala基本知识。

所以,具有大规模数据开发的scala编程基本常识是十分必要的。

图3-2:

系统总体架构

第四章大数据的具体应用领域

4.1金融领域

大数据带来的社会变化逐渐的渗透到人们生活的方方面面。

金融的革新与日常旅游、购物、体育、财务管理等大数据都是密不可分的。

金融业一方面面临着许多前所未有的跨境竞争对手,另一方面已经渐渐的改变了市场结构和业务流程的格局。

据报道,此前,我国金融业数据量已经达到了100TB以上,非结构化数据呈现急速上升趋势。

相关的研究学士表示,中国金融产业现在已经在逐步的进入大数据时代的早期建设阶段。

金融市场进行创新的重点就是具备优秀的数据分析能力。

同时有关金融方面的数据的知晓情况已逐渐转变为金融产业竞争发展的核心。

在金融领域,企业通常会使用基于Java编写技术的FineReport报表,其数据库数据源应用的技术包括Oracle,SqlServer,MySql,DB2,Sybase,Informix等主流的关系型数据库;支持SQL取数据表或视图,亦支持存储过程。

图4-1:

2017年中国金融行业大数据应用投资结构

4.2安防领域

视频监控作为当今数据时代的一种信息源头,它提供了了大量的数据资源信息。

物联网在安全领域得到了普遍的使用。

尤其是近年来,随着平安市的建设、智能交通不断发展等因素,以及云技术的快速发展,安防产业也跟随着了大数据的步伐。

在安防领域中有关大数据的实用性以及逐步为更多人士所知晓,尤其是大量的非结构化视频数据和安防产业中特色数据的快速增加,导致了大数据应用中的一连串的问题。

在安防领域主要应用了大数据的融合技术、大数据处理技术和大数据分析和挖掘技术,包括Flume分布式、Zookeeper、Kafka等技术。

4.3能源领域

能源大数据是通过把石油、天然气等能源行业,以及人口、地理、气象等其他行业的数据经过综合收集、处理、分析,并且加入有关的技术和理念。

它不光能够进行该技术在能源行业的深层次运用,而且结合了它的生产、消费和相关技术革命与大数据理念,以至于促进了能源领域的进步和商业模式的改变。

比如使用Python和Scala技术通过对燃气自动化控制系统的实时采集数据,并结合气象数据、GIS数据,利用数学模型预测用气负荷、进行泄漏分析,合理使用供气设施和输送设备,确保安全、稳定供气。

图4-2:

能源检测平台

4.4业务领域

大数据也具有优化交易流程的功能。

物联网和大数据的运用,已经变成了该行业的新兴产业,具有很高的价值。

人们能够经过一些社交媒体、网络和天气预报等数据,来进行获取高效的信息。

当中,大叔级技术的应用最多的就是在于供应链和配送路线的改善。

根据这两点,利用Mahout、Spark、storm等技术进行地理定位及其射频识别跟踪货物和运输车辆,就是通过及时的获取交通路线数据二制定出了更为便捷的优化路线。

通过使用Python与数据分析对大数据的分析,人力资源业务也得到了改善,其中包含了人才招聘的优化。

4.5医疗领域

大型数据分析应用程序可以在几分钟内对整个DNA进行解码。

而且能够使我们制定最新的治疗计划。

与此

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机硬件及网络

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1