1、大数据处理论文15篇大数据处理论文15篇大数据处理论文 摘要:大数据时代随着全国交通运输行业各机构、各部门、各企业数据量的迅速增长,以及IT企业交通运输相关数据的迅速增长,逐渐在我们面前显现,发展大数据技术,积极应对、抓住下一次信息化变革、产业浪潮的机遇,是实现交通运输行业产业变革、结构优化、服务社会与公众能力进一步提升的关键。 关键词 大数据处理 数据论文 数据 大数据处理论文:D2D通信中大数据处理关键技术分析与展望 分析了D2D通信中大数据的特征,重点阐述了数据筛选、预处理、建模等大数据处理的关键技术,并对提高大数据无线传输的稳定性、可靠性和高效性进行了探讨和展望。 5G 大数据 D2D
2、 1 引言 在当前移动通信系统中,数据要经过基站、基站控制器、网关和交换机。随着大数据背景下网络流量迅猛增长,基站将不堪重荷。终端直通(D2D,Device-to-Device)通信作为第五代移动通信系统(5G)中的关键技术之一1-2,可实现数据不经过基站直接传输(如图1所示),借助提高空间利用率来进一步提高无线频谱利用率,可使移动通信在众多场景下变得更加直接和高效1-3。 但面对爆炸式的业务量,仅仅依靠D2D通信技术是远远不够的。提升如何从各种各样的数据(包括结构化、半结构化、非结构化数据等)中快速获取有价值的信息的能力对于大数据分析与处理来说十分关键。业界对大数据的特征进行归纳,主要包括4
3、个“V”4,即数据体量巨大(Volumn)、数据类型繁多(Variety)、数据价值密度低(Value)、有很多实时数据要求快速处理(Velocity)。因此,传统的数据表示方法不能适用于大数据的表示。如何对体量巨大、结构繁多的数据进行有效表示?如何通过结合D2D通信的特点,最大程度地压缩数据的冗余度,挖掘出隐藏在数据背后的规律,从而使数据发挥出最大的价值?是D2D通信中大数据处理技术的核心目标。 本文首先从分析D2D通信系统中大数据的典型特征出发,分析大数据处理过程中所面临的挑战;然后具体分析了D2D通信系统中大数据的表示和处理方法;最后对未来研究方向做了展望。 2 D2D通信系统中大数据的
4、典型特征 (1)数据量大 D2D通信为海量多媒体服务提供了一个强大的通信平台,如海量文本、图像、语音、音视频等应用。但是,随着采集设备成本的降低和存储容量的增大,训练样本的数量往往非常巨大,如在很短的时间内所采集到的数据可以轻易地达到几百TB。由于D2D通信中终端计算及存储能力有限,如何有效地表示采集到的大数据集十分关键。由于D2D大数据集中数据的分布复杂多样,因而需要采用具有较高普适性和较大灵活性的模型和方法来对数据的特征属性进行表示和处理5。传统的基于参数建立起的模型及其学习算法由于模型的结构固定,因此限定了其可以表示的数据特征。与参数模型相比,采用具有结构可调节的非参数模型及其学习算法在
5、这样的情况下具有更好的效果。 (2)数据的维度高 由于D2D通信中终端的异构性以及用户需求的异构性,高维和超高维的数据不断涌现。很显然,数据维数越高(属性越多),就可以更加全面地刻画所描述的对象以及更好地分辨对象。然而,过高的维数不可避免地对数据的表示与处理提出了严峻的挑战。研究表明,对于大部分观测或采集到的高维数据而言,其主要信息存在于一个低维空间中。换句话说,该低维空间包含了高维数据中的全部或绝大部分的有用信息。因此,如何在低维空间中有效地刻画高维数据的有用信息,也是D2D通信中大数据处理领域一个不容忽视并且极具挑战性的问题。目前已经有一些隐空间模型和方法,如主成分分析、因子分析、独立成分
6、分析等可以用于完成此项任务,找到这样的低维空间并将数据进行高效表示7。 (3)模型的复杂度和计算时间 传统的通信系统处理数据时,由于数据量不大,因此可以采用较为复杂的模型来描述数据的特征。而在与D2D通信大数据相关的应用中,终端处理能力受限,如果仍然采用复杂的模型来处理大数据,则计算和时间成本将大大增加;另一方面,如果采用较为简单的模型,可能不能完全表示和挖掘出大数据的关键特性。解决方法是:一方面,尽可能设计简洁的模型及高计算效率的算法,从而降低模型的复杂度和计算时间;另一方面,利用终端的灵活性,可以采用并行计算和分布式计算技术,把原先一个终端上的数据表示和任务处理分摊到多个终端。通过设计相应
7、的算法,实现多个节点的信息共享和协作,从而降低每个终端上模型的复杂度和计算时间7。 (4)算法的实时性和可扩展性 在D2D通信系统的大数据处理中,都需要对其中的大数据进行实时性表示与处理,即当新数据到来以及新类型出现时,算法能够根据实际情况进行自适应的调节,以适应数据的变化。而传统的学习算法偏重于离线算法,因此需要设计一些在线学习算法,对描述或表示数据的模型进行在线学习。其中,贝叶斯技术可以很方便地用于在线学习8。此外,在设计模型及其学习算法时,也需要考虑其多媒体应用的可扩展性。 3 D2D通信系统中大数据处理方法 基于D2D通信中大数据处理的具体特征,本文拟从用户的感受出发,设计如下方案来高
8、效地表示和处理D2D通信系统中的大数据,提取其中的有效信息,具体如下: 首先,从应用的内容出发,根据具体用户业务需求和应用背景对大数据进行初步筛选。即只需要保存与所需任务相关的数据,去除无关数据,从而提高后续处理的效率。 其次,设计合理的算法,对大数据进行预处理,并且依据用户体验提取特征属性。如前文所述,D2D通信中所采集到的大数据的维度(属性)较大,因此对于大数据有效特征属性的提取十分重要。此处可采用贝叶斯因子混合分析方法,通过该方法,可以找到一个数据有效信息相对集中的低维空间,从而可以将高维数据投影到低维空间中,最大程度地降低数据的冗余,完成数据的降维过程,从而可以在低维空间中完成后续的操
9、作(如图2所示)9。此外,该方法的另一个优点在于,由于得到了高维数据的低维有效表示,从而可以在某些条件下实现数据的可视化。 图2 数据冗余度降低过程 最后,设计合适的模型来精确地描述提取出的大数据属性,从而进一步用高效、简约的形式来表示大数据。在现有的工作中,在用模型对大数据进行表示和处理方面已经开展了一些研究,取得了一些研究成果。具体地,选用混合模型来描述建模大数据的分布已成为主流,主要原因有两点: (1)D2D通信中业务种类多、网络数据的分布较为复杂,而混合模型在理论上可以建模和描述任意复杂的数据分布。 (2)混合模型及其学习算法属于生成方式的学习范畴,只要获得准确的模型,则可以用该模型作
10、为大数据的紧凑表示形式,因此,其比判别方式的学习具有更小的存储、更低的传输和处理复杂度,并且有利于在线操作10。 此外,根据不同目标场景中的不同类型的数据,需要提出与之相对应的模型和配套学习算法,用其来表示大数据。例如,对于属性较少(数据维度较低)的数据,采用所提出的无限成分t混合模型及其学习算法,估计出模型的参数,在后续的处理任务中只要关注参数就可以准确把握数据的特性。对于属性较多的高维数据,则采用所提出的无限成分t因子混合分析器及其学习算法,对数据进行有效地表示。对于具有时间或空间相关性的数据而言,则可以采用所提出的具有stick-breaking先验分布的t隐马尔可夫模型及其学习算法对数
11、据进行表示11。隐马尔可夫模型的最大特点在于结构较为灵活,其可以根据数据的分布自适应确定模型的结构(如混合成分数目、因子维数等),并且对大数据中出现的离群点也具有较强的鲁棒性。由于通过学习算法得到的模型精确描述了数据的分布,较好地完成了后续任务,网络业务流量的识别与预测的正确率有了较大的提升6。 进一步考虑到大数据表示和处理中对于模型复杂度和计算时间的需求,需要设计与上述模型相关的分布式算法。通过该类算法,网络中的各个终端只需要采集到部分数据,就可以通过节点间的协作来协同估计出反映整个数据特性的模型参数。需要注意的是,在通信网络中,传输的代价比本地终端计算的代价要高得多。因而在协作过程中,各个
12、终端只需要和在其通信范围内的邻居节点进行通信,并且只传输用于估计最终模型参数的充分统计量,而无需把自己持有的那部分数据传输给邻居终端。这样做的优点在于可以将对大数据的表示和处理分摊到各个终端上,从而最大程度降低了D2D终端的计算量。另一方面,由于充分统计量比原始数据量少很多,因此可以最大程度地降低传输代价,并且减少由于传输中丢包或其他错误、干扰等引起的系统性能的下降。 4 研究展望 对于未来D2D通信中大数据处理技术的研究可以从几个方向开展: (1)进一步地从高维大数据特征中压缩冗余,剔除无关无用属性,提取与应用目标相关的有用特征,将核学习、流形学习方法引入,解决大数据表示问题。 (2)利用半
13、监督学习、迁移学习、集成学习等理论和技术,最大程度地挖掘大数据间的内在关联信息。 (3)在现有模型和方法的基础上,开发设计在线学习算法,实时完成大数据的处理任务。 (4)设计分布式学习以及大数据处理算法,进一步提高网络节点之间协同处理和通信的能力,进一步降低网络节点之前传输的数据量。 (5)针对具体应用,设计结构更加灵活,更具有普适性、鲁棒性的模型,并且开发设计快速、高效的模型参数及结构估计方法,从而获得更简洁的大数据表示形式。 5 结束语 D2D技术被广泛认为是5G的关键技术和解决无线大数据传输的有力工具。本文从D2D通信中大数据特征入手,分析面临的挑战,提出应对策略,展望研究方向,综合探讨
14、了如何提高D2D大数据无线传输的稳定性、可靠性和高效性的问题。 大数据处理论文:大数据时代下的电力自动化系统数据处理 摘 要计算机技术与网络通信技术已经开始逐渐广泛应用于电力自动化系统,电力自动化系统的数据处理呈现多样化趋势,更加复杂化。笔者主要是从电力自动化系统数据类型角度考虑,对于电力系统的快速准确处理进行了分析,对电力自动化系统中数据处理的相关问题进行了阐述和分析。同时探讨了作为电力自动化系统发展方向的智能电网,对其拓扑结构和通信系统进行介绍。 关键词大数据时代;电力自动化;数据处理 引言 电力系统是一个动态的系统,主要包含发电、变电、输电和配电四个部分。 电力系统的动态性和实时性是由于
15、电能不能存储的特性决定的。 正是电力系统的动态性和实时性使得其在具体的运行过程中,会产生大量的实时数据,为电力系统中调度部门的操作带来了巨大的困难, 电力自动化系统也就应运而生。 电力自动化系统为电力系统运行过程中产生大量实时数据的准确处理创造了条件。“大数据”时代最先被全球知名的咨询公司麦肯锡提出来,其是生产决策的重要依据。 所谓的大数据时代,是指在互联网技术下,企业的生产运营过程中相关数据的积累,其在商业、经济和其他领域越来越突出,对相关决策具有十分重要的作用。 一、电力自动化系统的类型分类 1.基础型数据:主要是与电力自动化系统中的电力设施设备属性相关的数据,如,发电机、变压器等电力设施
16、设备的基础数据。 对于这些数据一般是电力单位根据相关的数据规划各自进行管理, 并通过相关数据服务器对其数据进行数据同步,便于调度中心对这些数据进行集中存储、整理和相关计算。 2.实时数据:大多数是在电力系统运行过程中进行实时采集的数据,其数据量很大,对存储空间的要求比较高。 这些数据是在电力系统运行过程中产生的, 通过对其进行纠错处理后,能够为调度部门或市场运营提供决策参考依据。 目前,我国电力自动化系统在实时数据处理方面比较成熟,对收集到的实时数据不需要进行相关的处理,只需要在数据输入、输出过程中建立一个稳定的接口即可。 3.日常管理的数据:主要是在电力系统运行过程中对各种相关数据进行统计,
17、各部门对在工作中遇到的问题进行相关处理后的数据信息。 一般情况下,这些数据只需要在特定的范围内进行同步和共享即可。 在电力系统运行过程中,建立这一类型数据同步和共享的数据平台是十分必要的。 主要原因表现在以下几个方面: 这些日常管理的数据在某种程度上反映电力系统中电力设施设备的运行情况; 方便电力系统中各个部门对日常管理数据的获取,以便更好的开展部门工作。 4.市场经济数据:随着市场经济的发展,电力系统的经济效益越来越突出,电力系统运行中的相关数据对电力单位的发展具有重要影响,将其作为经济性数据十分有必要。 市场经济数据对城市建设规划中的电力规划有很重要的决策参考依据。 市场经济数据具有非常大
18、的扩展空间,其数据规划的重点将是实时数据。 二、电力自动化系统中的数据统一性 数据一致性即数据的唯一性。 电力自动化系统在运行过程中,会产生大量的数据信息,这些数据信息大部分都是其子系统中特有的信息, 还有一部分是部分子系统中共有的数据信息,也就是各子系统之间的数据信息交叉现象。 每个子系统中的数据均存储在其数据库系统中,会对整个系统的数据存储造成大量的数据冗余,使得电力系统中数据系统处理数据信息的效率不高,数据信息更新缓慢,甚至会造成数据信息的混乱,很大程度上降低了电力系统中数据系统的使用效率和可信度。在实际电力自动化系统运行过程中,通过对整个系统的数据库系统进行统一管理,能够在很大程度上保
19、证数据信息的一致性。 对于部分离线数据库系统来说,其数据信息的唯一性主要是通过利用离线数据库在数据库系统的服务器上,对数据库系统的服务器进行统一维护。 对实时数据库而言,主要是通过电力自动化系统在运行过程中,由实时数据库系统中的管理系统进行统一、实时的管理,确保数据信息的一致性。 三、电力自动化系统中的数据容灾 通常情况下,需要对电力自动化系统中的重要数据信息进行数据备份,再通过网络通信技术将其传输到异地进行数据信息保存。 当发生灾难后,可以由相关的计算机专业人员根据备份的数据对电力自动化系统中的数据进行程序恢复和数据恢复。 这有利于降低电力单位在数据信息备份方面的成本,操作也相对而言较为简单
20、方便。当电力自动化系统中需要备份的数据量逐渐增加时,就会出现数据信息存储介质不易管理的问题,在发生灾难后,也不 能够及时的将大量的数据信息进行恢复。 四、电力自动化系统数据收集过程 电力自动化系统运行过程中的数据,主要是通过数据信息的采集、集中、整理和转发来实现的。 根据数据类型的不同,采用不同的传输介质进行传输。 数据信息的通信方式主要有两种: 有线传输,如,光纤、电缆等多种介质,具有数据信息传输的实时性和可靠性等优点; 无线传输,如,微波、无线扩频等通信模式,具有无需铺设通信通道、工作量少等优点。在实际的电力自动化系统运行过程中, 其涉及面十分广、系统种类多,根据不同的部门需求的多个系统组
21、成,能够满足每个部门在数据系统中获取数据信息。 电力自动化系统中的设施设备的采购,可以适当的将一些先进的技术和经济性能的指标进行考虑,再在操作技术上进行优化处理,以最大程度的实现电力单位的经济效益和社会效益。 五、智能电网 1.智能电网中的网络拓扑结构 智能电网中的网络拓扑结构具有坚强、灵活的特点,能够有效的解决电力系统中能源和生产力分布不均匀的问题,满足电力企业大规模生产运输过程中产生大规模数据的处理功能,实现资源的优化配置,减少电能损耗。 同时,智能电网中的网络拓扑结构能够有效的应对一些自然灾害,如雨、雪等。 2.开放、 标准、 集成的通信系统 智能电网能够对电力自动化系统进行及时有效的监
22、控,主要在其具有识别故障早期征兆的预测能力和对故障做出相关的相应的能力。 智能电网是电力自动化企业的发展方向,能够为电网规划、建设和运行管理提供全面的数据信息,有利于大数据时代下电力自动化运行系统的稳定、安全和高效的运行。 六、结语 自动化系统的正常运行,一定要充分考虑到系统运行中数据信息的数量信息,便于数据的维修和存储空间的无限扩展。文章主要是分析了自动化系统的数据类型,并且对其进行了详尽的分析,对于相关问题进行了阐述,给电力自动化系统提供了更加广阔的空间,并探究了智能电网在电力自动化运行系统中运行的优势和未来的发展方向。 大数据处理论文:智能电网大数据处理技术现状和面临的挑战 摘 要在当前
23、新时期环境下,智能电网大数据处理技术在获得飞速发展的同时也面临着新的挑战,本文首先对智能电网大数据的特点进行了分析,并且探讨了智能电网大数据处理技术的发展现状,重点分析其在当今新时期环境中面临的挑战。 关键词智能电网 大数据处理技术 现状 挑战 随着我国智能电网建设进程的不断推进与深入,电网运行与设备监测过程中也产生了大量的数据信息,逐渐构成了当今信息学姐与研究人员重点关注的发数据,但大数据时代下电网的高效、稳定运行离不开相应的处理与存储技术作为支撑。 1.智能电网大数据的应用特征 电网业务数据可以大致划分为三类:第一是数据监测、设备检测及电网运行;第二是电力企业营销数据,如用电客户、销售量、
24、交易电价等方面的信息数据;第三是电力企业的管理数据。1数据信息量十分巨大,并且随着电网数据的不断更新升级,数据类型也变得繁杂多样。电网数据种类众多、分布较广,主要包括多媒体数据、文本数据、实时数据、时间序列变化等半结构化、非结构化以及结构化数据,不同类别的数据在查询、处理方面的性能与频度要求也存在很大差异。智能电网运行时的数据价值密度较低,例如电网监控视频,其在实际监控管理的过程中,总数据中十分有用的信息量是非常少的,多数的数据都是正常数据。 2.智能电网大数据处理技术发展现状分析 2.1 并行数据库 关系数据库主要负责对结构化数据进行存储,从而提供严格依据规则快速处理事务的能力、边界的数据查
25、询与分析能力、数据安全性保障以及多用户并发访问能力。应用强大的数据分析能力以及SQL查询语言以及独特的程序优势获得了广泛的应用。2经管随着智能电网建设的不断加快,数据超出了关系型数据库的管理范畴,地理信息图片与音频、图片以及视频等非结构化的数据逐渐成为需要处理与存储的信息的一项重要组成部分。 2.2 云计算技术 随着云计算平台的出现及完善,大数据技术的需求也相继出现,云计算的关键是数据并行处理与海量数据存储技术。而在智能电网中,电力设备状态监测设备的数据量应当是最为庞大的,而状态监测数据不但包含了在线数据,还应当包括缺陷记录、实验记录以及基本信息等,由于数据量极大,其对于实时性要求比企业的数据
26、管理更高。当前,云计算技术在电力行业的发展依然处于初级的阶段,现行的云计算平台能够充分满足职能电网监控软件运行的可扩展性与可靠性要求,但在数据隐私、安全性、一致性以及实时性方面存在缺陷,依然需要进一步优化与完善。 3. 智能电网大数据处理技术面临的挑战分析 3.1 大数据传输与储存技术 随着智能化的不断发展,电力系统在运行过程中的电力设备监测数据与其他数据都会被记录下来,数据量不断增加,这对于电网运行监控以及数据的传输、存储造成巨大的压力,同时在一定程度上影响了电网智能化的发展。在智能电网大数据存储方面,通过分布式文件保存的形式可以进行大数据存储,然而可能对电力系统在数据实时处理方面产生影响。
27、3因此,需要对电网大数据进行分门别类后再存储。而重点是将其中非结构化的数据转化为结构化数据,对于智能大数据处理技术来说依然较为困难。 3.2 数据处理时效性技术 对于大数据来说,其数据处理的速度是非常重要的。通常而言,数据的规模越大,需要分析与处理的时间也会越长。以往的数据存储方案针对一定要求的数据量进行设计,其在大数据方面并不适用。4而在未来智能电网的大环境下,如何在发电、输变电、用电等环节进行数据实时性处理是一个非常关键的问题。 3.3 异构多数据源处理技术 在未来智能电网要求贯通电网运行的每一个环节之中,时间新信息的高效采集与处理,并且逐渐朝着业务流、信息流以及电力流高度一体化的方向进行
28、发展。所以,首先要做的就是如何整合大规模多源异构信息,为智能电网提供一个资源高度集约化配置的数据处理中心。对于海量的异构数据来说,如何构建出科学的模型进行规范表达以及如何在这个模型的基础上实现数据的存储、融合、查询等是亟待解决的重要问题。 结语 我国智能电网系统的应用广度与深度在不断加强,大数据处理技术逐渐成为维护电网智能安全运行的一项重要手段。然而随着电网智能运行的不断发展,其在大数据处理一致性、隐私性、实时性等方面也面临着相应的挑战,未来智能电网的主要依托依然是大数据处理分析技术,所以必须寻找出妥善应对挑战的策略,最终推动我国电力事业的长久稳定发展。 大数据处理论文:移动互联网的大数据处理
29、关键技术 通过大数据的研究处理将获得的有用信息服务于企业或机构,使其在竞争中取得优势,来为企业提供更好的处理大数据的方法,帮助企业更深刻的理解客户对其的需求和体验,以利于业务的发展,用户也可以更好地体验移动互联网各种资源。本文首先对移动互联网大数据做了概述,然后分析了移动互联网大数据处理中存在的问题,最后详细阐述了移动互联网的大数据处理关键技术。 移动互联网;大数据;处理;排重;整合 一、移动互联网大数据概述 移动互联网大数据是指用户使用智能终端在移动网络中产生的数据,主要包括:与网络信令、协议、流量等相关的网络信息数据;与用户信息相关的用户数据;与业务相关的数据。 大数据提供客户经历的各种体
30、验的完整信息,可以详尽到在任何时间、地点,结合移动客户体验方案来分析相关数据,从而帮助运营商更详细掌握客户体验情况,提前预知网络上可能发生的问题,及时做出合理响应,这些信息对运营商的服务提供很大的帮助。大数据分析为整个电信产业带来了前所未有的机遇与挑战,如何高效地发挥这些数据资源的作用,是摆在为运营商面前的关键问题。 二、移动互联网大数据处理中存在的问题 (一)多源数据采集问题 大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。举例来说,一个用户的一条位置信息的价值是很小的,但是很多这样的低价值数据可以完整刻画出用户的运动轨迹,获得本质上的价值提升。然而,在已有
31、的数据采集系统中,数据收集不全面是一个普遍的问题,如何处理来自多源的数据是移动互联网大数据时代面临的新挑战。其中,迫切需要解决如下几个问题: 1.无线移动网络结构复杂,需要在网络中高效地采集数据。 2.多源数据集成和多类型数据集成的技术。 3.兼顾用户的隐私和数据的所有权和使用权等。 (二)移动互联网海量异构数据管理问题 据统计,2003年前人类共创造了5艾字节(Exabytes)的数据,而今天两天的时间就可以创造如此大量的数据。这些数据大部分是异构数据,有些具有用户标注、有些没有;有些是结构化的(比如数值、符号)、有些是非结构化话的(比如图片、声音);有些时效性强、有些时效性弱;有些价值度高、有些价值度低。移动互联网海量异构数据管理平台包含以下关键研究和技术:海量异构大数据传输控制、大数据存储、大数据质量管理。 (三)移动互联网大数据实时数据挖掘问题 传统意义上的数据分析(An
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1