应用于智能交通中的大数据技术Word下载.docx
《应用于智能交通中的大数据技术Word下载.docx》由会员分享,可在线阅读,更多相关《应用于智能交通中的大数据技术Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
大数据可以跨越行政区域的限制。
行政区域的划分是国家为了有效统治和管理,而将一个国家划分不同行政区域。
这个划分在促进各个行政区域自治的同时,也导致各个地方政府追求各自辖区利益的最大化将用户可能利用的各种交通数据纳入系统,构建公共交通信息集成利用模式,发挥整体性交通功能,通过在大
数据中进行集成检索、利用和分析来提取相关信息,满足各种交通需求,以解决实时交通障碍。
(图一:
日本三大都市圈交通模式的演变)
从图一我们可以看出从1970年至2004年,名古屋所处的中京都市圈小汽车分班比呈现上升的势头,且轨道与巴士出现下降的趋势,城市交通模式趋于偏离公共交通的发展。
(二)大数据下智能交通的优势
智能交通数据处理体系的构成一般由输入交通数据(静态与动态数据)——数据处理(实时数据处理)——数据存储(大数据)——数据查询,检索,可规划——用户等组成。
大数据能较好的配置公共交通信息资源。
传统的交通部门权责界定未厘清,专业分工的细化也促使公共交通管理部门职能重叠,因而在运营上浪费大量人力、物力。
大数据能辅助人们制定出较好的统筹与协调解决方案,在各个交通部门之间合理配置交通职能,针对有关道路问题进行合理信息资源配置。
大数据在解决公共交通问题上具有以下优势:
1、在对公共交通的车辆进行配置过程中,配置成本会随着大数据的聚合而减小,这种高效配置能提高车辆的有效路段里程,进而提高交通运输效率;
2、一旦某个路段发生问题,能立刻从大数据中调出有用信息,确保交通的连贯性和持续性;
3、大数据具有较高预测能力,可降低误报和漏报的概率,可随时针对公共交通的动态性给予实时监控。
在智能交通管理下,尽管引入处理大数据的超级计算机需要耗费一定资金,每年对其的维护也需耗费一定财力,但是从长远来看,其经济效益更大。
应用大数据可以减小交通堵塞。
将用户分析之后,转化为一张完整的道路交通状况地图,并在地图上以同颜色标示各个路段的运行现状,以确定造成交通堵塞的地点、应用大数据处理恶劣天气的道路状况。
使用来自气象信息站和交通高速数的信息,以评估对关键路线的道路进行清理所要耗费的时间,从而提高处理道路状况的效率。
应用大数据可以评估路况。
使用交通的高速数据和分析,以评估出关键路段的行驶可靠性。
定位拥挤路段,为拥堵路段的司机指明疏通路段。
(三)大数据下智能交通的弊端
大数据扩大了围,加快了信息传递和共享速度,若不加以严格控制,其所含的商业信息或私密信息就可能泄露,例如个人所在位置、个人出行习惯以及用户最喜欢的主路线等。
一旦个人察觉到这些私密信息有泄露,就会抵制大数据管理系统的广泛应用。
各地机构都具有交通数据并能被大数据管理系统应用,但很多车辆计算交通数据都以静态格式存储,使得系统所具备的计数特性无法被除人之外的事物进行检索,这种传统“人对物”的互联网连接方式不符合物联网的“物对物”特性。
交通数据的物联化是通过智能手机、传感器和机载车辆等硬件,不间断收集、通信和处理诸如交通条件、天气状况等移动数据。
三、大数据时代给智能交通带来的问题与挑战
(一)数据关联复杂
根据相关部门统计,随着互联网信息时代的到来,在当今三年里产生的信息数据相当于上一个时代四万年产生的数据量,并且随着时代的发展信息量要成上升趋势。
大量信息数据的产生已经毋庸置疑的来了。
在这些大量数据的产生中其来源来自于方方面面,无论从生活的互联网电子商务购物,还是到工业企业中各产线的的生产制造,还是到社交网站等媒体信息的沟通,还是到在线视频影响资料的制作与传输都是大量信息数据产生的源头。
就现今时代发展而言无论从工业企业的信息自动化管理系统,还是政府机关等服务部门的电子窗口政务以及居民所使用的网络信息娱乐与服务均会产生大量的信息数据。
同样在现代交通领域也不例外,就目前而言浮动车数据、智能交通卡等信息数据已经大量的分布各地。
就浮动车的GPS数据数据而言,仅按照一座城市20000辆pcu作为估算依据,那样车辆轨迹产生的实时传输记录就可以产生平均为50~200B数据长度的数据,如果按照一辆车15—60s/次的回报频率。
这样仅该项数据就可每天产生4.75GB的数据量,1.75TB的年数据量。
如果再加上视频、图像、音频等各项数据流,那么整个数据系统就会存在诸多错综复杂的关系,并且这些相互关联的关系还会发生动态的不可确定的变化,因而导致数据关联模式非常复杂,并且难以处理。
(二)数据迁移问题
受到各种信息服务终端的影响,各类信息系统均会产生大量信息数据,这样便使得各类信息数据的存储规模呈现迅猛爆炸式增长。
就目前发展阶段而言,个人用户端的信息数据存储规模已经从过去的GB级别逐渐上升到了TB级别;
在一些大中型信息化企业当中其信息数据存储规模也已经上升到了PB级别有的甚上升到了EB级别。
近年来,随着互联网和云计算等技术的迅猛发展,由于其有明显的技术优势和服务优点,已经越来越多企业和个人和企业选择将大量的信息数据业务迁移到云计算平台等大规模数据中心中去,进而以降低本地硬件的投入和维护成本以及安全性的保证。
但是我们知道超大海量的数据迁移并非那么容易其必须要以可行可靠安全的技术方案作为支撑,一旦出现错误将会给现实社会和实体经济带来影响以及增加安全隐患。
此外超大海量数据迁移任务需要较大带宽作为传输技术支撑,就目前的带宽技术发展而言,虽然其已经发展较快,但随着时代的发展其发展速度将满足不了超大海量信息传输的要求,可能会成为数据迁移的一项发展瓶颈。
(三)数据接收实时性
随着现代智能交通的发展,交通领域已经呈现多样化的发展,现代交通的发展已经要求大量的数据需要进行在线接受、记录和处理,例如在交通领域中出租车行车轨迹数据记录、长途客车行车轨迹数据记录、公务性用车行车车轨迹数据记录以及出租车营运交易信息数据的记录,类似这样的信息数据均需要大量的实时接收、记录和处理。
除此之外这些交通实际应用对于信息数据的完整性以及安全性均要求较高。
其中完整性的要求要使得信息数据做到无丢失并且实时接收用户的信息数据传输需求,同时还要做好并将信息数据的存储和备份。
对于安全性的要求要使得数据的实时传输通道始终保持在授权的情况下运行,不能够在无授权的情况下被访问和监听进而盗取和破坏数据。
与信息数据迁移性问题一样,信息数据的实时性接受也会受到带宽的制约,一般实时数据的接受功能需要在至少独享10Mbps带宽上运行,同时在信息数据需要人机互动时还存在着I/O设备接口的瓶颈。
(四)海量数据计算
由于大数据的计算和处理特性,对于传统的数据分析、挖掘、处理方式已经无法满足大数据的要求。
这样以计算和处理大数据就需要打破传统思维模式,进而利用密集型计算和新型计算的模式,该模式需要有数据计算效率的评估方法加上数据计算复杂性的研究基础理论作为技术支撑,而这些数据计算均要针对交通行业的特性以及现阶段存的问题组建成相应的数学模型才能够解决实际问题。
因此大数据时代,数据量不仅庞大,更重要的是大部分数据长时期按照分布式的形式存在,使得数据很难得到集中处理,这样便会给移动数据带来巨大的消耗。
所以大数据时代的数据计算需要将自顶向下的中心化模式转换为以自底向上的以数据为核心的计算模式。
(五)城市交通的大数据环境带来的挑战
城市交通的大数据环境带来以下变化数量大但信息密度相对较低,且有一定程度的不确定性;
单一数据源只能从某以角度描述研究对象,但不能给出完整的描述图像;
不同的数据源具有不同的参照系,并且服从不同的误差分布;
更加需要关注数据关联分析,以求发现新的知识和规律。
为此以上海为例城市扩展对交通带来新的挑战如下《上海社会经济发展趋势及对交通的影响研究》2030年GDP总量达67197亿元,为2010年的4倍;
2020年岗位总规模达到1430-1450万,较现状增26%;
常住人口:
2020年2800万,2030年超过3000万;
流动人口从现状的224万人,增长到2020年的250万人。
中心城规模仍在扩大:
十一五期间中心城建筑量年均增加2000万平方米,建筑开发量接近4.5亿平方方米,据规划院分析,2020年中心城建筑量将达到6.5亿平方米。
常住人口呈现向中心区以外蔓延扩展的态势,2009年起,2批38个大型居住社区发展规划,用地70平方公里,估计可容纳300万人。
(图二:
上海第三产业从业人口比例逐步增加趋势图)
(表一:
上海城市发展变化趋势,其中情景一为当前模式,核心集聚——中心城整体处于饱和状态,进出中心城的潮汐特征突出。
情景二:
多核发展——中心城路网整体处于可接受的服务水平,郊区交通量比重明显增加。
)
上海城市发展变化趋势表
2010年
2020年(情景一)
2020年(情景二)
人口
岗位
中心城
1150
620
1300
689
1200
660
拓展区
485
260
800
408
700
343
远郊区
667
400
336
900
450
其中:
新城(占远郊区比例)
230
(34%)
145
(36%)
385
(55%)
228
(66%)
500
(56%)
297
从以上分析我们不难得出以上海为例城市发展的变化将带来以下挑战:
1、如何适应——融入城市群发展的上海,自身结构扩展调整的上海,产业结构转型的上海,提升国际航运中心能级的上海;
2、如何引导——城市交通模式的可持续发展,城市交通的理性消费,现代交通意识的建立;
3、如何应对——城市空间资源的紧缺,城市环境容量的制约,交通建设资金的紧缺,交通安全形势的严峻。
因此我们必须要使智能交通需求与大数据的融合并且构建智能交通海量数据的平台。
四、智能交通需求与大数据的融合
(一)智能交通需求
所谓智能交通其整体框架主要应该包括物理感知层面、数字软件应用平台、数字分析预测以及优化应用管理系统,在这其中物理感知层面主要包括对交通状况、交通环境以及交通数据的物理感知采集;
而数字软件应用平台包括对各个感知系统终端的信息数据进行整合并通过载体进转换处理进而支撑和分析各项应用系统的建设;
对于分析预测以及优化应用管理系统主要包括交通规划、交通疏导、交通监控、智能指挥、智能停车、智能管理等应用系统。
对于智能交通的系统应用其可以利用视频监控系统配合智能识别系统以及信息技术手段的融合,使得其管理空间、时间和范围得到不断加大,使得其管理手段在广度、深度以及精细度上均得到提高。
对于现代智能交通系统整个应用平台而言,其平台的构成主要是由视频监控系统、信号控制系统、电子报警识别系统、智能卡口系统、信息采集和传输系统以及信号和信息处理发布系统等基本单元组成,这些结构单元组成的系统平台主要实现的目的和目标应包含以下四个方面:
1、该系统平台致力于提高交通通行能力,2、该系统平台的重要目标之一是为了减少和降低交通事故危险,3、该系统的核心手段是打击道路违章违法事件,4、该系统平台要经过不断的优化和提升。
为此现代智能交通的功能需要就使得大数据技术与其必须进行融合。
(二)相互融合
在智能交通信息数据需求的的基础上,现代智能交通与大数据技术的相互融合具备以下基本条件:
1、成熟度的融合,无论是现代智能交通还是大数据技术其在现代技术应用领域已经愈发成熟,在当今现代化城市社会无论是智能卡口还是电子警察再到智能视频监控系统其都已经对视频和影像数据处理技术进行了语意化的应用,并且已经成熟应用并且完整度和深度正在逐步加深。
为此对于大数据时代智能交通极为可能成为在大数据新兴技术领域应用中最先推广和成熟应用的领域。
2、技术融合,就目前大数据技术以及基础云计算技术的发展,其技术的应用构架与智能交通的系统平台构架融合度较高,而对于大数据技术在智能交通领域率先的融合和应用,因其能够带来巨大的社会效应,因此其必将引领该项技术在整个智能城市的建设中带领各子模块快速发展。
3、群众基础,对于智能交通而言其面向的服务群体依然是广大群众,从智能交通面向的使用者角度来看,智能化交通可以影响到各类群体出行的信息服务。
智能交通的全面应用不仅能够使得广大群众生活更加方面同时也降低了,城市运营成本,特别是能够让广大群众更加秩序化使得公安、交通的执法执勤频率降低。
因其智能交通的发展有一个极强的群众基础作为支撑。
因此这样一来,智能交通的信息数据的采集、存储与计算就会与广大群众个体相结合,使得对数据的采集、计算、甄别和处理上均需要大数据技术作为支撑。
五、智能交通海量数据的平台搭建
(一)针对战略调控的数据密集型分析的技术路径
从本质上来说,大数据环境下交通分析技术完成的是一种将数据组织成为信息,从信息提炼特征,从特征变化中发现规律,就对策进行追踪评估的信息处理过程。
而模型所处理的问题领域可以划分为系统状态分析和交通行为分析两个基本板块。
(图三:
战略调控的技术应用架构)
(二)系统架构
针对现代智能交通的海量数据特点,结合与其融合的大数据典型平台架构,搭建一种智能交通海量数据平台其基本架构应包含以下三个部分,即数据采集层、数据架构层以及数据服务层。
其中数据采集层采集的数据就是智能交通系统的所有所需处理信息数据,采集后得到的数据通过数据传输到交通云平台,交通云平台会根据不同的应用需求进行分类存储到相应的内存数据库中,此后便按照处理的不同需求选用不同的数据架构层进行处理,最终实现数据服务层对其提供实时快速高效的服务。
(图四:
智能交通海量数据共享分析平台)
(三)迁移数据方案
由于现有智能交通数据一般均存储在关系型数据库当中,我们为了能够让数据统计分析更为精准,所以必须要让历史数据迁移到大数据平台当中。
经过多次反复测试,其中以开放oracle数据库数据浏览端口为最佳方案,因为其可以使用开源数据转移工具Sqoop直接将数据导入HDFS当中去,但其传输速度却要受限于网络带宽的限制。
此方案在实际的测试过程当中,有着较高的安全性,试验中始终保持着,0次传输间断和O%数据传输丢失。
Sqoop是一项将Hadoop与关系型数据库中的数据能够实现相互转移的工具,其不仅可以将一个关系型数据库中的数据导入Hadoop的HDFS中去,其还可以将HDFS中的数据导入到关系型数据库当中去。
(四)存储数据方案
对于任何信息数据计算系统数据的存储与数据计算是不可分割的,因此在系统的架构之初其就包含海量数据存储功能以及海量数据计算功能。
为了保证该项功能的实现,这就要求通信客户端可以在接收数据源层中所采集的数据这一过程当中保证无丢失,并且能够无丢失的发送到云平台当中去。
就在这一过程当中,系统的存储功能就需要保持所有数据无丢失并且持久性储存。
一般情况下系统平台接收到需要上传文件的请求信号之后,这样在云平台上的Hadoop集群将会按照预定启动一项Job任务进而将需要上传的数据文件块上传HDFS当中的HBase分布式数据库当中进行持久性的储存,进而实现存储功能。
为了保证储存不丢失,一旦遇到多项任务上传时,这样JobTracker就会对任务进行调配,并在架构层中提前配置ApacheHive、ApachePig以及Impala等多种工具进而实现多种数据的快速分析、甄别和处理。
存储模块也会相应的启动数据处理和分析Job的任务。
就目前而言数据处理和分析的主要任务类型有:
最近数据的查阅和数据简单统计并通过ApacheHive和ApachePig支持的SQL语句当中查询。
然而在这一过程需要注意数据采集层在数据传输系统当中,其统计和分析的数据范围一般为最近的活跃数据,这样的设计就会受限于网络带宽。
这样就会造成实时数据传输系统以外的系统为大数据海量数据提供访问接口进而实现批量处理功能。
(五)数据仓库系统
在构建智能交通大数据系统平台少不了数据仓库系统。
近些年来,数据仓库系统已经成为数据管理研究领域的热点,而其中的主要原因为数据仓库系统在当前所面临在数据源的需求以及、所处的硬件环境加上需提供的数据服务等都发生了诸多本质性的变化,这些本质性的变化就必须让我们重新改进和利用数据仓库系统。
而对于智能交通海量大数据,其应该在现有数据仓库系统的基础上完成对方案的重新审视,并需要具备以下几个重要的特性:
1、高度的可扩展性:
面对现代交通的发展其数据呈现几何增长的趋势,数据库已经不能仅依靠l台或几台机器进行scaleup纵向扩展的升级来满足爆炸式的数据量增长。
我们必须要能够在横向可扩展(scaleout)等方面方便的实现高度的可扩展行目标;
2、高度容错性:
对于现代智能交通大数据系统其数据来源较为复杂,应当具备高度的容错性其容错性的要求要在系统的查询执行过程中一旦发生某个节点失效的情况时,不需要重新进行整个查询并满足于现代智能交通数据的实时交通信息查询。
为此要在大规模机群环境下,重点考虑利用软件完成容错而不是依赖系统硬件来完成;
3、支持异构环境,在以上基础之上由于计算机硬件更新较快,建设大规模机群同构系统难度较大,并且一次性购置大量同构计算机也是不为合理的。
为此,解决这一问题异构环境便可以有效对一些闲置计算基资源进行利用,进而降低系统硬件的投入成本。
(六)处理数据方案
系统的数据处理是大数据系统平台在现代智能交通领域内的核心模块,一般系统的数据处理要实时与统计应用相互分离,进而适用不同应用的需求。
该模块运用大规模并行计算以及增量式计算方法保证了能够全面性、准确性和实时性处理系统数据。
在这一过程当中所应用的关键技术包括:
1、轨迹数据快速检索技术:
该技术是以SeqIlenceFries二进制文件取代原始数据的转存,设计Key-Value储存作为记录。
其能够利用Key进行快速检索Value的特性,并再将数据子集存储在Value之中。
此外还可以用HDFs分布式文件系统以及MapReduce分布式计算编程取代过去的关系数据库查找进而实现快速统计功能。
该项技术的数据压缩比可以达到40%,运算速度可以提升50倍以上,因此可实现对固化后的数据实现快速检索与统计分析功能。
2、分布式轨迹聚类技术:
该技术是利用MapReduce分布式计算架构对分布式轨迹进行一定的规则化处理,从而实现K.Means聚类算法。
一般其都会指定起始点位置,然后对常跑路径聚类分析进而快速探测异常值实现对分布式轨迹进行一定的规则化处理。
该项技术一般提供对常规路线或指定路线的快速提取以及处理异常分析的比照等。
3、分布式停车点聚类技术:
该技术是一种在Mahout与Hadoop分布式机器学习库平台的一项协作功能,其主要是分布式实现Mapreduce的可迭代式数据。
以此来快速检索和统计分析所需轨迹停车点后的数据提取,在利用Mahout中的Clustering数据中的挖掘模块实现多维空间下的快速聚类分析功能。
4、地图匹配技术:
该技术是一项通过对传感器功能带来的观测数据进行分析进而确定传感器载体的地理空间位置。
在智能交通领域当中一般的传感器指的均是GPS接收器,这是因为GPS接收器能够提供经纬度坐标等地理信息,并且其已经在诸多领域得到应用。
大部分车载GPS接收器,其实际使用意义在于确定车辆正确的行驶道路,因此其对于车载实时导航系统具有至关重要的作用。
在现在和未来应用当中车载GPS设备还会对交通流速度等交通状况进行数据传输,因此地图匹配技术在位置信息数据当中具有十分的关键的作用。
(七)数据安全策略
对于现代智能交通大数据系统平台数据的安全性应占据构建该平台的首要重要性位置,其包括数据的安全存储、安全递交以、安全访问以及安全共享等方面的构建。
对于数据的安全备份策略,其系统可靠性需要来自于对HDFS文件系统进行冗余存储设计。
HDFS系统的复制因子(ReplicationFactor)参数决定了资源利用率和数据可靠性之间的权衡关系。
因此对于系统数据的备份设计需要将某数据节点中的本地数据在不同和相同机架的远程远端节点各备份l份,对此这样的设计既保障了数据可靠性,同时也能够按照就近备份原则提高了数据的可用性。
对于数据的访问完全策略应当权衡精准服务和位置隐私之间的矛盾。
利用Hadoop权限设计在HDFS相应文件夹当中设置相应的用户权限,并加以Namenode、HMaster和Jobtracker对HDFS和HBase访问时进行监控,并且实时生成追踪日志记录每次数据访问。
此外进行数据匿名策略并适时替换敏感字段使得。
现代智能交通大数据系统,能够具备大规模、实时、可扩展的优势,并能够安全支持海量数据的存储为交通的安全管理做好有效的保障性支撑。
(八)未来发展建议
广泛开放公共交通数据通过开放交通数据,有助于形成良好的公私伙伴关系,促使交通主管部门利用私营机构的专业信息技术知识,通过专业开发人员以及第三方应用程序开发者来完善交通信息服务,根据具体人群需求来定制个性交通服务。
保护个人私密信息为避免个人私密信息非法泄露,政府应制定一部完整的数据隐私法,对个人数据的定义、数据可发布范围、数据发布的基本原则、数据可利用的范畴等方面进行规范。
要做到数据的商业性开发、公益性利用能够与个人隐私权之间相平衡。
六、结论
随着时代的发展变化以及社会需求变化,对于现代智能交通已经成为了人们日后日常生活必不可少的城市建设环节。
与此同时随着信息时代的到来,在智能交通领域大量的信息数据必须要得到高效、快捷、安全的处理。
在大数据时代智能交通的建设,其主要目的是要使得城市的交通发展与管理水平得到有效提高。
从今天到未来大数据在智能交通的应用中必须要使用云计算等大数据处理技术,而