毕业设计基于测量的在线视频流媒体质量因素分析.docx

资源描述

毕业设计基于测量的在线视频流媒体质量因素分析.docx

《毕业设计基于测量的在线视频流媒体质量因素分析.docx》由会员分享，可在线阅读，更多相关《毕业设计基于测量的在线视频流媒体质量因素分析.docx（56页珍藏版）》请在冰豆网上搜索。

毕业设计基于测量的在线视频流媒体质量因素分析.docx

毕业设计基于测量的在线视频流媒体质量因素分析

毕业设计（论文）

中文题目：

基于测量的在线视频流媒体质量因素分析

英文题目：

UsingSparktoanalyzefactorsfor

thequalityofvideostreaming

学院：

电子信息工程学院

专业：

自动化（铁道信号）

学生姓名：

学号：

指导教师：

郭宇春

2014年6月4日

题目：

基于测量的在线视频流媒体质量因素分析

学院：

电信学院专业：

自动化（铁道信号）

学生姓名：

学号：

指导教师建议成绩：

评阅教师建议成绩：

答辩小组建议成绩：

答辩委员会意见：

最终成绩：

主管教学副院长或答辩委员会主席签字：

年月日

题目：

基于测量的在线视频流媒体质量因素分析

适合专业：

自动化自动化（铁道信号）

指导教师（签名）：

郭宇春提交日期：

2014年3月2日

学院：

电信专业：

自动化（铁道信号）

学生姓名：

学号：

毕业设计（论文）基本内容和要求：

研究内容：

了解视频流媒体业务的基本特征，基于测量数据集，进行在线视频质量因素分析。

分析流媒体质量与媒体内容、终端类型、地理位置、观看时间等不同因素的关系。

研究方法：

机器学习、数据挖掘

基本要求：

完成测量数据集的处理，提出分析模型

毕业设计（论文）重点研究的问题：

1.数据集的预处理

2.视频基本特征的统计分析

3.运用机器学习和数据挖掘基本方法，分析研究视频质量与相关因素的关系

毕业设计（论文）应完成的工作：

1.相关理论学习：

包括在线视频应用的了解，对机器学习和数据挖掘基本理论与方法的学习。

2.测量数据的预处理：

了解数据集特征，对数据集进行预处理，形成适合后续分析的基本数据集。

3.质量特征统计分析：

处理确定流媒体数据，对各项数据进行统计特征分析。

4.挖掘模型研究：

掌握数据挖掘和机器学习基本方法，对视频质量与相关因素进行关联分析，确定不同元素对视频质量影响的重要度。

参考资料推荐：

1.AthulaBalachandran,VyasSekar,AdityaAkella,SrinivasanSeshan,IonStoica,HuiZhang,"AQuestforanInternetVideoQuality-of-ExperienceMetric",HotNet2012.

2.FlorinDobrian,AsadAwan,DilipJoseph,AdityaGanjam,JibinZhan,VyasSekar,IonStoica,HuiZhang,"UnderstandingtheImpactofVideoQualityonUserEngagement"SIGCOMM2011.

3.AhahzadAli,AnketMathur,HuiZhang,"MeasurementofCommercialPeer-to-PeerLiveVideoStreaming",WorkshopinRecentAdvancesinPeer-to-PeerStreaming,August,2006.

其他要说明的问题：

重点在于应用相关模型分析PPTV的移动客户端服务器端的数据，并所面临的问题提出进一步的解决方案。

达到学有所用，付诸实践。

题目：

基于测量的在线视频流媒体质量因素分析

学院：

电子信息工程学院专业：

自动化（铁道信号）

学生姓名：

学号：

文献综述：

网络的宽带化使得人们对网络信息不再满足干简单的文本、图像而越来越希望宽带网络能带来更直观更丰富的信息表现方式。

流媒体技术的发展及应用使得这种需要成为可能。

流媒体是人类传播科技的又一次革新，虽然并非与印刷媒介、电子媒介和网络媒介同级的传播媒介，只是一种新的媒介技术和形式，但流媒体的出现给整个电子信息产业带来了全新的景观。

流媒体的出现颠覆了以往传统的传播模式，开始由单向传播向双向互动发展。

流媒体是指在Internet中使用流式传输技术的连续时基媒体，与传统的单纯下载方式相比较，流媒体具有明显的优点：

由于不需要将全部数据下载后再播放，等待时间大大缩短；流文件往往小于原始文件，用户也不需要将全部流文件下载到硬盘，从而节省了大量的磁盘空间；由于采用了RSTP等实时传输协议,更加适合动画、视频音频在网上的实时传输。

　随着计算机网络和多媒体技术的不断发展，流媒体直播技术的应用越来越广泛。

近几年，无线网络的飞速发展和带宽的迅速提高，为流媒体技术在无线网络中的应用奠定了坚实的基础。

研究内容：

　本文主要了解视频流媒体业务的基本特征，通过spark对在线视频进行流媒体质量因素的测量和分析。

关联分析在不同技术条件和环境下流媒体的质量与因素，掌握不同元素如媒体内容、终端类型、地理位置、观看时间等对视频流媒体质量影响的关系和程度。

研究方法：

　机器学习，机器学习的研究是根据生理学、认知科学等对人类学习机理的了解，建立人类学习过程的计算模型或认识模型，发展各种学习理论和学习方法，研究通用的学习算法并进行理论上的分析，建立面向任务的具有特定应用的学习系统。

这些研究目标相互影响相互促进。

　数据挖掘，数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

　数据分析，数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥数据的作用。

是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称观测值，是实验、测量、观察、调查等的结果，常以数量的形式给出。

重点研究的问题：

1.Spark平台的安装搭载与环境配置

2.待测量移动客户端服务器数据的预处理

3.视频基本特征的统计分析

4.运用机器学习和数据挖掘基本方法，分析研究视频质量与相关因素的关系

主要参考文献：

[1]AthulaBalachandran,VyasSekar,AdityaAkella,SrinivasanSeshan,IonStoica,HuiZhang.AQuestforanInternetVideoQuality-of-ExperienceMetric.HotNet2012.

[2]FlorinDobrian,AsadAwan,DilipJoseph,AdityaGanjam,JibinZhan,VyasSekar,IonStoica,HuiZhang.UnderstandingtheImpactofVideoQualityonUserEngagement.SIGCOMM2011.

[3]AhahzadAli,AnketMathur,HuiZhang.MeasurementofCommercialPeer-to-PeerLiveVideoStreaming.WorkshopinRecentAdvancesinPeer-to-PeerStreaming.August,2006.

[4]PhillipaGill,MartinArlitt,ZongpengLi,AnirbanMahanti.YouTubeTrafficCharacterization:

AViewFromtheEdge.InProc.IMC,2007.

[5]A.Bouch,A.Kuchinsky,andN.Bhatti.QualityisintheEyeoftheBeholder:

MeetingUsers’RequirementsforInternet

QualityofService.InProc.CHI,2000.

[6]XiLiu,FlorinDobrian,HenryMilneretal.ACaseforaCoordinatedInternetVideoControlPlane[J].ComputerCommunicationReview,2012,42（4）:

359-370.

[7]兰杰.基于用户体验的流媒体测试方案的设计与实现[D].北京大学,2009.

[8]程伟.网络视频流质量监测系统设计与实现[D].北京邮电大学,2012.

[9]周敬利,马志龙,范晔斌等.视频流媒体传输失真研究[J].小型微型计算机系,2006,27

（2）:

264-267.DOI:

10.3969/j.issn.1000-1220.2006.02.018.

[10]http:

//en.wikipedia.org/wiki/Cluster_analysis

[11]http:

//en.wikipedia.org/wiki/K-means_clustering

[11]http:

//cwiki.apache.org/confluence/display/SPARK/

研究方案：

5.相关理论学习：

对视频流媒体业务的发展现状和视频质量监测的研究现状进行了整理分析，包括在线视频应用的了解，对机器学习和数据挖掘基本理论与方法的学习。

6.测量数据的预处理：

了解数据集特征，对数据集进行预处理，形成适合后续分析的基本数据集。

7.质量特征统计分析：

处理确定流媒体数据，对各项数据进行统计特征分析。

8.挖掘模型研究：

掌握数据挖掘和机器学习基本方法，对视频质量与相关因素进行关联分析，确定不同元素对视频质量影响的重要度。

毕业设计（论文）进度安排：

序号

毕业设计（论文）各阶段内容

时间安排

备注

仔细阅读任务书，查找相关文献并阅读

1~2周

学习机器学习和数据挖掘基本理论与方法，深入课题的理论基础并写开题报告

3-4周

了解数据集特征，对数据集进行预处理，形成适合后续分析的基本数据集。

5周

安装搭载Spark平台，对平台进行环境变量的配置，运行相关例子，测试是否成功安装。

6-7周

掌握数据挖掘和机器学习基本方法，应用聚类算法对视频质量与相关因素进行关联分析，即使用相关模型分析PPTV的移动客户端服务器端的数据。

8-10周

确定流媒体视频不同元素之间的影响与程度

11周

撰写毕业论文

12~13周

准备答辩

14周

毕设答辩

15~16周

指导教师意见：

填写说明：

查阅资料是否全面，提出的研究方案和计划进度是否可行，还有什么需要注意和改进的方面，是否同意按学生提出的计划进行等。

指导教师签名：

审核日期：

年月日

题目：

基于测量的在线视频流媒体质量因素分析

学院：

电子信息工程学院专业：

自动化（铁道信号）

学生姓名：

学号：

毕业设计（论文）完成情况（包括设计图纸、说明书、实验报告、计算机软硬件、外文翻译及摘要、论文书写及规范化等）评价（50分）：

毕业设计（论文）成果质量评价意见（30分）：

学生工作态度和考勤情况评价（10分）：

开题报告的评定成绩（10分）：

总成绩：

_______指导教师（签名）：

_________日期：

______年月日

题目：

基于测量的在线视频流媒体质量因素分析

学院：

电子信息工程学院专业：

自动化（铁道信号）

学生姓名：

学号：

毕业设计（论文）完成情况评价（包括设计图纸、说明书、实验报告、计算机软硬件、外文翻译及摘要、论文书写及规范化等）（50分）：

毕业设计（论文）成果质量评价意见（40分）：

开题报告评价意见（10分）：

评定成绩：

评阅人：

日期：

年月日

题目：

基于测量的在线视频流媒体质量因素分析

学院：

电子信息工程学院专业：

自动化（铁道信号）

学生姓名：

学号：

毕业设计（论文）完成情况和成果质量（工作量、任务难度、专业理论的运用、综合运用能力、资料的充足与可信情况、成果水平）评价意见（80分）：

答辩表现评价意见（20分）：

评定成绩：

答辩组长：

日期：

年月日

中文摘要

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，Spark兼容于Hadoop数据源,但是比MapReducer快100倍左右,特别适合于机器学习处理。

Spark还在萌芽阶段,尚未高速发展,随着Spark1.0.0版本的发布,标志着apache的顶级开源项目Spark作为大数据的新贵,越来越多的受到IT业界的极大关注，将被广泛应用。

搭载实现Spark平台并应用Spark来研究处理分析在线视频流媒体质量因素。

论文介绍了课题的相关研究背景知识，并且对Spark的组成及原理进行了详细地介绍和研究。

根据实验的需要，完成了平台的总体配置，对其性能进行了验证，研究其机器学习库。

首先介绍在业界获得普遍认同的分布式文件系统的用户需求和架构模型．然后针对RDD的体系架构进行介绍，最后通过KMeans机器学习算法分析了用户在流媒体视频观看时间与缓冲次数的关系，总结了流媒体相关因素的关系。

实验采用的平台是Linux的Ubuntu12.04LTS版本，应用的是ApacheSpark平台。

系统所有的编写、调试与测试都在此实验平台下进行。

关键词：

Spark；机器学习；KMeans；数据挖掘；视频流媒体

Abstract

　　ApacheSparkisafastandgeneralengineforlarge-scaledataprocessing.Whichrunprogramsupto100xfasterthanHadoopMapReduceinmemory,or10xfasterondisk.Sparkiseasytouse,writingapplicationsquicklyinJava,ScalaorPython.MoreandmoreITengineerspayattentiontoit,anditisbeingwidelyusedinfamouscompaniessuchasAlibabaTaobao,Amazon,Baidu,Netease,Sohu,Tencent,Yahoo!

UsingmachinelearningfordatamininganalyzingtherelationshipbetweenbufferandtimeofuserviewingbySpark.

IntroducingtherelatedbackgroundknowledgeofSparkandprincipleofSpark.Accordingtotheneedsoftheexperiment,buildingtheplatformofSpark.Secondly,introducingthearchitecturemodelofRDD.ThenusingtheKmeansalgorithmforanalyzingtherelationshipbetweenbufferandtimeofuserviewingthroughmachinelearning.Intheend,summarizingtherelationshipsbetweentherelatedfactorsofstreamingvideo.

TheexperimentalplatformusedistheLinuxversionofUbuntu12.04LTSandApacheSparkplatform.Allthewriting,debuggingandtestingisinthisplatform.

Keywords：

spark;machinelearning;K-means;datamining;streamingvideo

第一章前言

1．1课题研究背景和意义

流媒体（VideoStreaming）是指在Internet中使用流式传输技术的连续时基媒体，视频流媒体（MediaStreaming）业务是指支持多媒体数据流通过网络从服务器向客户机传送，接收方边接收边播放的技术。

与传统的先下载后播放的做法相比，流媒体技术有很大的优势，如实时性强，有利于保护版权等。

随着计算机网络和多媒体技术的不断发展，流媒体直播技术的应用越来越广泛，传统的Flash早已被视频流媒体所取代。

近年来，无线网络的飞速发展和带宽的迅速提高，为流媒体技术在无线网络中的应用奠定了坚实的基础。

在流媒体的背后进行着的是对大数据的挖掘，数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。

大数据，一个似乎已经被媒体传播的过于泛滥的词汇，的的确确又在逐渐影响和改变着我们的生活。

也许有人认为大数据在中国仍然只是噱头，但在当前中国互联网领域，大数据以及大数据所催生出来的生产力正在潜移默化地推动业务发展，并为广大中国网民提供更加优秀的服务。

提到大数据，自然不能不提Hadoop[1]。

HDFS已然成为大数据公认的存储，而MapReduce作为其搭配的数据处理框架在大数据发展的早期表现出了重大的价值。

可由于其设计上的约束MapReduce只适合处理离线计算，其在实时性上仍有较大的不足，随着业务的发展，业界对实时性和准确性有更多的需求，很明显单纯依靠MapReduce框架已经不能满足业务的需求了。

Hadoop中的数据传送与共享，串行方式、复制以及磁盘IO等因素使得Hadoop集群在低延迟、实时计算方面表现有待改进。

优酷土豆作为国内最大的视频网站，和国内其他互联网巨头一样，率先看到大数据对公司业务的价值，早在2009年就开始使用Hadoop集群，随着这些年业务迅猛发展，优酷土豆又率先尝试了仍处于大数据前沿领域的Spark内存计算框架，很好地解决了机器学习和图计算多次迭代的瓶颈问题，使得公司大数据分析更加完善。

在今天，数据处理要求非常快，作为Hadoop的替代者，Spark性能比MapReduce提升很多，使其成为一大热门开源项目。

ApacheSpark是新推出的一个高效的分布式计算系统，是一个通用的并行计算框架，发源于美国加州大学伯克利分校AMPLab[2]的集群计算平台。

Databricks，Cloudera都已决定支持Spark，Spark被认为是大数据领域的大事情，且很有可能成为大数据领域的下一个大家伙。

Spark内存计算框架适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性。

而MapReduce处理框架则擅长复杂的批处理操作、登陆过滤、ETL（数据抽取、转换、加载）、网页索引等应用，MapReduce在低延迟业务上一直被人所诟病。

作为一个基于内存in-memory数据处理平台，兼容于Hadoop数据源但是比HadoopMapReduce运行得快得多。

Spark迭代计算的主要实现思想就是RDD，把所有计算的数据保存在分布式的内存中。

RDD是分布在一组节点中的只读对象集合。

这些集合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。

迭代计算通常情况下都是对同一个数据集做反复的迭代计算，数据在内存中将大大提升IO操作。

这也是Spark涉及的核心：

内存计算。

Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。

需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。

　虽然Spark与Hadoop有相似之处，但它提供了具有有用差异的一个新的集群计算框架。

首先，Spark是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。

为了优化这些类型的工作负载，Spark引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟。

RDD能够从磁盘读取然后保持在内存中，提高了性能，这和Hadoop大部分基于磁盘的速度要快多。

Spark也可以直接对HDFS进行数据的读写。

Spark可以与MapReduce运行于同集群中，共享存储资源与计算。

本实验选择Spark是因为传统的并行计算模型无法有效的解决迭代计算（iterative）和交互式计算（interactive）；而Spark的使命便是解决这两个问题，这也是它存在的价值和理由。

因此特别适合于机器学习处理来分析大数据。

　本文着眼于聚类的机器学习方法应用分布式系统处理挖掘大数据，通过spark对流媒体质量因素进行测量和分析，关联分析在不同技术条件和环境下流媒体的质量特征与因素，得出不同元素如媒体内容、终端类型、地理位置、观看时间等对视频流媒体质量影响的关系和程度。

1.2课题研究内容和本文的主要工作方法

本毕业设计主要任务是搭载实现Spark平台并应用Spark来研究处理分析在线视频流媒体质量因素。

包括：

（1）对Spark平台下的RDD（弹性分布式数据集）,机器学习算法KMeans以及相关的机制进行了分析和研究，这为运用机器学习算法进行分析打好了基础。

（2）通过安装hadoop、jdk、scala、spark，并配置环境变量，搭建完成Spark平台。

（3）对数据集进行了预处理。

（4）采用机器学习算法对预处理的数据集进行计算。

（5）从理论上分析了实验结果。

1.3论文组织结构

　第一章阐述了课题的背景及意义。

介绍了分布式文件系统。

提出了本文研究的主要内容。

　第二章详细介绍了Spark开发平台，对RDD的相关特性，框架，机制进行了深入的讨论。

　第三章描述了平台的搭载过程并通过运行例子验证其有效性。

　第四章描述了机器学习算法中的聚类模型KMeans。

　第五章通过处理分析数据，得出不同数据因素之间的关系。

　第六章为全文总结。

列举了本论文的研究成果，并分析了研究工作的不足，展望了进一步研究的内容和方向。

第二章Spark开发平台概述

2.1Spark的背景

2.1.1Spark的介绍

Spark是一种与Hadoop相似的开源集群计算环境，在性能和迭代计算上很有看点，现在是Apache的顶级孵化项目。

Spark由加州大学伯克利分校AMP实验室（Algorithms,Machines,andPeopleLab）开发，可用来构建大型的、低延迟的数据分析应用程序。

Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark是在Scala语言中实现的，它将Scala用作其应用程序框架，而Scala的语言特点也铸就了大部分Spark的成功。

项目的core部分的代码只有63个Scala文件，非常

展开阅读全文