《科技报告正文模板范例》.docx

资源描述

《科技报告正文模板范例》.docx

《《科技报告正文模板范例》.docx》由会员分享，可在线阅读，更多相关《《科技报告正文模板范例》.docx（32页珍藏版）》请在冰豆网上搜索。

《科技报告正文模板范例》.docx

—引言部分：

1.描述研究背景和意义 3

2.前期研究基础 3

3.课题申请单位及主要参与单位研究基础 5

4.研究范围和目标 6

目标1：

音视频编码技术与数据封装技术的技术难点的突破 6

目标2：

智能视频内容分析主要的技术难点的突破 7

5.研究思路和总体方案 7

二主体部分 8

1.课题研究内容、技术路线和创新点 9

1）研究内容 9

2）课题实施的基本原则 9

2.课题的技术路线 10

（1）TMEncoder高清视频采集编码器 10

（2）iGuide虚拟播出系统 12

（3）iVision多点控制展示系统 14

（4）iSearch视频资讯搜索系统 16

（5）iSee视频资讯展示系统 17

（6）iPai、iPlay、iStudio等其他产品 22

3.电视数据智能采集处理及分析平台 22

（一）生产平台方案 22

（二）资源存储管理和服务方案 24

三结论部分 30

此处插入插图清单

插图清单

此处插入附表图清单

附表清单

正文

—引言部分：

1.描述研究背景和意义

1）多终端、跨平台具有良好兼容性与可扩展性的音视频编码技术及数据封装技术：

多媒体终端种类越来越多，各终端采用的操作系统各不相同，各网络电视运营商所采

用的网络电视播控模式、媒体数据传输方式也各有不同。

这导致不同终端能正确接收和播放的音视频数据格式以及传输协议也各有不同，这就需要电视制作时提供各种不同格式及不同封装的视频内容以适配不同终端。

另外，为了保证视频节目内容在未来的良好扩展性，确保在新终端和新系统亦能正确播放，需要在节目制作时考虑视频格式和封装的良好的平台通用性。

2）智能视频内容分析及理解：

通过剖析当前视频内容分析中的人工编目和线性浏览及回溯方式已经远远不能满足海量增长电视节目的处理、现有的视频内容分析系统效率低、性能不高、鲁棒性低等不足，在现有较好积累的基础上，提出更高效的识别算法和检索技术解决并完善现有平台的处理和分析性能。

2.前期研究基础

1．国内外现有技术、知识产权和技术标准现状及预期分析

在视频转码方面，传统的视频转码技术根据需求可以分为四大类：

比特率转换、分辨率转换、帧率转换和格式转换。

为了适应不同播控平台、网络带宽和终端，在实际转码中往往需要综合应用多种视频转码技术。

而国内外相关专家的研究工作，往往仅立足于某一种视频转码技术，他们并没有考虑到与其他技术的兼容性问题。

因此在实际工程应用中，主流的转码做法采用全解全编的方式，即对原音视频数据完全解码，重建原始音视频数据，然后根据输出码流的参数对音视频数据进行完全的编码。

这种方式可以适应各种转码需求，但由于采用了完全编码的方式，其中计算复杂度较高的模块如运动估计、宏块模式判决等将浪费大量的计算资源，造成转码速度不快。

通常一个单核的CPU只能实时完成一路标清视频的转码工作。

另一方面，流媒体播控平台在不同的操作系统中所支持的流格式并不完全相同，譬如：

iOS系统不支持FLV格式的视频，而FLV对H.264的支持也不好。

为了保证流媒体播控平台的良好兼容性，近年推出了基于HTML5的流媒体播控协议，它采用HTTP方式进行视频数据传输，用户在Web页面中通过调用本地播放器对音视频数据进行播放，它不再需要用户安装独立的客户端进行视频浏览，降低了网络电视运营商对平台的维护难度，可以实现播控平台的跨平台业务。

同时，MPEG组织与2011年发布了基于HTTP的自适应流规范草案

（DynamicAdaptiveStreamingofHTTP，DASH）。

它将同一内容的多中规格的音视频数据流进行有效的复合封装（如下图所示），可以有效而灵活的在多种数据流间进行传输和控制，良好的解决了用户在观看音视频节目时在屏间无缝切换的需求，可以较好的支持跨平台、

多终端适应的网络电视业务。

DASH数据格式结构图

在视频内容分析与理解方面，如何实现智能化的基于内容的视频分析一直是信息检索领域中的研究热点，其最终目标是实现基于语义的视频检索。

经过近二十年的努力，视频检索在感知特征的提取和表达、视频结构分析、视频摘要、视频索引建立等多个方面都取

得了长足的进步，并出现了MediaMill、Informedia、Advent、QBIC等商用的图像/视频检索系统，支持根据多种音视频底层特征、草图、示例图片或视频片段、以及关键词来进行视频查询。

值得指出的是，正是由于视频检索在信息检索领域的重要性，从2003年开始，美国国家标准技术协会组织了专门针对视频检索的TRECVID国际权威测评。

测评的任务包括镜头边界检测、摄像机运动检测、语义视频搜索、高层概念检测、新闻视频摘要、重复视频检测和监控视频的事件检测等任务。

目前参与TRECVID的大学和研究机构已经达到119家之多，分别来自北美、亚洲、欧洲、澳洲。

北美的如IBMWatson研究中心、AT&T研究中心、卡耐基.梅隆大学、哥伦比亚大学的Advent小组、加州大学的Berkeley、SantaBarbara、SanDiego分校等；欧洲的诸如荷兰的MediaMill小组、英国Oxford大学、爱尔兰都柏林大学，以及德国、法国等国的机构。

亚洲的日本、新加坡、印度等国、香港和台湾地区。

国内如中科院、清华、

北京邮电大学、华中科技大学、复旦、北京交通大学都是多次参与，并取得了很好的成绩。

2008年来北大、北航、上海交大、西安交大、浙大、天大、山大等也都陆续参加。

另外，

TRECVID还吸引了微软亚洲研究院、东芝和Yahoo等著名的商业机构，加快了视频检索技术向商业应用的转化。

TRECVID已成为国际视频检索领域的一个评价基准，基本反映了当今视频检索技术的最高水平，对推动视频检索的研究具有里程碑式的意义。

目前，国内外出现了一些视频检索相关的专利，但都不涉及本项目的海量电视节目的智能分析与处理，目前没有国际和国内相关标准。

3.课题申请单位及主要参与单位研究基础

本课题的负责单位天脉聚源（北京）传媒科技有限公司自2008年以来一直致力于电视资讯云计算平台的开发和相关核心技术的研究，在电视资讯采集、转码、视频模式识别、语音识别和视频内容智能分析、云计算平台建设方面形成丰富的技术经验积累。

同时公司注重与高校、科研机构的产学研结合，深度挖掘学术研究的价值，在语音识别、视频模式识别研究方面形成一批具有重要应用价值的科研成果。

公司有专业研发工程师超过200人，投入到本项目团队31人，其中博士2名，硕士3名，公司员工平均年龄28岁，拥有本项目各领域技术的高端人才。

公司有超过2400平米的办公室，在北京拥有嘉盛中心和雍和大厦两处办公场所，能够为本项目项目组提供良好的开发环境。

公司自创立以来已经积累收录了国内外主要电视台四年的数据，拥有超过600T的电视数据，目前每天能源源不断地处理近200个频道的电视数据，这些日益积累的数据在未来不具备

再次获取的可能，是天脉重要的资源积累，也是公司的核心资产，这一点很难超越。

经过长期的技术积累和对大量数据模式识别（语言、画面）长期的训练，天脉当前的智能分析能力已经达到一个较高水平，可以达到最高75%的识别准确率，而遍布全国的大规模

分布式采集、处理与服务能力需要较长时间的技术磨合和积累，其余竞争对手短期内难以达到。

在市场方面天脉已经占据了先机，当前已经服务于网易、搜狐、腾讯、土豆网等几乎所有的主要网络门户，在广电方面中国教育电视台、北京电视台、上海文广等主要机构也均已采用了本项目的云计算服务。

天脉为这些客户提供了高性价比的、稳定优质的服务，并进行了大量的系统对接工作，这一现状将极大挤压其余竞争对手的市场空间。

在电视资讯智能挖掘分析和自动化处理方面，我们拥有了超过20项的专利和30多项著作权，并有多项专利正在提交中。

课题参与单位北京邮电大学多媒体通信与模式识别实验室在图像识别、音视频内容分析及检索，以及多媒体通信等方面，取得了一系列的研究成果。

承担了国家自然科学基金、国家重大计划、863、国家计委、公安部和国防科工委等支持的重大科研项目，以及一系列与国内、外企业合作的项目。

在流媒体系统方面，实验室先后完成IPTV播控系统、高效视频转码、3D流媒体系统、通用监控视频接入和管理平台以及视频图像质量评测等课题。

实验室拥有完善通用视频解码库，可实现现有各种标准音视频压缩流及主流数码设备采集的音视频数据流的正确解码。

实验室具备完善的流媒体播控平台，可支持多种流媒体播控和传输协议，并具有良好的

QoS保障体系，实现音视频的流畅播放。

实验室拥有高效实时的视频转码器，可实现码率转换、分辨率转换、帧率转换和格式转换等各种视频转码需求，转码速度比全解全编框架提高近45%，可有效的生成适合不同终端设备的视频数据流。

在视音频内容分析与检索方面，实验室有着多年的研究积累,参加了国际权威TREC视频检索测评（TRECVID）的镜头边界检测、同源视频检测和语义搜索等多项任务，获得了优异的

成绩，特别是在与本项目相关的语义视频搜索任务中，2009年获得第一，2010年获得第二，

2011年获得第一,充分展现了上述成果在视频检索领域中的先进性。

4.研究范围和目标

目标1：

音视频编码技术与数据封装技术的技术难点的突破

为了制作适应各种不同终端的音视频数据，往往需要对同一内容的音视频节目进行多次压缩编码与数据封装，以形成多种压缩格式和封装格式的音视频数据流。

由于音视频数据量极其庞大，目前的编码算法相对比较复杂，这将占用庞大的服务器资源。

尤其是现在，随着网络带宽的飞速发展，网络电视中逐步开始提供更大分辨率的电视节目，如高清电视节目。

目前实时编码一路高清电视节目，需要将近2-3核的CPU同时工作。

因此随着终端设备和网络带宽的发展，节目录制所需要的服务器资源将急速增加。

降低音视频节目录制的计算复杂度，成为提高音视频节目录制效率的一个技术难点。

按现行的节目录制方式，音视频节目在各地进行采集之后汇聚到云计算中心进行转码录制。

期间音视频节目至少需要经过2次以上的编码过程，视频质量将由于二次编码形成更大的质量损失。

因此，如何保持转码后的视频图像质量，减少二次编码产生的质量下降

也是音视频转码中的一个核心技术。

受操作系统的限制，不同终端可支持的流媒体播控平台和文件格式各有不同，如果将同一内容的不同规格的音视频数据进行合理封装，不同播控服务器均可以进行有效的调度和传输，可以减少编码的工作量，并具备良好的扩展性。

因此，音视频数据的流化和封装技术也成为流媒体系统的一项关键技术。

本课题考虑到了现有系统的各方面需求，重点解决流媒体技术中视频转码的计算复杂度高、二次编码质量损失大、跨平台音视频流封装兼容性低的技术难题，提高海量音视频节目制作的效率和质量，提高音视频节目流对各终端的适应性。

目标2：

智能视频内容分析主要的技术难点的突破

其主要难点在于有效视频语义信息的提取和表达。

具体来说，涉及到海量视频的结构化描述、视频节目的自动编目、高层语义概念的检测、还包括视频广告与节目的定位与拆条、在视频索引建立的前提下的快速鲁棒的视频搜索等。

5.研究思路和总体方案

本课题将产生一批产品化程度高的专业产品和一个高性能、高效率的生产和运营平台。

本课题的主要技术难点也是我们的创新点是多种高端技术在视频云计算平台上的集成应用。

课题最终形成的产品成果包括：

1.TMEncoder高

展开阅读全文