科技报告正文模板.docx

资源描述

科技报告正文模板.docx

《科技报告正文模板.docx》由会员分享，可在线阅读，更多相关《科技报告正文模板.docx（30页珍藏版）》请在冰豆网上搜索。

科技报告正文模板.docx

科技报告正文模板

插图清单

此处插入插图清单

附表清单

此处插入附表图清单

正文

一引言部分：

1.描述研究背景和意义

1）多终端、跨平台具有良好兼容性与可扩展性的音视频编码技术及数据封装技术：

多媒体终端种类越来越多，各终端采用的操作系统各不相同，各网络电视运营商所采用的网络电视播控模式、媒体数据传输方式也各有不同。

这导致不同终端能正确接收和播放的音视频数据格式以及传输协议也各有不同，这就需要电视制作时提供各种不同格式及不同封装的视频内容以适配不同终端。

另外，为了保证视频节目内容在未来的良好扩展性，确保在新终端和新系统亦能正确播放，需要在节目制作时考虑视频格式和封装的良好的平台通用性。

2）智能视频内容分析及理解：

通过剖析当前视频内容分析中的人工编目和线性浏览及回溯方式已经远远不能满足海量增长电视节目的处理、现有的视频内容分析系统效率低、性能不高、鲁棒性低等不足，在现有较好积累的基础上，提出更高效的识别算法和检索技术解决并完善现有平台的处理和分析性能。

2.前期研究基础

1．国内外现有技术、知识产权和技术标准现状及预期分析

在视频转码方面，传统的视频转码技术根据需求可以分为四大类：

比特率转换、分辨率转换、帧率转换和格式转换。

为了适应不同播控平台、网络带宽和终端，在实际转码中往往需要综合应用多种视频转码技术。

而国内外相关专家的研究工作，往往仅立足于某一种视频转码技术，他们并没有考虑到与其他技术的兼容性问题。

因此在实际工程应用中，主流的转码做法采用全解全编的方式，即对原音视频数据完全解码，重建原始音视频数据，然后根据输出码流的参数对音视频数据进行完全的编码。

这种方式可以适应各种转码需求，但由于采用了完全编码的方式，其中计算复杂度较高的模块如运动估计、宏块模式判决等将浪费大量的计算资源，造成转码速度不快。

通常一个单核的CPU只能实时完成一路标清视频的转码工作。

另一方面，流媒体播控平台在不同的操作系统中所支持的流格式并不完全相同，譬如：

iOS系统不支持FLV格式的视频，而FLV对H.264的支持也不好。

为了保证流媒体播控平台的良好兼容性，近年推出了基于HTML5的流媒体播控协议，它采用HTTP方式进行视频数据传输，用户在Web页面中通过调用本地播放器对音视频数据进行播放，它不再需要用户安装独立的客户端进行视频浏览，降低了网络电视运营商对平台的维护难度，可以实现播控平台的跨平台业务。

同时，MPEG组织与2011年发布了基于HTTP的自适应流规范草案（DynamicAdaptiveStreamingofHTTP，DASH）。

它将同一内容的多中规格的音视频数据流进行有效的复合封装（如下图所示），可以有效而灵活的在多种数据流间进行传输和控制，良好的解决了用户在观看音视频节目时在屏间无缝切换的需求，可以较好的支持跨平台、多终端适应的网络电视业务。

DASH数据格式结构图

在视频内容分析与理解方面，如何实现智能化的基于内容的视频分析一直是信息检索领域中的研究热点，其最终目标是实现基于语义的视频检索。

经过近二十年的努力，视频检索在感知特征的提取和表达、视频结构分析、视频摘要、视频索引建立等多个方面都取得了长足的进步，并出现了MediaMill、Informedia、Advent、QBIC等商用的图像/视频检索系统，支持根据多种音视频底层特征、草图、示例图片或视频片段、以及关键词来进行视频查询。

值得指出的是，正是由于视频检索在信息检索领域的重要性，从2003年开始，美国国家标准技术协会组织了专门针对视频检索的TRECVID国际权威测评。

测评的任务包括镜头边界检测、摄像机运动检测、语义视频搜索、高层概念检测、新闻视频摘要、重复视频检测和监控视频的事件检测等任务。

目前参与TRECVID的大学和研究机构已经达到119家之多，分别来自北美、亚洲、欧洲、澳洲。

北美的如IBMWatson研究中心、AT&T研究中心、卡耐基.梅隆大学、哥伦比亚大学的Advent小组、加州大学的Berkeley、SantaBarbara、SanDiego分校等；欧洲的诸如荷兰的MediaMill小组、英国Oxford大学、爱尔兰都柏林大学，以及德国、法国等国的机构。

亚洲的日本、新加坡、印度等国、香港和台湾地区。

国内如中科院、清华、北京邮电大学、华中科技大学、复旦、北京交通大学都是多次参与，并取得了很好的成绩。

2008年来北大、北航、上海交大、西安交大、浙大、天大、山大等也都陆续参加。

另外，TRECVID还吸引了微软亚洲研究院、东芝和Yahoo等著名的商业机构，加快了视频检索技术向商业应用的转化。

TRECVID已成为国际视频检索领域的一个评价基准，基本反映了当今视频检索技术的最高水平，对推动视频检索的研究具有里程碑式的意义。

目前，国内外出现了一些视频检索相关的专利，但都不涉及本项目的海量电视节目的智能分析与处理，目前没有国际和国内相关标准。

3．课题申请单位及主要参与单位研究基础

本课题的负责单位天脉聚源（北京）传媒科技有限公司自2008年以来一直致力于电视资讯云计算平台的开发和相关核心技术的研究，在电视资讯采集、转码、视频模式识别、语音识别和视频内容智能分析、云计算平台建设方面形成丰富的技术经验积累。

同时公司注重与高校、科研机构的产学研结合，深度挖掘学术研究的价值，在语音识别、视频模式识别研究方面形成一批具有重要应用价值的科研成果。

公司有专业研发工程师超过200人，投入到本项目团队31人，其中博士2名，硕士3名，公司员工平均年龄28岁，拥有本项目各领域技术的高端人才。

公司有超过2400平米的办公室，在北京拥有嘉盛中心和雍和大厦两处办公场所，能够为本项目项目组提供良好的开发环境。

公司自创立以来已经积累收录了国内外主要电视台四年的数据，拥有超过600T的电视数据，目前每天能源源不断地处理近200个频道的电视数据，这些日益积累的数据在未来不具备再次获取的可能，是天脉重要的资源积累，也是公司的核心资产，这一点很难超越。

经过长期的技术积累和对大量数据模式识别（语言、画面）长期的训练，天脉当前的智能分析能力已经达到一个较高水平，可以达到最高75%的识别准确率，而遍布全国的大规模分布式采集、处理与服务能力需要较长时间的技术磨合和积累，其余竞争对手短期内难以达到。

在市场方面天脉已经占据了先机，当前已经服务于网易、搜狐、腾讯、土豆网等几乎所有的主要网络门户，在广电方面中国教育电视台、北京电视台、上海文广等主要机构也均已采用了本项目的云计算服务。

天脉为这些客户提供了高性价比的、稳定优质的服务，并进行了大量的系统对接工作，这一现状将极大挤压其余竞争对手的市场空间。

在电视资讯智能挖掘分析和自动化处理方面，我们拥有了超过20项的专利和30多项著作权，并有多项专利正在提交中。

课题参与单位北京邮电大学多媒体通信与模式识别实验室在图像识别、音视频内容分析及检索，以及多媒体通信等方面，取得了一系列的研究成果。

承担了国家自然科学基金、国家重大计划、863、国家计委、公安部和国防科工委等支持的重大科研项目，以及一系列与国内、外企业合作的项目。

在流媒体系统方面，实验室先后完成IPTV播控系统、高效视频转码、3D流媒体系统、通用监控视频接入和管理平台以及视频图像质量评测等课题。

实验室拥有完善通用视频解码库，可实现现有各种标准音视频压缩流及主流数码设备采集的音视频数据流的正确解码。

实验室具备完善的流媒体播控平台，可支持多种流媒体播控和传输协议，并具有良好的QoS保障体系，实现音视频的流畅播放。

实验室拥有高效实时的视频转码器，可实现码率转换、分辨率转换、帧率转换和格式转换等各种视频转码需求，转码速度比全解全编框架提高近45%，可有效的生成适合不同终端设备的视频数据流。

在视音频内容分析与检索方面，实验室有着多年的研究积累,参加了国际权威TREC视频检索测评（TRECVID）的镜头边界检测、同源视频检测和语义搜索等多项任务，获得了优异的成绩，特别是在与本项目相关的语义视频搜索任务中，2009年获得第一，2010年获得第二，2011年获得第一,充分展现了上述成果在视频检索领域中的先进性。

4.研究范围和目标

目标1：

音视频编码技术与数据封装技术的技术难点的突破

为了制作适应各种不同终端的音视频数据，往往需要对同一内容的音视频节目进行多次压缩编码与数据封装，以形成多种压缩格式和封装格式的音视频数据流。

由于音视频数据量极其庞大，目前的编码算法相对比较复杂，这将占用庞大的服务器资源。

尤其是现在，随着网络带宽的飞速发展，网络电视中逐步开始提供更大分辨率的电视节目，如高清电视节目。

目前实时编码一路高清电视节目，需要将近2-3核的CPU同时工作。

因此随着终端设备和网络带宽的发展，节目录制所需要的服务器资源将急速增加。

降低音视频节目录制的计算复杂度，成为提高音视频节目录制效率的一个技术难点。

按现行的节目录制方式，音视频节目在各地进行采集之后汇聚到云计算中心进行转码录制。

期间音视频节目至少需要经过2次以上的编码过程，视频质量将由于二次编码形成更大的质量损失。

因此，如何保持转码后的视频图像质量，减少二次编码产生的质量下降也是音视频转码中的一个核心技术。

受操作系统的限制，不同终端可支持的流媒体播控平台和文件格式各有不同，如果将同一内容的不同规格的音视频数据进行合理封装，不同播控服务器均可以进行有效的调度和传输，可以减少编码的工作量，并具备良好的扩展性。

因此，音视频数据的流化和封装技术也成为流媒体系统的一项关键技术。

本课题考虑到了现有系统的各方面需求，重点解决流媒体技术中视频转码的计算复杂度高、二次编码质量损失大、跨平台音视频流封装兼容性低的技术难题，提高海量音视频节目制作的效率和质量，提高音视频节目流对各终端的适应性。

目标2：

智能视频内容分析主要的技术难点的突破

其主要难点在于有效视频语义信息的提取和表达。

具体来说，涉及到海量视频的结构化描述、视频节目的自动编目、高层语义概念的检测、还包括视频广告与节目的定位与拆条、在视频索引建立的前提下的快速鲁棒的视频搜索等。

5.研究思路和总体方案

本课题将产生一批产品化程度高的专业产品和一个高性能、高效率的生产和运营平台。

本课题的主要技术难点也是我们的创新点是多种高端技术在视频云计算平台上的集成应用。

课题最终形成的产品成果包括：

1.TMEncoder高清视频采集编码器

2.iGuide虚拟播出系统

3.iVision多点控制展示系统

4.iSearch视频资讯搜索系统

5.iSee视频资讯展示系统

6.iPai、iPlay、iStudio等其他产品

7.课题形成的生产和服务平台产品是：

8.电视数据智能采集处理及分析平台

2）课题实施的基本原则

标准化

遵循国际、国家以及行业标准，能够与采用相同标准的相关系统平台实现平滑对接。

方案遵循的协议簇包括：

DVB国际标准

H.264/MPEG-4AVC、AAC、MPEG2、MP3音视频编码标准

TCP/IP协议

HTTP协议

RTMP协议

SDI-SD/HD数据接口协议

RestfulWebService规范

完整性

要求课题研究和开发内容能够完整解决整个项目所需的技术问题，保障项目正常实施，最终实现的成果能够完整的实现预期目标。

开放性

遵循开放性设计原则，对内部和外部系统提供规范、简单的接口协议，能够实现系统间的高效连接。

先进性

语音识别、图像识别、信息自动标引、文本自动分析、编码、传输和播放实现过程中充分考虑技术的先进性和成熟性，能够代表当前技术的主流和未来技术发展的方向。

整个生产和运营平台的架构充分考虑当前主流的技术标准，能够与第三方系统进行平滑对接。

经济性

课题研究充分考虑运行成本，保障技术研究和项目实施具有较高的经济型。

二主体部分

逐一论述各项研究内容的研究方案、研究方法、研究过程、研究结果等信息，提供必要的图、表、实验及观察数据等信息，并对使用到的关键装置、仪表仪器、材料原料等进行描述和说明。

1．课题研究内容、技术路线和创新点

1）研究内容

本课题将产生一批产品化程度高的专业产品和一个高性能、高效率的生产和运营平台。

本课题的主要技术难点也是我们的创新点是多种高端技术在视频云计算平台上的集成应用。

课题最终形成的产品成果包括：

●TMEncoder高清视频采集编码器

●iGuide虚拟播出系统

●iVision多点控制展示系统

●iSearch视频资讯搜索系统

●iSee视频资讯展示系统

●iPai、iPlay、iStudio等其他产品

●课题形成的生产和服务平台产品是：

●电视数据智能采集处理及分析平台

2）课题实施的基本原则

标准化

遵循国际、国家以及行业标准，能够与采用相同标准的相关系统平台实现平滑对接。

方案遵循的协议簇包括：

DVB国际标准

H.264/MPEG-4AVC、AAC、MPEG2、MP3音视频编码标准

TCP/IP协议

HTTP协议

RTMP协议

SDI-SD/HD数据接口协议

RestfulWebService规范

完整性

要求课题研究和开发内容能够完整解决整个项目所需的技术问题，保障项目正常实施，最终实现的成果能够完整的实现预期目标。

开放性

遵循开放性设计原则，对内部和外部系统提供规范、简单的接口协议，能够实现系统间的高效连接。

先进性

整个生产和运营平台的架构充分考虑当前主流的技术标准，能够与第三方系统进行平滑对接。

经济性

课题研究充分考虑运行成本，保障技术研究和项目实施具有较高的经济型。

2.课题的技术路线

本章节将详细描述课题说涉及目标产品和平台的技术方法。

（1）TMEncoder高清视频采集编码器

TMEncoder的设计目标是实现高清高性能的电视视频的采集编码。

该设备是整个云计算平台的信号输入接口设备，要求在稳定性、适配性和产品化程度上都能达到较高的水平。

完成后的产品既可以作为整个系统的一个重要组成组件，也可以作为独立的产品对外销售，遵循国际国内通用编码器的输入输出规范。

TMEncoder采用H.264编码标准，使用国际领先的商用编码器内核。

该编码器在视频编码的质量和效率上优于众多免费的开源编码技术和价格昂贵的硬件编码技术，能够以512Kbps的码率实现标清视频编码，在1Mbps～1.5Mbps的带宽范围内实现高清视频编码。

编码器提供超过100项的优化编码参数，Two-pass、双向预测、动态GOP、帧变化智能检测和最高HighProfile/5.1Level的H.264编码能力，能够保障向您的网络中交付最佳质量的视频内容。

编码器支持多种格式的视频源，包括：

1）卫星和有线数字电视信号（DVB）；2）模拟电视信号；3）IP网络信号；4）SDI/HDMI高清接口等。

支持的输入视频格式包括：

mpeg1/2/4、VC-1、H.264、RAW等，音频格式包括mp2/3、AAC、AC-3等。

支持高清编码，画面大小最高支持1080p，帧率25fps~50fps。

编码器同时支持4路信号采集输入，实时编码。

每路信号可同时输出256Kbps、512Kbps、1Mbps三种码流，码流可采用Baseline，Main，HighProfile规格编码。

音频采用AAC-LC和AAC-Main方式编码输出48Kbps，采用Mpeg-TS复用后输出。

编码输出支持TSoverHTTP（M3u8格式）、TSoverUDP和RTMPoverTCP多种方式。

编码器同时设置较大的存储，内置视频播出服务，可以在采集编码的同时提供直播和点播服务，支持7天内时间段的视频点播回看，支持10秒的视频关键帧截图。

编码器具有便捷简单的WEB管理方式，能够灵活配置各项编码参数和发布参数，可以动态配置每个采集通道的业务项目。

表编码器规格参数表

输入

●1路IP输入，1000M网卡，接收DVB-C、DVB-S、MPEGoverUDP信号输入

●3路SDI-SD/HD

●可选HDMI、DVI、AV、S-Video、YUV、VGA

编码格式

●视频:

H.264，支持Baseline、Main、HighProfileLevel5.1，支持高清、标清和超低码率编码

●音频:

MP3、MP2、AAC、AC3

输出

●9路TSoverHTTP

●9路TSoverUDP

●9路RTMPoverTCP

●TSFile

运行环境

●操作系统：

64位Linux

●处理器：

英特尔®至强®5600

●网络：

1GbENC382i多功能双端口

●内存：

4GBPC3-10600RRDIMMDDR3

●外形：

机架式2U

系统结构：

图编码器系统结构图

功能特征：

Ø顶级商用H.264和AAC编码器，支持高清、标清、超低码率编码，支持H.264Baseline/Main/HighProfile最高5.1Level编码配置。

Ø携带支持SDI-HD/SD、HDMI、DVI多种输入接口的高清数字采集卡。

Ø内置碎片化和流播出服务，对外提供RTMP、UDP、HTTP输出接口。

Ø同时3路信号输入、3路高清实时编码和9路直播流输出。

（2）iGuide虚拟播出系统

虚拟播出技术为运营商在互联网上构造全新的播出频道提供了最经济和最灵活的实现方案。

该技术实现将视频文件和直播流，编排成一路全新的频道对外播出。

运营商可以根据需要，将多个传统电视频道上的播出内容和本地文件内容按照新的EPG播出安排构造网路电视频道，通过这种应用安排，运营商能够突破传统电视频道播出内容的限制，为终端用户提供更丰富和更好体验的播出内容。

按照用户不同的需求，能够在无人值守和人工干预两种状态下网络频道，能够实现基于电视信号源的实时采集直播、基于文件源的虚拟直播、文件源和直播信号源的混排直播、即时导播和插播、互动点播等在互联网视频播出的各种业务，并能够跨平台和支持各种浏览器和播放终端。

图虚拟播控EPG编排界面

图虚拟播控即时导播界面

规格参数:

iCast规格参数表

7天EPG编辑

输入输出画面实时监控

即时导播

最多64路直播流输入切换

最多1024个文件输入源切换

文件源自动转码和切片

精确到I帧的播出内容切换

播出内容缓存和回看

系统构成:

虚拟播控平台主要由六个部分组成：

播出素材库管理：

对播出的素材（包括文件源和电视直播信号源）进行上传、修改、删除等操作。

编转码中心：

这部分主要将播出的素材（电视直播信号源和文件源）统一的进行转码，碎片化，以适应统一播出格式的需要。

iCast管理客户端：

主要利用播出素材库中的内容对每日直播的EPG进行编排，即时插播和导播等操作控制部分，控制后端播控服务进行工作。

播控服务平台：

主要接收管理客户端的指令，将用户编排好的EPG对外播出。

分发CDN平台：

主要将播出的直播流对全国各CDN站点进行分发，或与CDN分发服务商进行对接。

功能特征

使用文件源和直播源快速创建全新的播出频道，文件、直播源自由混排播出。

即时导播功能，可以将直播流中的内容替换成其他感兴趣的内容，如广告插播、广告替换。

功能强大的EPG编排功能，可方便的创建1到7天内的EPG节目单。

（3）iVision多点控制展示系统

iVision多点控制展示系统由前端控制（最多30台,兼容丌同系统设备）,中转控制主机（一台Mac）和多台展示设备组成（Mac或PC台式机或大屏）。

工作时，前端控制设备（iPad,iPhone,PC或Mac）向中转控制主机发送展示数据命令,收到数据后中转控制主机分析数据的来源并对照命令列表将数据转发给指定的展示设备;展示设备收到数据后进行相应的数据展示或读取中转控制主机的存储内容进行内容展示。

本系统的特点是：

多点控制，多点展示，工作方式可列队或并发,自由随意切换。

核心的中转控制主机采用MacOSX的苹果台式机。

其他终端设备以中转控制主机为核心来进行终端的配置。

所有设备以有线或无线形式通过无线路由器组成的局域网互联。

系统工作流程解析:

1）中转控制主机建立公用网络服务和网络搜索服务。

2）启劢搜索展示设备建立的网络服务，并为搜索到的服务建立独立的数据读写通道，用来向展示设备发送命令数据。

3）前端控制设备向中转控制主机发送登陆请求,展示设备向中转控制主机发送登陆请求。

4）中转控制主机收到登陆请求后,查对配置清单确定用户身份，并为其建立独立数据读写通道。

5）前端控制设备和展示设备成功登陆之后，即可向中转控制主机发送命令数据，进行展示操作。

6）中转控制主机收到已登陆用户的命令数据后，查对用户的命令权限等配置文件后，并对比命令集文件后，将命令数据转发给指定的展示设备。

7）展示设备收到命令数据后,根据数据要求访问中转控制主机的展示内容存储并直接将内容显示出来。

系统优势：

增加了中控系统后的iVision产品可以在现场部署多个展示终端，大屏、一体机、mac电脑等。

使得讲解员或者现场主持人可以更加灵活的设计演示内容。

因为通过中控系统的枢纽联系，所有终端之间做到了互联互通，有劣于工作更加有效的进行。

现场操作中屏幕切换、演示等效果更加酷炫、操控感比原来增强。

支持有线及无线的方式可以在复杂的现场布置演示环境的时候更加容易，克服场地带来的不便。

多终端的配合使用可以部署立体感更强的现场演示环境。

（4）iSearch视频资讯搜索系统

天脉iSearch能实现全球电视节目的精准索引，利用天脉云平台24小时不间断收录全球的电视节目信息。

它能够实现海量数据的全面、及时搜索，并可以满足运营者对于视频信息统计的专业需求。

iSearch主要面对三大用户群体，政府机构、电视媒体和企业。

政府机构可以利用它来了解舆情资讯，了解民生；电视媒体用来制作电视节目，搜索各大媒体对于热点问题的关注程度；企业用户可以用来了解广告市场资讯，洞察市场和政策方针等等。

iSearch以媒体、企业、机关为主要服务客户，天脉利用先进的视频处理技术和互联网技术，提供可定制的、实时的、高品质的电视新闻采集与加工服务、电视新闻实时监测服务、媒体版权交易服务。

iSearch使电视资讯实现全国有效覆盖和精准获取，为政府机构、企业和电视媒体掌握新闻资讯、了解大政方针、洞察市场商机、监测舆情资讯提供最为有效的专业工具。

天脉拥有云计算视频加工中心为iSearch客户端提供着强有力的支撑。

在全国建设的多个数据接收网点，现已覆盖了200个电视频道、4000档电视栏目、3年18大类（新闻、娱乐、体育、教育、生活、科技等）共计千万条电视节目素材积累。

不仅国内的各卫视频道和市级电视频道被纳入其中，还有如NHKWorld、BBCWorld、CNN等境外知名电视频道。

这样的视频资源平台，其覆盖面之广，资源之丰富，属全国乃至世界之首。

目前，没有一家媒体可以提供诸如此类的电视节目搜索服务。

iSearch更加令人惊艳的是其对信息的全面精准搜索。

iSearch借助云平台可以对电视资讯进行智能化、精细化处理，通过关键字搜索直接定位到具体的镜头和一句话中，是传统媒资信息搜索密度的80倍。

天脉的非结构化信息标引技术，利用语音识别建立的文本信息作为索引依据，这种搜索模式会尽可能多的帮助用户搜集包含关键词的所有视频。

这样的功能可以很好地体现搜索信息的准确性和完整性，可方便的构造出搜索事件的立体信息维度，让使用者在海量电视素材中迅速锁定最有价值的素材信息。

这样

展开阅读全文