云创智能会议转写系统解决方案用于会议场景.docx

资源描述

云创智能会议转写系统解决方案用于会议场景.docx

《云创智能会议转写系统解决方案用于会议场景.docx》由会员分享，可在线阅读，更多相关《云创智能会议转写系统解决方案用于会议场景.docx（10页珍藏版）》请在冰豆网上搜索。

云创智能会议转写系统解决方案用于会议场景.docx

云创智能会议转写系统解决方案用于会议场景

云创智能会议转写系统解决方案（用于会议场景）

智能会议转写系统解决方案

920__年年33月

目录需求背景..............................................................................................................................................

31建设目标..............................................................................................................................................

32技术方案..............................................................................................................................................

33系统拓扑图..........................................................................................................................................

44语音识别技术......................................................................................................................................

95系统功能............................................................................................................................................

126现场转录、实时投屏.................................................................................................................

126.1音频转写.....................................................................................................................................

126.2同步校正.....................................................................................................................................

126.3个人词库.....................................................................................................................................

136.4文本训练.....................................................................................................................................

136.5语音输入，实时滚屏播放.........................................................................................................

136.6系统价值............................................................................................................................................

147提升会议效率.............................................................................................................................

147.1提升工作效率加快处理流程.....................................................................................................

147.2提供智能分析结果.....................................................................................................................

147.3提供后台管理功能.....................................................................................................................

147.4提供智能化扩展功能.................................................................................................................

147.5

需求背景

1在各类会议中，需要形成文字版会议记录，便于事后追溯或跟踪。

现有的人工听写方式受限于记录员的业务熟练程度和打字速度，记录效率较低。

在会议中应用智能语音识别技术，能够将语音实时转成文字，会议结束即可成稿，可极大降低对记录员业务素质的要求，减轻记录员工作强度。

会议过程中，会产生大量的文字及媒体文件，通过无纸化办公系统，可大量的节省会议资料的成本，使得会议的进行更加有效率。

建设目标

2按照“智慧、创新”的总体思路，充分运用云计算、大数据等智能化技术，围绕智能语音识别技术与会议场景的深度融合，将会议的全过程进行语音转写，对所得的电子记录数据进行有效的管理、分析、利用。

全面推进会议向智能化方向发展。

“智慧”：

将智慧化发展理念与会议场景的实际需求相结合，通过智能语音识别技术替代会议记录人工录入，创新的将智能语音识别技术与会议场景进行深度融合，提高工作效率，解放速记员，将会议记录从“手动录入”向“自动录入”进行升级。

“创新”：

紧密围绕会议业务需求，积极探索基于大数据、人工智能等新技术的应用，实现信息化建设“技术创新”。

全过程数字化：

通过会场讲话实时转写或会议录音离线转写成电子文本化文件，实现会议记录全过程的数字化，确保会议记录的真实、完整。

技术方案

3云创智录系统基于内部专网上构建智能语音识别平台，提供语音识别基础支撑服务，并在此基础上构建云创智录系统。

通过针对不同地区、不同种类会议的定制化语音识别模型和自定义关键词识别优化工具，可以有效提升对每次会议的语音识别准确率，为提升会议效率和工作效率提供强有力的技术支撑。

系统采用私有云的形式进行部署，与外网实现物理隔离，保障数据的安全性。

能实现会议中参会人员语录的实时自动分角色语音转写，并将转写结果实时展现在云创智录系统软件的管理界面上，以便于书记员同步查看和用词条修正的操作来校正转写出现错误的内容。

会议录音在会议结束后自动保存在系统里，书记员

也可以通过回听历史会议的录音记录来校对转写结果。

系统拓扑图

4网络版会议转录系统由服务器和会议室音频采集设备组成，能够支持多个会议室同时接入（支持扩容）。

每个会议室需部署会议麦克风、音频处理器和高清音视频会议主机，例如：

8路音频处理器可以接入8个鹅颈式会议麦克风。

会议秘书通过秘书电脑访问智能会议业务系统，控制会议的实时转写。

麦克风到音频处理器之间传输距离支持300m以内，系统拓扑图如下图所示：

上述硬件产品相关描述与介绍如下：

产品名称产品描述音频处理器功能描述：

根据实际情况，提供8进8出型号，采用平衡式话筒\线路输入，以及裸线接口端子。

主要为现场麦克风等拾音设备供电，以及提供混音功能，将模拟音频信号混音输出；设备参数：

无需光盘，设备自带安装软件；120db的A/D与D/A转换，最高可达96kHz/48K采样率高速DSP处理芯片Ti450MHzFLOPSDSP处理内核输入源：

输入方式可切换平衡话筒或线路，采用凤凰插接口；量化位数：

24bit；采样率:

48K

幻像供电：

DC48V；频率响应：

20~20KHz总谐波失真+噪声：

＜0.002%@1KHz,4dBu数/模动态范围（A-计权）:

120dB模/数动态范围（A-计权）:

120dB输入阻抗（平衡式）：

20KOmega;；最大输出阻抗（平衡式）：

100Omega;；工作温度：

0-40℃；工作电源：

AC110V-220V,50Hz/60Hz；机箱尺寸：

482_258_45（mm））；电源功耗：

<70W运输重量：

4Kg尺寸（宽_深_高）：

483_250_44.5（mm）通道隔离度：

1kHz，100dB输入共模抑制，60Hz，80dB等效输入噪声EIN（20-20kHz，A计权）.le;-131dBU最大输出电平：

+24dBu，平衡最大输入电平：

+24dBu，平衡模拟输入至模拟输出系统延时:

3ms底噪（A-计权）:

-90dBu高清音视频会议主机功能描述：

在会议场景中，主要接入上游输入的音频模拟信号，进行模/数转换，将数字音频信号输出给智能语音识别服务器供智能转写。

设备参数：

设备采用标准机柜式结构设计，主机厚度不得超过1U。

设备内置3块VFD信息显示屏，实时显示光驱及硬盘刻录状态。

设备支持4路高清视频输入，支持SDI或网络信号输入，具有4路SDI接口，同时具有VGA、HDMI输入接口；具有HDMI和VGA同时输出接口，分辨率均达到1920_1080，HDMI与VGA可以同时输出相同合成画面，也可同时输出不同合成画面。

设备可支持各通道单画面、画中画、三画面、四画面显示模式。

设备视频编码采用H.264，HighProfile的视频编码标准。

单画面分辨率大于704像素_____576像素，传输码流大于等于512Kbit/s，硬盘存储视频帧率大于等于25fps，应能实现讯问过程的网络直播、音文交互、讯问现场场景的选择。

设备含有2路音频输入接口，音频编码采用AAC采样编码，同时含有1路以上（含1路）音频输出接口。

设备脱离PC平台，采用嵌入式操作系统，集光盘刻录、视频显示、硬盘备份、网络传输等功能于一体，安全稳定、简单实用。

设备内置双光驱，将录播现场的音像信息，实时同步直接刻录在光盘中。

并且在刻录前自动格式化并检测光盘有效性，对不符合刻录要求的光盘自动弹出，刻录结束后自动封盘。

设备内置500G硬盘，对录播现场的音像信息，实时同步备份，确保数据信息安全存储，同时支持外接移动硬盘进行实时同步刻录。

设备采用双光驱，支持直刻支持，支持4.7G单层、单面双层8.5G实时刻录。

使用标准4.7G容量DVD光盘，刻录时间1小时至24小时任选。

设备具备更换光盘时视频时间不间断功能模式，第

一光盘刻录完成后，重新放入第二张光盘，系统会把更换光盘时的录像刻录到第二张光盘内，实现前后两张光盘的视频时间不间断,双光盘刻录时支持无断点换盘模式，更换光盘时的录像不会丢失。

设备支持哈希值计算，光盘停止刻录后即生成视频文件唯一哈希值，并写入光盘，可快速出盘，出盘时间不大于1分钟。

设备内置高清录播采集模块，可以支持1280_____1024、1920_____1080高分辨率，不低于25帧/秒的视频证据采集。

设备支持合成画面1920_____1080，不低于25帧/秒高清分辨直刻。

设备支持网页对设备工作状态监测，及控制刻录等。

设备可设置定时录像，也可设定第一光驱刻录时间，第二光驱在第一光驱接近封盘时，自动启动刻录。

设备支持音频信号模拟成动态的可视化图形，同步显示在视频画面中，可即时了解音频信息采集状态。

设备可灵活调整显示内容的背景、颜色、位置、显示停留时间等。

设备可以本机直接播放光盘视频，提供暂停，快进等功能。

设备录制的视频为通用格式，通用播放器可以播放，方便录播示证使用。

音视频单文件刻录存储确保光盘文件连续性，通用视频格式文件记录，可采用QQ影音，暴风影音MEDIAPLAYER等播放器播放。

刻录光盘内置重点标记索引，在设备播放时，可以选择重点标记，设备会自动定位到录播中重点标记时间进行播放。

设备可提供WEB服务，用户通过浏览器可远程同步实时观看录播现场场景，并可以和前端录播人员进行单

向语音对讲。

设备可防止在使用过程中因外界的影响造成录播同步刻录数据的丢失。

意外断电重启后，无需更换光盘，以非硬盘导刻方式把原来的光盘恢复回来，保证光盘数据的可靠性。

两台设备间，支持远程双向音视频通话，也可以通过H.323与视频会议终端进行音、视频通讯，实现录播功能。

设备具有2路以上（含2路）USB2.0接口,支持外接USB键盘输入中文,内置文字记录软件，可在设备上做简单文字记录，也可通过计算机网络访问设备，在远程WEB界面做远程文字记录。

设备具有2路以上（含2路）100Mbps/1000Mbps自适应网口，支持网络拓展应用。

智能语音识别服务器功能描述：

提供语音识别能力，将数字音频信号转写成文字，通过以太网线，将文本文字传至上层会议系统应用中展现；同时提供会议系统服务，以及会议系统各项功能，详见6.2网络版会议转录系统功能介绍。

推荐配置：

（CPU核心数依实际生产场景并发数确定）

系统版本：

centos6.7硬件参数:

CPU类型：

至强lntel（R）_eon（R）CPU型号：

_eonD-1521CPU频率：

2.40GHzCPU核心：

4核心（8线程）

内存类型：

DDR4内存容量：

128G（4_32GB单条）

硬盘接口：

SATA3.0/M.2硬盘容量：

250GBSSD网络接口：

3个千兆网口USB接口：

USB3.0

2个VGA输出接口：

1个电源类型：

热插拨电源电源数量：

1个电源功率：

400W会议室内的麦克风输入的模拟信号声音通过声卡、高清音视频会议主机转换为数字信号，将音频最终输出到智能语音识别服务器上。

在会议室原有的秘书电脑上通过智能会议转录系统控制会议语音转写，并对会议信息、会议记录进行编辑和管理。

智能语音识别服务器负责将音频识别为文字，发送给秘书电脑上的客户端软件。

会议秘书通过客户端软件可以实时查看、编辑、修改识别出的文字内容。

会议参会人员可通过高清会议显示屏，查阅各类多媒体资料以及文档资料。

语音识别技术

5语音识别原理

语音识别是机器通过分析和理解，将人类语音中的词汇内容转换为计算机可读的输入的过程，例如按键、二进制编码或者字符序列。

典型的语音识别的框架,有三个重要的组成部分：

模型训练、前端语音处理、后端识别处理。

语音识别系统原理框图如下：

图10语音识别技术原理图功能特性

语音识别支持8k和16k频率的多种音频格式。

服务支持的语音格式如下表：

音频格式

备注

pcm16K16bit

16k16bit录音数据,pcm8K16bit8k16bit录音数据ulaw16K8bit

16k8bitu-law录音数据ulaw8K8bit8k8bitu-law录音数据alaw16K8bit

16k8bita-law录音数据alaw8K8bit8k8bita-law录音数据socket服务支持的语音格式如下表：

8K模型

pcm8k16bitalaw8Kulaw8Kvo_6K4bitvoc8K4bitGSM610v36K4bit16KK模pcm16K16bit

型

WebService服务支持语音格式如下表：

音频格式

备注

pcm8K16bit8k16bit录音数据vo_6K4bit6k4bitvo_录音数据vo_8K4bit8k4bitvo_录音数据alaw8K8bit8k8bita-law录音数据ulaw8K8bit8k8bitu-law录音数据GSM6108K16bit录音数据pcm16K16bit16k16bit录音数据v36K4bit6K4bitv3录音数据

系统功能

6现场转录、实时投屏6.1①打开【语音转录】界面，单击右上角的【新建任务】按钮，跳转至任务创建界面；②选中【现场转录】后单击【确定】按钮，将跳转至【现场转录】界面；③点击【添加角色】图标，在弹出的界面中依次添加对应的角色名称，点击确定即可；④如需开启投屏，点击右侧顶部的【开启投屏】图标，即可在当前或其他屏幕上显示；⑤点击【开始】按钮，开始进行语音的实时录入，同时在左侧编辑框中实时修改校正；⑥转录完成时请单击【结束】按钮，界面将自动跳转至【同步校正】界面。

音频转写6.2①打开【语音转录】界面，单击右上角的【新建任务】按钮，跳转至任务创建界面②选中【音频转写】

后单击【上传音频】，选择一个音频文件（wma/wav/mp3/m4a/amr格式），单击【确定】按钮后将跳转至【音频转写】界面；③转录完成时界面将自动跳转至【同步校正】界面。

同步校正6.3①单击【播放】按钮，进行录音的回听；②录音播放过程中，系统会对相应的文字内容进行底框标记；③当遇到需要修改的文字，鼠标双击该处位置可直接修改编辑；④文字修改完成后，单击下一处文字即可继续播放录音。

个人词库6.4①点击【添加】按钮，弹出【添加】窗口；②输入【语音输入】和【文字输出】，点击【确定】，即添加成功。

③点击【导入】按钮，可以批量导入t_t格式的文档。

替换格式为：

原始词语=替换词语。

文本训练6.5①点击【导入文本】按钮，可多选批量导入t_t文本；②选中文本后单击【开始训练】即可自动训练，直到完成。

语音输入，实时滚屏播放6.6双击桌面的快捷方式，运行【云创智能语音输入法】。

运行之前，请连接好麦克风等语音采集设备，确保【语音输入】功能可以正常使用。

单击桌面图标，当图标状态由【点击说话】切换为【请说话】时，可以进行语音的实时转写。

使用快捷键【ctrl+/】可以讲输出锁定到当前输出界面，再次使用则推出锁定，锁定时，输入法主界面为高亮显示。

字幕效果示意图右键【桌面图标】或【托盘区图标】，点击选择【退出】即可退出系统。

系统价值

7提升会议效率

7.1系统能够将参会人员的发言自动实时识别成文字，让秘书的录入效率从以往最高每分钟输入120～150个字提升到当前每分钟输入250～350个字，平均大约能够缩短1倍的记录时长，大大减轻了秘书的工作压力；　提升工作效率加快处理流程

7.2系统能够做到整个会议过程全量信息的自动记录和保存，为后续的工作流程提供了客观公正的全面记录，对工作处理效率平均能够提升20%；　提供智能分析结果

7.3系统为参会人员提供基于单通录音的智能分析结果，通过语音转写、自动分类、语义理解等多项技术组合出一系列的辅助工具，提高参会人员的会议效率、会议报告的准确率，同时提升会议结果的一致性、完整性；　提供后台管理功能

7.4系统为会议管理人员提供会议管理、系统操作员的管理。

提供智能化扩展功能

7.5会议系统底层采用全能智能能力平台，可以支持各种人工智能的技术的扩展，比如OCR图象识别（各种证件、票据、文本等），生物特征识别（声纹，指纹、人脸），智能翻译等。

展开阅读全文