智能庭审转写系统解决方案.docx

资源描述

智能庭审转写系统解决方案.docx

《智能庭审转写系统解决方案.docx》由会员分享，可在线阅读，更多相关《智能庭审转写系统解决方案.docx（15页珍藏版）》请在冰豆网上搜索。

智能庭审转写系统解决方案.docx

智能庭审转写系统解决方案

1背景概述

当前，随着人工智能技术的不断发展和应用普及，针对多人连续语音的识别应用已经十分成熟。

将人工智能应用到庭审实时识别转写场景下，改变当前的庭审纪要模式，实现在庭审过程中对审判长、原告、被告、犯罪嫌疑人、证人等各方陈述的内容自动实时识别成文字，能够成倍提升庭审的效率，并将大幅减轻书记员的工作强度和压力。

而且部分庭审信息量大、讨论问题多、庭审时间长等要素，人工记录很难做到完全保存庭审信息，这时灵云智能庭审转写系统能够做到记录整个庭审过程全量信息，从而体现出巨大的实用价值。

2系统架构

2.1逻辑架构

灵云智能庭审转写系统的逻辑框架如下图所示。

图1系统逻辑架构

系统依托于灵云全智能能力平台提供的语音识别（ASR）和语音合成（TTS）能力，主要包括采音模块、业务系统和存储模块三部分：

1）采音模块：

主要通过麦克风及USB声卡等硬件采集庭审音频数据。

2）业务系统：

该系统为书记员等提供实时的语音识别文本展现、相关资料展现和庭审流程中各种基础处理功能，便于相关人员便捷实用系统，提高工作效率。

3）存储模块：

将业务相关数据存储于Redis数据库、Oracle数据库和文件服务器中，根据实际业务情况提供能力支撑和应用服务。

2.2物理架构

灵云智能庭审转写系统的物理框架如下图所示。

图2系统部署架构

系统物理框架首先需要在法院内网服务器上搭建语音平台，并且针对单个法庭需要新增一台专用采集设备和一台Windows电脑，Windows电脑要能够与语音能力平台服务器相连接。

具体系统流程如下：

1）法庭内的N个麦克风通过并线连接采音设备，采音设备实现将模拟信号音频转换为数字信号，通过USB连线与局域网内的Windows电脑相连接，将音频输出到台式机上。

2）在书记员电脑上安装录音软件负责把采音设备采集到的数字信号通过法院内网发送给后台语音识别服务器。

3）语音识别服务器负责将音频识别为文字，发送给书记员电脑上的网页端法庭系统。

4）书记员通过网页端法庭系统可以实时查看、编辑、修改识别出的文字内容。

3功能描述

3.1灵云智能庭审转写系统

产品结构图：

3.1.1创建庭审

功能描述：

书记员创建庭审的时候，在网页上选择法庭，系统会自动关联到对应法庭的麦克风，书记员即可对麦克风的角色姓名进行编辑，从而在庭审转写的直播过程中来达到区分角色的效果。

此外，在网页界面上支持对当前庭审的编号、名称、开庭时间、开庭地点等信息进行编辑设置，方便会后整理和查阅。

业务流程图：

界面效果图：

3.1.2关键词优化

功能描述：

针对庭审转写过程中，某些个性化或者生僻的词语（例如人名、公司名、地名等）可能出现错误的情况，书记员可以提前输入一些关键词来优化语言识别模型，以便在后面的实时转写过程中，系统自动修正这些文字的转写结果，提高识别准确率，从而减少书记员修改识别结果的工作量，提高庭审效率。

业务流程图：

界面效果图：

3.1.3庭审实时转写

功能描述：

灵云智能庭审转写系统自动识别出来的文字内容虽然具有很高的识别率，但仍可能存在小部分的错误问题，书记员通过网页可以进行实时的修订、保存操作，并且支持复制粘贴、删除替换等操作，实现庭审记录的快速修正、生成。

具体提供以下功能操作：

1）普通修改：

按照正常word操作习惯提供正常的增删改、复制、粘贴的功能、删除替换等。

2）个性化词汇添加/快捷替换：

书记员可以通过庭审记录页面快速添加个性化词汇，增强识别效果，同时可以通过双击个性化词汇列表，可将对应的个性化词汇快捷地替换掉转写输出的错误文本。

业务流程图：

界面效果图：

3.1.4历史庭审记录回听

功能描述：

书记员在庭审记录过程中，因记录不及时、陈述人语速过快的情况，通过转写过程中打点标记相应的位置，在闭庭时，可以通过回听庭审音频，再快速修正记录内容。

业务流程图：

界面效果图：

3.1.5庭审状态控制

功能描述：

书记员通过网页端能够实现对整个庭审节奏的控制，当前系统提供三种庭审状态：

“开庭”、“休庭”、“闭庭”。

界面效果图：

3.1.6庭审信息自动播报

功能描述：

对于开庭需要宣读的法庭纪律、审判人员入庭、证人出庭等内容，能够通过网页端自动播报，并且支持播报速度调整及音色自由选择。

业务流程图：

界面效果图：

3.1.7导出/打印/保存

功能描述：

书记员在整个庭审结束后，可以从系统的网页端将庭审生成的笔录导出为Word文档，也支持在网页端中直接进行打印操作，并且可以将庭审笔录保存至庭审记录管理系统。

业务流程图：

界面效果图：

3.2灵云全智能能力平台介绍

全智能能力平台是基于服务器硬件和软件，提供捷通华声科技股份有限公司最新的语音合成、语音识别、声纹识别等多项核心技术能力，并在此基础上构建语音应用。

3.2.1语音合成

语音合成（TexttoSpeech，TTS），是将文本信息转化为语音数据的技术。

语音平台集成的语音合成引擎是业界领先的文语转化引擎，采用最先进的中文文本、韵律分析算法和大语料库的合成方法，合成语音已经接近真人的自然效果。

其主要功能有：

1）高质量语音，将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据；

2）多语种服务，整合了多语种语音合成引擎，可提供中文、英文、粤语、维语等语音合成服务；

3）多音色服务，提供丰富、风格多样化的音色选择，如浑厚淳正的男声，温柔甜美的女声，天真烂漫的童声等等；

4）多字符集支持，支持输入GB2312、GBK、Big5、Unicode和UTF-8等多种字符集，普通文本和带有CSSML标注等多种格式的文本信息；

5）多种数据输出格式，支持输出多种采用率的线性WAV，A/U率WAV和VOX等格式的语音数据；

6）语音调整功能，开发接口提供了音量、语速、音高（基频）等多种合成参数动态调整功能；

7）配置和管理工具，合成引擎提供了统一进行配置和管理的工具，完成了全局参数配置、用户词典、用户规则管理等功能；

8）效果优化，合成引擎提供了以定制资源包和CSSML为代表的多种针对实际应用环境进行合成效果优化的方法；

9）一致的访问方式，能以方式访问远程的语音合成服务，并且提供与本地调用相同的开发接口，实现了完全透明的访问；

10）背景音和预录音，提供了背景音和预录音的功能，大大提高了合成语音的自然度和表现力。

3.2.2语音识别

语音识别技术（AutoSpeechRecognize，简称ASR）所要解决的问题是让机器能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来，相当于给机器安装上“耳朵”，使其具备“能听”的功能。

其主要功能有：

A.前端语音处理

前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理，以便得到最适合识别引擎处理的语音。

主要功能有：

1）端点检测

端点检测是对输入的音频流进行分析，确定用户说话的起始和终止的处理过程。

一旦检测到用户开始说话，语音开始流向识别引擎，直到检测到用户说话结束。

这种方式使识别引擎在用户在说话的同时即开始进行识别处理。

2）噪音消除

语音识别系统具备高效的噪音消除能力，以适应用户在千差万别的环境中应用的要求。

3）智能打断

智能打断功能使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求，而无需等待播放结束，系统能够自动进行判断，立即停止提示语的播放，对用户的语音指示做出响应。

该功能使人机交互更加高效、快捷、自然，有助于增强客户体验。

B.后端识别处理

后端识别处理对说话人语音进行识别，得到最适合的结果，主要特性有：

1）大词汇量、独立于说话人的健壮识别功能

系统满足大词汇量、与说话人无关的识别要求，可以支持数万条语法规模的词汇量；并能适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。

2）连续语音识别

连续语音识别是指能够把用户说的任意语音转换成对应的文字信息，支持中文和中英文混读的常见语句听写，对于日常使用的常用对话有着很高的识别准确率，包含日常用语，如短信类、生活、交通、娱乐、科技、数字数值、名人、互联网热词、新闻、金融等领域的词库更新。

3）智能标点添加

连续语音识别支持中文标点智能预测，使用超大规模的语言模型，对识别结果语句智能预测其对话语境，提供智能断句和标点符号的预测。

4）置信度输出

置信度反映了识别结果的可信程度。

语音识别引擎可以在返回识别结果时会携带该识别结果的置信度，应用程序可以通过置信度的值进行分析和后续处理。

5）多识别结果

又称多候选技术，在某些识别过程中，识别引擎可以通过置信度判决的结果向应用程序返回满足条件的多个识别结果，而不是唯一的结果。

识别系统提供了可能的识别结果列表，并按置信度结果从高到低进行排列。

在业务设计中，可以根据应用要求向用户提供这些结果，供用户进行二次选择。

通过置信度判决和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。

6）说话人自适应

当用户与语音识别系统进行多次会话过程中，系统能够在线提取通话的语音特征，自动调整识别参数，使识别效果得到持续优化。

7）多槽识别

语音识别的槽（Slot）代表一个关键字，即在一次会话过程中可以识别说话人语音中包含的多个关键字，这可以提高语音识别应用的效率，增强用户体验。

8）热词识别

热词识别使得语音识别应用程序能够在说话者说话的同时检测一个特定的词或短语，当说话者说到这个短语的时候，识别引擎会把控制权交还给应用程序。

在应用程序使用该功能可以使识别器能够在后台监听输入的语音，直到用户说出特定的短语进行请求时才与用户交互。

9）智能调整识别策略

能够自动根据系统运行情况动态调整语音识别策略，在系统较忙时（CPU占用较高），采用计算量较小但具有足够精度的策略以保证系统的响应速度；在系统不忙时（CPU占用较低），采用精度更高的策略以达到更优的识别效果。

10）语音录入

允许用户通过语音方式动态增加识别语法。

该功能使用户可以更加灵活的维护语法，扩展语音识别范围，并且能够提高识别系统对用户语音的适应能力，提高识别的准确率。

11）识别日志

语音识别的日志在系统中有着非常重要的作用，该日志记录输入的音频、加载的语法、识别过程的中间结果、识别模块识别过程、识别使用的各种参数、识别结果以及当时的系统环境信息。

4系统的益处与价值

系统不但节省人力成本、减少人工出错率，而且给客户带来诸多益处或价值。

1）超高的语音识别准确率

灵云智能庭审转写系统识别准确率达到92%以上，庭审前的关键词优化，可以提升识别率到95%。

2）能够大幅缩短庭审时长

由人工录入120字/分钟上升至机器转录300字/分钟以上，普通庭审时间缩短20%，书记员熟练使用系统后将可以节约庭审时间将近50%。

3）庭审纪录完整度

庭审过程全程留痕，笔录完整度高达100%。

5技术要求

5.1软硬件配置清单

系统建设所需的软硬件设备配置如下：

类型

配置或样式

数量

硬件设备

专业级USB声卡

8进8出USB音频接口，8个通道带话放和48V幻相供电，USB连接口，可调增益

1台/庭

音频流服务器

i3CPU/4GB内存/128GB硬盘，操作系统：

Windows7/10；具备USB接口；接入到法院内网，能够与语音平台服务器连通

1台/庭

智能云平台服务器

8核/64GB内存/1TB硬盘/RedHat6.2

1台满足15个法庭同时开庭使用

软件设备

庭审语音转写交互模块

以web界面形式提供庭审语音转写功能

1套

云服务

平台

提供基础平台框架，平台所有模块依赖此框架进行构建，通过组播协议与域内其他服务模块建立点对多点连接，为平台各模块提供授权管理，同时提供系统运维功能,提供中文普通话自由说语音转文字和简体中文汉字合成中文普通话音频功能

1套最大支持300个

5.2软硬件性能要求

5.2.1软件参数

1）角色区分：

庭审环境下多人同时说话的语音按照每个人的发音特征进行自动分离，从而对多人所说的语音分别进行识别。

2）个性化词汇识别：

针对庭审信息中含有的个性化词汇需要能够加入到系统中，并且系统可以立即生效并在庭审过程中正确的识别出来。

3）多庭使用：

支持多个法庭同时进行识别服务，在法院专网内通过部署私有云平台，每个法庭都能够连接到平台上获取语音识别能力，并且多个法庭能够同时调用。

4）录音回听：

支持庭审录音标记回听的功能，书记员能够通过软件在庭审录音中标记出记录不及时的位置，在闭庭或休庭时，按照标记的位置，可以回听之前的庭审音频，再快速修正记录内容。

5）语音播报：

对于开庭需要宣读的法庭纪律、审判人员入庭、证人出庭等内容，能够通过系统进行自动播报，并且支持播报速度的人工调整。

5.2.2硬件参数

1）8模拟的卡侬/大两芯/大三芯复合型平衡/非平衡输入口，每个均带独立的话筒放大器、48V供电和增益旋钮。

2）8个模拟的卡侬型平衡输出口，每个均带独立的+4/-10dB切换开关。

3）1对卡侬口的平衡型主输出口，带音量旋钮。

4）8声道光缆型的ADAT数字输入口。

5）8声道光缆型的ADAT数字输入口。

6）2个声道XRL型的AES/EBU数字输入。

7）2个声道XRL型的AES/EBU数字输出。

8）每个输入口和输出口均有10段的LED电平表。

9）1个连接计算机的火线插口，一个串接扩展箱用的火线插口

10）支持24-bit/96KHz数字音频格式。

11）可以实时转换声音信号的采样频率。

12）强大的数字混音、跳线和监听能力。

13）动态范围高达109dB

展开阅读全文