测试报告ISR41.docx

资源描述

测试报告ISR41.docx

《测试报告ISR41.docx》由会员分享，可在线阅读，更多相关《测试报告ISR41.docx（91页珍藏版）》请在冰豆网上搜索。

测试报告ISR41.docx

测试报告ISR41

InterReco4.1

（ISR41）

测试报告

版本<1.0>

修订历史记录

日期

版本

说明

作者

7/26/2010

<1.0>

初稿

程美、唐静

InterReco4.1测试报告

1.引言

目的

本测试报告为产品InterReco4.1（项目名为ISR41）的测试报告，目的在于总结测试阶段的测试以及分析测试结果，描述系统是否符合需求，以便项目组可以从中了解到项目的最终质量状态。

预期参考人员包括用户、测试人员、开发人员、项目管理者、其他质量管理人员和需要阅读本报告的高层经理。

提示：

发布时相关数据和结论请参看2，3，4。

所有性能测试的具体数据请参见《perf图表及数据_ISR41.xls》。

背景

iFLYSpeechRecognizer4.1（讯飞语音识别引擎4.1）项目将在ISR4.0的基础上，使用下一代WFST解码器代替传统的解码器，优化识别结果，提升呼叫导航的routing准确率，使呼叫导航功能达到满足实用的要求。

随着关键词检索功能的加入，ISR41的逻辑结构模型相对于ISR40有稍许变化：

术语和缩写词

⏹InterReco4.1：

产品英文名

⏹ISR：

项目名，iFLYSpeechRecognizer，讯飞语音识别系统的缩写；

⏹CallRouting：

呼叫导航。

⏹POI：

PointofInterest，感兴趣片段，本文档中指最终条目中的一些关键词以及关键词组合，比如“安徽科大讯飞信息股份有限公司”中的“科大讯飞”或者“讯飞公司”等。

⏹ISP：

iFLYSpeechPlatform，讯飞语音应用平台，针对电信级应用场合，专门为客户打造的一个升级扩容方便、能提供高性能、高质量的负载均衡、方便部署、易于维护而且可以进行实时监控和维护的语音应用平台。

IMS：

iFLYMRCPServer，讯飞MRCP服务器

⏹WFST：

WeightedFinite-StateTransducer，加权有限状态自动机

⏹EER：

即EqualErrorRate，等错误率，置信度EER主要是用于衡量置信度总体效果好坏的一个参数。

该值越小，代表置信度的总体效果就越好。

简单来说，在某个特定的置信度门限下，识别系统的FAR（错误接受率）等于FRR（错误拒绝率）时，该值就是EER。

参考资料

⏹《测试计划_ISR41.doc》

⏹《功能规格说明书_ISR41.doc》

⏹《测试用例_ISR41.xls》

2.测试结果评估

基本达到项目的验收标准。

所支持的功能均正常。

最优效果与原先识别效果相差不到1个百分点，6个集上测试比ISR31平均有9.52个百分点的提升，满足效果指标。

产品满足变更后的性能指标，呼叫导航性能在高配和标配上分别满足60路、15路以上的并发，平均响应时间不超过1.0s,最大响应时间不超过2.7s的要求。

稳定性在指定的测试集上测试，未见异常。

项目验收标准

A、B级的需求均完成，其中有1个A级需求是变更后完成的。

优先级1、2的缺陷修复率为100%，其中优先级为3的缺陷修复率不低于90%，优先级为4的缺陷修复率不低于80%，open的问题，已经过review，基本明确修复方法，会在验收前解决，其它6个问题作为已知问题记录。

8个项目验收指标基本经测试人员验证通过的。

（有两处涉及嵌入式相关的，测试人员未参与，由开发通过代码评审来保证）

需求完成情况

重要性为A，B级的需求必须完成；重要性为C、D的需求完成80%，其他需求根据项目实施情况考虑是否实现。

是否完成：

完成。

具体见下表。

完成情况

内容

优先级

新增需求（变更后完成）

1.使用WFST解码器,提升解码性能

2.支持服务器和嵌入式两种平台

3.提升导航的准确率

4.资源打包工具（内部使用）

5.nomatch原因定位

6.呼叫导航在标配服务器上满足15路的并发需求

（原始需求是：

呼叫导航在标配服务器上满足40路的并发需求）

7.提供银行和移动的呼叫导航资源包

原有功能需求（继承ISR40的）

8.语法子系统功能

9.端点检测子系统功能

10.识别核心子系统功能

11.整体识别功能

12.实用程序

13.呼叫和系统日志功能

14.其他系统工具（含batrec、mtrec、calysis）验证

15.已有接口测试：

本地和网络版

16.界面演示工具

17.授权测试

18.文档测试

19.本地版稳定性测试

20.识别性能

21.识别效果主客观测试

22.置信度效果主客观测试

23.系统安装和卸载测试

24.兼容性及集成测试

缺陷修复情况

优先级1的缺陷修复率为100％，优先级2的缺陷修复率为100％，优先级3的缺陷修复率为90％，优先级为4的缺陷修复率为80％。

是否完成：

达标。

缺陷修复率

发布标准

实际修复率

达标情况

备注

优先级1

100%

达标

优先级2

100%

达标

优先级3

90%

91.89%

达标

没有算已知问题列表中的个数

优先级4

80%

81.25%

达标

没有算已知问题列表中的个数

ISR41的缺陷修复率，已达到项目验收标准。

注：

其它一些未修复的问题已作为该项目的已知问题，记录在已知问题列表中。

项目验收指标

1．在系统最优配置下

a）识别效果跟原型保持一致，考虑到某些因为效率原因的近似处理，识别率和routing正确率跟原型相差不超过1个百分点，具体效果数据如下：

电话银行

研究院原型

ISR40旧模型

ISR40新模型

识别率

导航准确率

识别率

导航准确率

识别率

导航准确率

TestI

86.03

97.02

67.40

75.51

96.26

TestII

78.49

97.17

50.34

67.48

94.68

注：

TestI（438句）和TestII（1238句）均为内部录制的语音数据，办公环境，14个业务，6600词词表（原始需求是：

4000词）

b）在独立第三方库上（和优化组共建），导航正确率不低于85%。

结论：

达到该条验收标准，具体如下：

a）相差不超过1个百分点，两个集上的识别率与原型vdecode分别差0.26个0.24个百分点。

电话银行

原型（Hvite）

原型（Vdecode）

ISR41

ISR41比原型Vdecode最好值

识别率

导航准确率

识别率

导航准确率

识别率

导航准确率

识别率

TestI438句

86.96

97.26

85.58

85.32

95.43

差0.26

TestII1238句

77.34

94.83

77.17

76.93

95.15

差0.24

b）导航准确率不低于85%，分别为89.11%和87.49%。

与优化组共建的第三方库jsyd测试集

ISR41

识别率

导航准确率

Jsyd自适应集1231句

86.87

89.11

Jsyd非自适应1231句

84.53

87.49

2．提供产品用户手册和开发手册。

结论：

达到该条验收标准。

沿用上一版本isr40的。

3．性能方面，在标准和高配两种测试环境下

a）在电话银行业务（1676句，公司内部录制数据，14个业务，6600词[原始需求是4000词]）上，在标准和高配两种测试环境下分别支持15路（原始需求是40路）和60路并发的呼叫导航服务，平均每路响应时间不超过1秒，每路最大响应时间不超过3秒，单路内存消耗低于15M（原始需求是10M）；

b）标准测试环境：

硬件

CPU

Intel酷睿2.0G*4*2

内存

4GRAM

硬盘

80G/160G

网络

100Mbps网卡

软件

MicrosoftWindows2003Server

c）高配测试环境HPProLiantDL380G6（AV807A）：

硬件

CPU

XeonX56602.8G*2*6（原始需求是：

XeonX55502.6G*2*4）

内存

6GRAM

硬盘

80G/160G

网络

100Mbps网卡

软件

MicrosoftWindows2003Server

结论：

达到该条验收标准。

。

高配上的性能：

60路最大响应时间在2.09s，平均响应时间为0.603s。

单路内存占用为14.4M

并发路数

LastRespTime

TotalTimeNet

TotalTime

THREADS-RECOG

THREADS-COMPUTE

caps

RecTimeRatio

GlobalRecTRatio

max

avg

max

avg

0.39

0.1313

115.187

128.703

0.4341

6.3648

2.5832

0.3986

2.094

0.6037

57.453

69.922

59.9993

45.0881

24.3677

10.11

2.0702

0.5026

并发路数

cpu

虚拟内存使用（KB）

内存使用（KB）

Max

AVG

Max

AVG

Max

AVG

1.43

0.62

370372

306432

305914

68.68

63.34

1574384

1171156

1120180

标配上的性能：

15路最大响应时间在1.938s，平均响应时间为0.2109s。

单路内存占用为14.1M

并发路数

LastRespTime

TotalTimeNet

TotalTime

THREADS-RECOG

THREADS-COMPUTE

caps

RecTimeRatio

GlobalRecTRatio

max

avg

max

avg

0.39

0.1084

124.453

146.485

0.4018

5.9196

2.3919

0.4309

1.938

0.2109

195.5

203.86

14.9978

12.5025

7.1611

9.5689

2.2713

0.4595

并发路数

cpu

虚拟内存使用（KB）

内存使用（KB）

Max

AVG

Max

AVG

Max

AVG

4.1

1.6

371364

306212

305767

84.74

41.71

681716

540960

502880

4．嵌入式平台方面

a）外部资源：

不超过60M；

b）效率要求：

在ARM11600MHz以上平台上，实时率大于0.8（实时率=VAD判定语音时间/运算时间）；

c）代码资源：

不超过400K；

d）可随机访问的读写存储器：

Heap（46M），Stack（4K）。

结论：

达到该条验收标准。

a）外部资源：

提供的两个集资源不超过60M（bank集外部资源大小总计为50.27MB；mobile集外部资源大小总计为30.69MB.）

wacmod.dat：

6.97MB

bank集：

bank.lmd：

23.5MB

bank.rmd：

19.8MB

mobile集：

mobile.lmd：

8.32MB

mobile.rmd：

15.4MB

jsyd集：

jsyd.lmd：

30.8MB

jsyd.rmd：

16.1MB

location集：

location.lmd：

33.9M

location_bi.rmd：

55.9M

location_tri.rmd：

142MB

b）效率要求：

以服务器2.0GHz4核×2能跑20路计算，每路需要800MHz运算量，以ARM11640MHz折算实时率刚好0.8=（640/800）。

c）代码资源：

43K（dec\dctrl\wfst下文件大小之和：

wfst_dc.c、wfst_def.h、wfst_inst.h、wfst_mem.c、wfst_mem.h）

d）可随机访问的读写存储器：

Heap占用由解码需要15M和资源30.5M组成，即15+30.5=45.5M；Stack占用：

有递归，但深度不会超过3，Stack占用量小于4KB。

5．产品的稳定性达到预定目标，可在满负荷情况下连续稳定运行7天；

结论：

达到该条验收标准。

由于机器需要另作它用，故让：

–系统无故障运行6天

–模拟处理呼叫3,500,000次

6．提供开发样例，支持多种接口（识别端点检测开发接口，应用开发接口以及快速开发接口）；

结论：

达到该条验收标准。

沿袭isr40项目的。

7．提供移动和银行的呼叫导航资源包；

结论：

达到该条验收标准。

已提供，放于安装包存放路径的\\192.168.70.37\backup\InterReco\ISR41_InterReco41\Build_****\callrouting中w-bank、w-mobile中。

8．代码验收指标：

a）解码器以纯C风格实现；

b）引擎编码不依赖于任何第三方库，包括C运行库；

c）代码要考虑可移植性。

结论：

达到该条验收标准。

主要通过代码review会议进行保证的。

发现的以下问题，均已解决：

1.不允许别人调用的函数不要在头文件中暴露出来；

2.内存管理器不用初始化内存，在用的时候有必要再初始化；

3.可增加释放链表的内存函数，能提升效率；

4.类型转换需要显示强制转换；

5.可尝试将状态扩展中LZERO的判断省去，增加对LSMALL的判断,对效率可能有所提升。

功能评估

成功替换呼叫导航使用的解码器（新的WFST），更新功能和原始功能均正常。

1、使用新的WFST解码器后，系统更新的呼叫导航功能正常。

系统主要根据呼叫导航语法中meta参数指定的导航资源，来判断使用wfst解码器进行识别，提升解码结果的正确性。

2、提供了对nomatch原因定位的功能，但是最终的效果很差（暂定为功能从无到有，还未对其进行优化）。

3、系统暂不提供带GS的声学模型。

（原始需求，后项目变更删除此项）

4、原有语法、端点检测、识别三个子系统功能均正常，可以实现abnf、grxml语法单独及混合使用，提供较可靠的置信度输出及识别结果，对于输入错误的语法也能判断出来，并编译报错提示错误信息。

三种接口函数本地和网络版返回值正常，对于错误的调用序列均能给出提示信息。

四种语言的七个接口示例程序基本能正常运行。

5、系统暂未使用wfst解码器来识别命令词和POI。

6、POI尚无加入置信度，所有结果的得分均为100。

另外与命令词混用时，命令词的结果在最后1个best。

检索演示程序ssapp不支持动态检查可用的POI资源包。

7、网络版使用呼叫导航功能，需指定资源包的绝对路径。

8、加密锁使用了新的授权方式，对英文采用了单独授权资源包为en-us。

效果评估

产品在客观测试集上的识别正确率基本与原型效果保持一致的，并比isr31高。

具体如下：

1．呼叫导航的客观识别效果与isr31相比提升较多，尤其在公司录制的两个音频集bank和mobile上，识别结果和导航正确率均有10个多点的提升。

但在实际业务积累的音频jsyd上的识别结果和导航正确率仅为3.45和2.06个百分点的提升。

分析的原因有：

实际业务的Jsyd集上的wfst识别错误为83句话，听了一遍，其中错误的原因如下：

a）音质较差，出现严重的喷麦，抖动以及语速很快的问题；

b）用户使用疑问语气，比如“彩铃怎么开通？

”，导航结果是“开通彩铃”，而标注为“彩铃业务”；

c）导航模块引起的问题；识别正确，但是导航出现错误。

a）情况大概占总数的一半（40句左右），这个应该是影响效果提升的较大原因。

Bank业务的呼叫导航主观测试导航准确率基本与客观结果一致，为85.12%，客观结果为85.31%，

呼叫导航的主观效果还存在一些不好之处：

1．子业务导航到父业务的情况还是比较多。

2．对疑问语气的句子，识别有时会较差。

3．呼叫导航nomatch原因结果定位效果并不是很好。

呼叫导航客观识别效果数据：

isr41比isr31识别结果平均高

9.52%

最大高

15.03%

最小高

3.07%

isr41比isr31导航正确率平均高

7.01%

最大高

12.32%

最小高

2.43%

产品

jsyd自适应

jsyd非自适应

识别结果

路由结果（子类可归到父类）

识别结果

路由结果（子类可归到父类）

isr41

86.87%

89.11%

84.53%

87.49%

isr31

83.80%

86.68%

81.08%

84.89%

isr41比isr31高

3.07%

2.43%

3.45%

2.60%

产品

banktest1

banktest2

mobiletest1

mobiletest2

识别结果

路由结果

识别结果

路由结果

识别结果

路由结果

识别结果

路由结果

isr41

85.32%

95.43%

77.05%

95.15%

87.05%

94.01%

78.44%

94.72%

isr31

74.12%

90.41%

64.83%

85.62%

72.02%

83.88%

66.27%

82.40%

验收指标

85.58%

77.17%

isr41比isr31高

11.20%

5.02%

12.22%

9.53%

15.03%

10.13%

12.17%

12.32%

isr41比验收指标差

0.71%

1.44%

呼叫导航主观识别效果数据：

通过实际电话流程进行测试，体验号码：

5373052

测试人员

导航正确率

识别总句数

程美

81.38%

145

邢猛

91.95%

李玉梅

82.05%

主观结果总计

85.12%

310

客观结果

85.31%

主客观的测试结果基本一致

2．ISR41纯命令词的客观识别正确率与ISR40基本持平，平均提升在0.02个百分点。

NoiseCar

CRLowSNR

expo

en_sentence

en_song

en_word

en_zh_mix

Isr40build1025不带ep

91.49%

90.46%

88.94%

94.90%

86.44%

61.27%

77.89%

Isr41build1011不带ep

91.51%

90.46%

89.36%

92.28%

86.60%

61.67%

77.72%

isr41比isr40相差

0.02%

0.00%

0.42%

-2.62%

0.16%

0.40%

-0.17%

平均差：

0.02%

bank

Name（ep）

Confirm（ep）

City（ep）

Stockid（ep）

Stockname（ep）

Isr40build1025不带ep

88.67%

63.62%

93.77%

53.40%

90.12%

88.94%

Isr41build1011不带ep

88.72%

63.95%

93.71%

53.36%

90.14%

90.71%

isr41比isr40相差

0.05%

0.33%

-0.06%

-0.04%

0.02%

1.77%

3．ISR41POI的客观识别正确率与ISR40基本持平，没有变化。

由于POI功能没有加入置信度模块，目前集外词的拒识尚无法测试。

上海地名+3863条测试语音：

siegn_third_level_enabled设为true，不带端点检测

召回率

ISR41

ISR40

1best

72.68%

72.82%

3best

77.08%

76.46%

POI的主观效果还存在一些不好之处：

a）不支持大写字母和中文的混合检索，这样导致很多含字母的名称条目无法被正确检索。

b）数字串的处理经常被看成是数值，和实际发音不一致，可能导致部分结果无法被检索。

c）倒序的效果总体还是比较差，基本不可用。

d）关键词POI检索和命令词目前还不是一套置信度策略的，混合两种语法使用时，命令词结果会排在最后。

另外测试这边，对新做的演示POI资源包，没有第一手的客观测试数据，需要主动测试积累数据，标注后生成客观数据。

性能及稳定性评估

性能满足变更后的要求，达到项目验收标准。

具体：

⏹命令词语法识别性能相比isr4.0略有下降，刚好满足90路并发。

⏹高配对低路数的命令词识别影响不大，50路以上优势逐渐体现

⏹呼叫导航识别性能相比4.0有下降，主要是采用了新的wfst的解码器，在提高精准度的同时，降低了性能，高配上可以满足60路以上并发服务，标配上可以满足15路以上并发。

⏹不同beam值下的呼叫导航识别性能，beam值越小，识别效果越好，但性能越差。

⏹26w词的上海地名POI业务识别性能可以满足60路以上并发服务。

⏹本地版与网络版的性能对比，本地版平均和最大响应时间要低于网络版的。

⏹带ep比不带ep的响应时间要低。

每秒呼叫次数的关系更是约3倍。

⏹识别时，callog打开、关闭，以及raw_wav是否打开，对性能有影响，rawwav打开，由于涉及磁盘读写，效率最差。

⏹ISRrecAudioWrite中的len设为800时的性能中的响应时间要明显好于1600，但总时间基本保持不变。

⏹随着nbest个数的增加，一般平均响应时间会变大。

⏹不同置信度下性能基本保持一致。

性能测试约定：

服务器：

192.168.77.189（标配）；192.168.77.30（高配）客户端：

192.168.77.97。

测试资源：

呼叫导航：

1.bank业务语法+1639句音频（识别1400次:

wav长度max18.01s,min1.28s,avg4.77s）

2.jsyd业务语法+1231句音频（识别1400次:

wav长度max7.9s,min0.63s,avg2.46s）

展开阅读全文