测试报告ISR41.docx

上传人:b****9 文档编号:25047515 上传时间:2023-06-04 格式:DOCX 页数:91 大小:1.30MB
下载 相关 举报
测试报告ISR41.docx_第1页
第1页 / 共91页
测试报告ISR41.docx_第2页
第2页 / 共91页
测试报告ISR41.docx_第3页
第3页 / 共91页
测试报告ISR41.docx_第4页
第4页 / 共91页
测试报告ISR41.docx_第5页
第5页 / 共91页
点击查看更多>>
下载资源
资源描述

测试报告ISR41.docx

《测试报告ISR41.docx》由会员分享,可在线阅读,更多相关《测试报告ISR41.docx(91页珍藏版)》请在冰豆网上搜索。

测试报告ISR41.docx

测试报告ISR41

InterReco4.1

(ISR41)

测试报告

版本<1.0>

 

 

修订历史记录

日期

版本

说明

作者

7/26/2010

<1.0>

初稿

程美、唐静

InterReco4.1测试报告

1.引言

目的

本测试报告为产品InterReco4.1(项目名为ISR41)的测试报告,目的在于总结测试阶段的测试以及分析测试结果,描述系统是否符合需求,以便项目组可以从中了解到项目的最终质量状态。

预期参考人员包括用户、测试人员、开发人员、项目管理者、其他质量管理人员和需要阅读本报告的高层经理。

提示:

发布时相关数据和结论请参看2,3,4。

所有性能测试的具体数据请参见《perf图表及数据_ISR41.xls》。

背景

iFLYSpeechRecognizer4.1(讯飞语音识别引擎4.1)项目将在ISR4.0的基础上,使用下一代WFST解码器代替传统的解码器,优化识别结果,提升呼叫导航的routing准确率,使呼叫导航功能达到满足实用的要求。

随着关键词检索功能的加入,ISR41的逻辑结构模型相对于ISR40有稍许变化:

术语和缩写词

⏹InterReco4.1:

产品英文名

⏹ISR:

项目名,iFLYSpeechRecognizer,讯飞语音识别系统的缩写;

⏹CallRouting:

呼叫导航。

⏹POI:

PointofInterest,感兴趣片段,本文档中指最终条目中的一些关键词以及关键词组合,比如“安徽科大讯飞信息股份有限公司”中的“科大讯飞”或者“讯飞公司”等。

⏹ISP:

iFLYSpeechPlatform,讯飞语音应用平台,针对电信级应用场合,专门为客户打造的一个升级扩容方便、能提供高性能、高质量的负载均衡、方便部署、易于维护而且可以进行实时监控和维护的语音应用平台。

IMS:

iFLYMRCPServer,讯飞MRCP服务器

⏹WFST:

WeightedFinite-StateTransducer,加权有限状态自动机

⏹EER:

即EqualErrorRate,等错误率,置信度EER主要是用于衡量置信度总体效果好坏的一个参数。

该值越小,代表置信度的总体效果就越好。

简单来说,在某个特定的置信度门限下,识别系统的FAR(错误接受率)等于FRR(错误拒绝率)时,该值就是EER。

参考资料

⏹《测试计划_ISR41.doc》

⏹《功能规格说明书_ISR41.doc》

⏹《测试用例_ISR41.xls》

2.测试结果评估

基本达到项目的验收标准。

所支持的功能均正常。

最优效果与原先识别效果相差不到1个百分点,6个集上测试比ISR31平均有9.52个百分点的提升,满足效果指标。

产品满足变更后的性能指标,呼叫导航性能在高配和标配上分别满足60路、15路以上的并发,平均响应时间不超过1.0s,最大响应时间不超过2.7s的要求。

稳定性在指定的测试集上测试,未见异常。

项目验收标准

A、B级的需求均完成,其中有1个A级需求是变更后完成的。

优先级1、2的缺陷修复率为100%,其中优先级为3的缺陷修复率不低于90%,优先级为4的缺陷修复率不低于80%,open的问题,已经过review,基本明确修复方法,会在验收前解决,其它6个问题作为已知问题记录。

8个项目验收指标基本经测试人员验证通过的。

(有两处涉及嵌入式相关的,测试人员未参与,由开发通过代码评审来保证)

需求完成情况

重要性为A,B级的需求必须完成;重要性为C、D的需求完成80%,其他需求根据项目实施情况考虑是否实现。

是否完成:

完成。

具体见下表。

完成情况

内容

优先级

新增需求(变更后完成)

1.使用WFST解码器,提升解码性能

A

2.支持服务器和嵌入式两种平台

A

3.提升导航的准确率

A

4.资源打包工具(内部使用)

A

5.nomatch原因定位

A

6.呼叫导航在标配服务器上满足15路的并发需求

(原始需求是:

呼叫导航在标配服务器上满足40路的并发需求)

A

7.提供银行和移动的呼叫导航资源包

A

原有功能需求(继承ISR40的)

8.语法子系统功能

A

9.端点检测子系统功能

A

10.识别核心子系统功能

A

11.整体识别功能

A

12.实用程序

A

13.呼叫和系统日志功能

A

14.其他系统工具(含batrec、mtrec、calysis)验证

B

15.已有接口测试:

本地和网络版

A

16.界面演示工具

A

17.授权测试

A

18.文档测试

B

19.本地版稳定性测试

A

20.识别性能

A

21.识别效果主客观测试

A

22.置信度效果主客观测试

A

23.系统安装和卸载测试

A

24.兼容性及集成测试

B

缺陷修复情况

优先级1的缺陷修复率为100%,优先级2的缺陷修复率为100%,优先级3的缺陷修复率为90%,优先级为4的缺陷修复率为80%。

是否完成:

达标。

缺陷修复率

发布标准

实际修复率

达标情况

备注

优先级1

100%

100%

达标

优先级2

100%

100%

达标

优先级3

90%

91.89%

达标

没有算已知问题列表中的个数

优先级4

80%

81.25%

达标

没有算已知问题列表中的个数

ISR41的缺陷修复率,已达到项目验收标准。

注:

其它一些未修复的问题已作为该项目的已知问题,记录在已知问题列表中。

项目验收指标

1.在系统最优配置下

a)识别效果跟原型保持一致,考虑到某些因为效率原因的近似处理,识别率和routing正确率跟原型相差不超过1个百分点,具体效果数据如下:

电话银行

研究院原型

ISR40旧模型

ISR40新模型

识别率

导航准确率

识别率

导航准确率

识别率

导航准确率

TestI

86.03

97.02

67.40

75.51

96.26

TestII

78.49

97.17

50.34

67.48

94.68

注:

TestI(438句)和TestII(1238句)均为内部录制的语音数据,办公环境,14个业务,6600词词表(原始需求是:

4000词)

b)在独立第三方库上(和优化组共建),导航正确率不低于85%。

结论:

达到该条验收标准,具体如下:

a)相差不超过1个百分点,两个集上的识别率与原型vdecode分别差0.26个0.24个百分点。

电话银行

原型(Hvite)

原型(Vdecode)

ISR41

ISR41比原型Vdecode最好值

识别率

导航准确率

识别率

导航准确率

识别率

导航准确率

识别率

TestI438句

86.96

97.26

85.58

--

85.32

95.43

差0.26

TestII1238句

77.34

94.83

77.17

--

76.93

95.15

差0.24

b)导航准确率不低于85%,分别为89.11%和87.49%。

与优化组共建的第三方库jsyd测试集

ISR41

识别率

导航准确率

Jsyd自适应集1231句

86.87

89.11

Jsyd非自适应1231句

84.53

87.49

2.提供产品用户手册和开发手册。

结论:

达到该条验收标准。

沿用上一版本isr40的。

3.性能方面,在标准和高配两种测试环境下

a)在电话银行业务(1676句,公司内部录制数据,14个业务,6600词[原始需求是4000词])上,在标准和高配两种测试环境下分别支持15路(原始需求是40路)和60路并发的呼叫导航服务,平均每路响应时间不超过1秒,每路最大响应时间不超过3秒,单路内存消耗低于15M(原始需求是10M);

b)标准测试环境:

硬件

CPU

Intel酷睿2.0G*4*2

内存

4GRAM

硬盘

80G/160G

网络

100Mbps网卡

软件

MicrosoftWindows2003Server

c)高配测试环境HPProLiantDL380G6(AV807A):

硬件

CPU

XeonX56602.8G*2*6(原始需求是:

XeonX55502.6G*2*4)

内存

6GRAM

硬盘

80G/160G

网络

100Mbps网卡

软件

MicrosoftWindows2003Server

结论:

达到该条验收标准。

高配上的性能:

60路最大响应时间在2.09s,平均响应时间为0.603s。

单路内存占用为14.4M

并发路数

LastRespTime

TotalTimeNet

TotalTime

THREADS-RECOG

THREADS-COMPUTE

caps

RecTimeRatio

GlobalRecTRatio

max

avg

max

avg

1

0.39

0.1313

115.187

128.703

1

1

0.4341

6.3648

2.5832

0.3986

60

2.094

0.6037

57.453

69.922

59.9993

45.0881

24.3677

10.11

2.0702

0.5026

并发路数

cpu

虚拟内存使用(KB)

内存使用(KB)

Max

AVG

Max

AVG

Max

AVG

1

1.43

0.62

370372

370372

306432

305914

60

68.68

63.34

1574384

1574384

1171156

1120180

标配上的性能:

15路最大响应时间在1.938s,平均响应时间为0.2109s。

单路内存占用为14.1M

并发路数

LastRespTime

TotalTimeNet

TotalTime

THREADS-RECOG

THREADS-COMPUTE

caps

RecTimeRatio

GlobalRecTRatio

max

avg

max

avg

1

0.39

0.1084

124.453

146.485

1

1

0.4018

5.9196

2.3919

0.4309

15

1.938

0.2109

195.5

203.86

14.9978

12.5025

7.1611

9.5689

2.2713

0.4595

并发路数

cpu

虚拟内存使用(KB)

内存使用(KB)

Max

AVG

Max

AVG

Max

AVG

1

4.1

1.6

371364

371364

306212

305767

15

84.74

41.71

681716

681716

540960

502880

4.嵌入式平台方面

a)外部资源:

不超过60M;

b)效率要求:

在ARM11600MHz以上平台上,实时率大于0.8(实时率=VAD判定语音时间/运算时间);

c)代码资源:

不超过400K;

d)可随机访问的读写存储器:

Heap(46M),Stack(4K)。

结论:

达到该条验收标准。

a)外部资源:

提供的两个集资源不超过60M(bank集外部资源大小总计为50.27MB;mobile集外部资源大小总计为30.69MB.)

wacmod.dat:

6.97MB

bank集:

bank.lmd:

23.5MB

bank.rmd:

19.8MB

mobile集:

mobile.lmd:

8.32MB

mobile.rmd:

15.4MB

jsyd集:

jsyd.lmd:

30.8MB

jsyd.rmd:

16.1MB

location集:

location.lmd:

33.9M

location_bi.rmd:

55.9M

location_tri.rmd:

142MB

b)效率要求:

以服务器2.0GHz4核×2能跑20路计算,每路需要800MHz运算量,以ARM11640MHz折算实时率刚好0.8=(640/800)。

c)代码资源:

43K(dec\dctrl\wfst下文件大小之和:

wfst_dc.c、wfst_def.h、wfst_inst.h、wfst_mem.c、wfst_mem.h)

d)可随机访问的读写存储器:

Heap占用由解码需要15M和资源30.5M组成,即15+30.5=45.5M;Stack占用:

有递归,但深度不会超过3,Stack占用量小于4KB。

5.产品的稳定性达到预定目标,可在满负荷情况下连续稳定运行7天;

结论:

达到该条验收标准。

由于机器需要另作它用,故让:

–系统无故障运行6天

–模拟处理呼叫3,500,000次

6.提供开发样例,支持多种接口(识别端点检测开发接口,应用开发接口以及快速开发接口);

结论:

达到该条验收标准。

沿袭isr40项目的。

7.提供移动和银行的呼叫导航资源包;

结论:

达到该条验收标准。

已提供,放于安装包存放路径的\\192.168.70.37\backup\InterReco\ISR41_InterReco41\Build_****\callrouting中w-bank、w-mobile中。

8.代码验收指标:

a)解码器以纯C风格实现;

b)引擎编码不依赖于任何第三方库,包括C运行库;

c)代码要考虑可移植性。

结论:

达到该条验收标准。

主要通过代码review会议进行保证的。

发现的以下问题,均已解决:

1.不允许别人调用的函数不要在头文件中暴露出来;

2.内存管理器不用初始化内存,在用的时候有必要再初始化;

3.可增加释放链表的内存函数,能提升效率;

4.类型转换需要显示强制转换;

5.可尝试将状态扩展中LZERO的判断省去,增加对LSMALL的判断,对效率可能有所提升。

功能评估

成功替换呼叫导航使用的解码器(新的WFST),更新功能和原始功能均正常。

1、使用新的WFST解码器后,系统更新的呼叫导航功能正常。

系统主要根据呼叫导航语法中meta参数指定的导航资源,来判断使用wfst解码器进行识别,提升解码结果的正确性。

2、提供了对nomatch原因定位的功能,但是最终的效果很差(暂定为功能从无到有,还未对其进行优化)。

3、系统暂不提供带GS的声学模型。

(原始需求,后项目变更删除此项)

4、原有语法、端点检测、识别三个子系统功能均正常,可以实现abnf、grxml语法单独及混合使用,提供较可靠的置信度输出及识别结果,对于输入错误的语法也能判断出来,并编译报错提示错误信息。

三种接口函数本地和网络版返回值正常,对于错误的调用序列均能给出提示信息。

四种语言的七个接口示例程序基本能正常运行。

5、系统暂未使用wfst解码器来识别命令词和POI。

6、POI尚无加入置信度,所有结果的得分均为100。

另外与命令词混用时,命令词的结果在最后1个best。

检索演示程序ssapp不支持动态检查可用的POI资源包。

7、网络版使用呼叫导航功能,需指定资源包的绝对路径。

8、加密锁使用了新的授权方式,对英文采用了单独授权资源包为en-us。

效果评估

产品在客观测试集上的识别正确率基本与原型效果保持一致的,并比isr31高。

具体如下:

1.呼叫导航的客观识别效果与isr31相比提升较多,尤其在公司录制的两个音频集bank和mobile上,识别结果和导航正确率均有10个多点的提升。

但在实际业务积累的音频jsyd上的识别结果和导航正确率仅为3.45和2.06个百分点的提升。

分析的原因有:

 实际业务的Jsyd集上的wfst识别错误为83句话,听了一遍,其中错误的原因如下:

a)音质较差,出现严重的喷麦,抖动以及语速很快的问题;

b)用户使用疑问语气,比如“彩铃怎么开通?

”,导航结果是“开通彩铃”,而标注为“彩铃业务”;

c)导航模块引起的问题;识别正确,但是导航出现错误。

a)情况大概占总数的一半(40句左右),这个应该是影响效果提升的较大原因。

Bank业务的呼叫导航主观测试导航准确率基本与客观结果一致,为85.12%,客观结果为85.31%,

呼叫导航的主观效果还存在一些不好之处:

1.子业务导航到父业务的情况还是比较多。

2.对疑问语气的句子,识别有时会较差。

3.呼叫导航nomatch原因结果定位效果并不是很好。

呼叫导航客观识别效果数据:

isr41比isr31识别结果平均高

9.52%

最大高

15.03%

最小高

3.07%

isr41比isr31导航正确率平均高

7.01%

最大高

12.32%

最小高

2.43%

产品

jsyd自适应

jsyd非自适应

识别结果

路由结果(子类可归到父类)

识别结果

路由结果(子类可归到父类)

isr41

86.87%

89.11%

84.53%

87.49%

isr31

83.80%

86.68%

81.08%

84.89%

isr41比isr31高

3.07%

2.43%

3.45%

2.60%

产品

banktest1

banktest2

mobiletest1

mobiletest2

识别结果

路由结果

识别结果

路由结果

识别结果

路由结果

识别结果

路由结果

isr41

85.32%

95.43%

77.05%

95.15%

87.05%

94.01%

78.44%

94.72%

isr31

74.12%

90.41%

64.83%

85.62%

72.02%

83.88%

66.27%

82.40%

验收指标

85.58%

 

77.17%

 

 

 

 

 

isr41比isr31高

11.20%

5.02%

12.22%

9.53%

15.03%

10.13%

12.17%

12.32%

isr41比验收指标差

0.71%

 

1.44%

 

 

 

 

 

呼叫导航主观识别效果数据:

通过实际电话流程进行测试,体验号码:

5373052

 

测试人员

导航正确率

识别总句数

程美

81.38%

145

邢猛

91.95%

78

李玉梅

82.05%

87

主观结果总计

85.12%

310

客观结果

85.31%

主客观的测试结果基本一致

2.ISR41纯命令词的客观识别正确率与ISR40基本持平,平均提升在0.02个百分点。

 

NoiseCar

CRLowSNR

expo

en_sentence

en_song

en_word

en_zh_mix

Isr40build1025不带ep

91.49%

90.46%

88.94%

94.90%

86.44%

61.27%

77.89%

Isr41build1011不带ep

91.51%

90.46%

89.36%

92.28%

86.60%

61.67%

77.72%

isr41比isr40相差

0.02%

0.00%

0.42%

-2.62%

0.16%

0.40%

-0.17%

平均差:

0.02%

 

bank

Name(ep)

Confirm(ep)

City(ep)

Stockid(ep)

Stockname(ep)

Isr40build1025不带ep

88.67%

63.62%

93.77%

53.40%

90.12%

88.94%

Isr41build1011不带ep

88.72%

63.95%

93.71%

53.36%

90.14%

90.71%

isr41比isr40相差

0.05%

0.33%

-0.06%

-0.04%

0.02%

1.77%

3.ISR41POI的客观识别正确率与ISR40基本持平,没有变化。

由于POI功能没有加入置信度模块,目前集外词的拒识尚无法测试。

上海地名+3863条测试语音:

siegn_third_level_enabled设为true,不带端点检测

召回率

ISR41

ISR40

1best

72.68%

72.82%

3best

77.08%

76.46%

POI的主观效果还存在一些不好之处:

a)不支持大写字母和中文的混合检索,这样导致很多含字母的名称条目无法被正确检索。

b)数字串的处理经常被看成是数值,和实际发音不一致,可能导致部分结果无法被检索。

c)倒序的效果总体还是比较差,基本不可用。

d)关键词POI检索和命令词目前还不是一套置信度策略的,混合两种语法使用时,命令词结果会排在最后。

另外测试这边,对新做的演示POI资源包,没有第一手的客观测试数据,需要主动测试积累数据,标注后生成客观数据。

性能及稳定性评估

性能满足变更后的要求,达到项目验收标准。

具体:

⏹命令词语法识别性能相比isr4.0略有下降,刚好满足90路并发。

⏹高配对低路数的命令词识别影响不大,50路以上优势逐渐体现

⏹呼叫导航识别性能相比4.0有下降,主要是采用了新的wfst的解码器,在提高精准度的同时,降低了性能,高配上可以满足60路以上并发服务,标配上可以满足15路以上并发。

⏹不同beam值下的呼叫导航识别性能,beam值越小,识别效果越好,但性能越差。

⏹26w词的上海地名POI业务识别性能可以满足60路以上并发服务。

⏹本地版与网络版的性能对比,本地版平均和最大响应时间要低于网络版的。

⏹带ep比不带ep的响应时间要低。

每秒呼叫次数的关系更是约3倍。

⏹识别时,callog打开、关闭,以及raw_wav是否打开,对性能有影响,rawwav打开,由于涉及磁盘读写,效率最差。

⏹ISRrecAudioWrite中的len设为800时的性能中的响应时间要明显好于1600,但总时间基本保持不变。

⏹随着nbest个数的增加,一般平均响应时间会变大。

⏹不同置信度下性能基本保持一致。

 

性能测试约定:

服务器:

192.168.77.189(标配);192.168.77.30(高配)客户端:

192.168.77.97。

测试资源:

呼叫导航:

1.bank业务语法+1639句音频(识别1400次:

wav长度max18.01s,min1.28s,avg4.77s)

2.jsyd业务语法+1231句音频(识别1400次:

wav长度max7.9s,min0.63s,avg2.46s)

3.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1