测试报告ISR41.docx
《测试报告ISR41.docx》由会员分享,可在线阅读,更多相关《测试报告ISR41.docx(91页珍藏版)》请在冰豆网上搜索。
测试报告ISR41
InterReco4.1
(ISR41)
测试报告
版本<1.0>
修订历史记录
日期
版本
说明
作者
7/26/2010
<1.0>
初稿
程美、唐静
InterReco4.1测试报告
1.引言
目的
本测试报告为产品InterReco4.1(项目名为ISR41)的测试报告,目的在于总结测试阶段的测试以及分析测试结果,描述系统是否符合需求,以便项目组可以从中了解到项目的最终质量状态。
预期参考人员包括用户、测试人员、开发人员、项目管理者、其他质量管理人员和需要阅读本报告的高层经理。
提示:
发布时相关数据和结论请参看2,3,4。
所有性能测试的具体数据请参见《perf图表及数据_ISR41.xls》。
背景
iFLYSpeechRecognizer4.1(讯飞语音识别引擎4.1)项目将在ISR4.0的基础上,使用下一代WFST解码器代替传统的解码器,优化识别结果,提升呼叫导航的routing准确率,使呼叫导航功能达到满足实用的要求。
随着关键词检索功能的加入,ISR41的逻辑结构模型相对于ISR40有稍许变化:
术语和缩写词
⏹InterReco4.1:
产品英文名
⏹ISR:
项目名,iFLYSpeechRecognizer,讯飞语音识别系统的缩写;
⏹CallRouting:
呼叫导航。
⏹POI:
PointofInterest,感兴趣片段,本文档中指最终条目中的一些关键词以及关键词组合,比如“安徽科大讯飞信息股份有限公司”中的“科大讯飞”或者“讯飞公司”等。
⏹ISP:
iFLYSpeechPlatform,讯飞语音应用平台,针对电信级应用场合,专门为客户打造的一个升级扩容方便、能提供高性能、高质量的负载均衡、方便部署、易于维护而且可以进行实时监控和维护的语音应用平台。
IMS:
iFLYMRCPServer,讯飞MRCP服务器
⏹WFST:
WeightedFinite-StateTransducer,加权有限状态自动机
⏹EER:
即EqualErrorRate,等错误率,置信度EER主要是用于衡量置信度总体效果好坏的一个参数。
该值越小,代表置信度的总体效果就越好。
简单来说,在某个特定的置信度门限下,识别系统的FAR(错误接受率)等于FRR(错误拒绝率)时,该值就是EER。
参考资料
⏹《测试计划_ISR41.doc》
⏹《功能规格说明书_ISR41.doc》
⏹《测试用例_ISR41.xls》
2.测试结果评估
基本达到项目的验收标准。
所支持的功能均正常。
最优效果与原先识别效果相差不到1个百分点,6个集上测试比ISR31平均有9.52个百分点的提升,满足效果指标。
产品满足变更后的性能指标,呼叫导航性能在高配和标配上分别满足60路、15路以上的并发,平均响应时间不超过1.0s,最大响应时间不超过2.7s的要求。
稳定性在指定的测试集上测试,未见异常。
项目验收标准
A、B级的需求均完成,其中有1个A级需求是变更后完成的。
优先级1、2的缺陷修复率为100%,其中优先级为3的缺陷修复率不低于90%,优先级为4的缺陷修复率不低于80%,open的问题,已经过review,基本明确修复方法,会在验收前解决,其它6个问题作为已知问题记录。
8个项目验收指标基本经测试人员验证通过的。
(有两处涉及嵌入式相关的,测试人员未参与,由开发通过代码评审来保证)
需求完成情况
重要性为A,B级的需求必须完成;重要性为C、D的需求完成80%,其他需求根据项目实施情况考虑是否实现。
是否完成:
完成。
具体见下表。
完成情况
内容
优先级
新增需求(变更后完成)
1.使用WFST解码器,提升解码性能
A
2.支持服务器和嵌入式两种平台
A
3.提升导航的准确率
A
4.资源打包工具(内部使用)
A
5.nomatch原因定位
A
6.呼叫导航在标配服务器上满足15路的并发需求
(原始需求是:
呼叫导航在标配服务器上满足40路的并发需求)
A
7.提供银行和移动的呼叫导航资源包
A
原有功能需求(继承ISR40的)
8.语法子系统功能
A
9.端点检测子系统功能
A
10.识别核心子系统功能
A
11.整体识别功能
A
12.实用程序
A
13.呼叫和系统日志功能
A
14.其他系统工具(含batrec、mtrec、calysis)验证
B
15.已有接口测试:
本地和网络版
A
16.界面演示工具
A
17.授权测试
A
18.文档测试
B
19.本地版稳定性测试
A
20.识别性能
A
21.识别效果主客观测试
A
22.置信度效果主客观测试
A
23.系统安装和卸载测试
A
24.兼容性及集成测试
B
缺陷修复情况
优先级1的缺陷修复率为100%,优先级2的缺陷修复率为100%,优先级3的缺陷修复率为90%,优先级为4的缺陷修复率为80%。
是否完成:
达标。
缺陷修复率
发布标准
实际修复率
达标情况
备注
优先级1
100%
100%
达标
优先级2
100%
100%
达标
优先级3
90%
91.89%
达标
没有算已知问题列表中的个数
优先级4
80%
81.25%
达标
没有算已知问题列表中的个数
ISR41的缺陷修复率,已达到项目验收标准。
注:
其它一些未修复的问题已作为该项目的已知问题,记录在已知问题列表中。
项目验收指标
1.在系统最优配置下
a)识别效果跟原型保持一致,考虑到某些因为效率原因的近似处理,识别率和routing正确率跟原型相差不超过1个百分点,具体效果数据如下:
电话银行
研究院原型
ISR40旧模型
ISR40新模型
识别率
导航准确率
识别率
导航准确率
识别率
导航准确率
TestI
86.03
97.02
67.40
75.51
96.26
TestII
78.49
97.17
50.34
67.48
94.68
注:
TestI(438句)和TestII(1238句)均为内部录制的语音数据,办公环境,14个业务,6600词词表(原始需求是:
4000词)
b)在独立第三方库上(和优化组共建),导航正确率不低于85%。
结论:
达到该条验收标准,具体如下:
a)相差不超过1个百分点,两个集上的识别率与原型vdecode分别差0.26个0.24个百分点。
电话银行
原型(Hvite)
原型(Vdecode)
ISR41
ISR41比原型Vdecode最好值
识别率
导航准确率
识别率
导航准确率
识别率
导航准确率
识别率
TestI438句
86.96
97.26
85.58
--
85.32
95.43
差0.26
TestII1238句
77.34
94.83
77.17
--
76.93
95.15
差0.24
b)导航准确率不低于85%,分别为89.11%和87.49%。
与优化组共建的第三方库jsyd测试集
ISR41
识别率
导航准确率
Jsyd自适应集1231句
86.87
89.11
Jsyd非自适应1231句
84.53
87.49
2.提供产品用户手册和开发手册。
结论:
达到该条验收标准。
沿用上一版本isr40的。
3.性能方面,在标准和高配两种测试环境下
a)在电话银行业务(1676句,公司内部录制数据,14个业务,6600词[原始需求是4000词])上,在标准和高配两种测试环境下分别支持15路(原始需求是40路)和60路并发的呼叫导航服务,平均每路响应时间不超过1秒,每路最大响应时间不超过3秒,单路内存消耗低于15M(原始需求是10M);
b)标准测试环境:
硬件
CPU
Intel酷睿2.0G*4*2
内存
4GRAM
硬盘
80G/160G
网络
100Mbps网卡
软件
MicrosoftWindows2003Server
c)高配测试环境HPProLiantDL380G6(AV807A):
硬件
CPU
XeonX56602.8G*2*6(原始需求是:
XeonX55502.6G*2*4)
内存
6GRAM
硬盘
80G/160G
网络
100Mbps网卡
软件
MicrosoftWindows2003Server
结论:
达到该条验收标准。
。
高配上的性能:
60路最大响应时间在2.09s,平均响应时间为0.603s。
单路内存占用为14.4M
并发路数
LastRespTime
TotalTimeNet
TotalTime
THREADS-RECOG
THREADS-COMPUTE
caps
RecTimeRatio
GlobalRecTRatio
max
avg
max
avg
1
0.39
0.1313
115.187
128.703
1
1
0.4341
6.3648
2.5832
0.3986
60
2.094
0.6037
57.453
69.922
59.9993
45.0881
24.3677
10.11
2.0702
0.5026
并发路数
cpu
虚拟内存使用(KB)
内存使用(KB)
Max
AVG
Max
AVG
Max
AVG
1
1.43
0.62
370372
370372
306432
305914
60
68.68
63.34
1574384
1574384
1171156
1120180
标配上的性能:
15路最大响应时间在1.938s,平均响应时间为0.2109s。
单路内存占用为14.1M
并发路数
LastRespTime
TotalTimeNet
TotalTime
THREADS-RECOG
THREADS-COMPUTE
caps
RecTimeRatio
GlobalRecTRatio
max
avg
max
avg
1
0.39
0.1084
124.453
146.485
1
1
0.4018
5.9196
2.3919
0.4309
15
1.938
0.2109
195.5
203.86
14.9978
12.5025
7.1611
9.5689
2.2713
0.4595
并发路数
cpu
虚拟内存使用(KB)
内存使用(KB)
Max
AVG
Max
AVG
Max
AVG
1
4.1
1.6
371364
371364
306212
305767
15
84.74
41.71
681716
681716
540960
502880
4.嵌入式平台方面
a)外部资源:
不超过60M;
b)效率要求:
在ARM11600MHz以上平台上,实时率大于0.8(实时率=VAD判定语音时间/运算时间);
c)代码资源:
不超过400K;
d)可随机访问的读写存储器:
Heap(46M),Stack(4K)。
结论:
达到该条验收标准。
a)外部资源:
提供的两个集资源不超过60M(bank集外部资源大小总计为50.27MB;mobile集外部资源大小总计为30.69MB.)
wacmod.dat:
6.97MB
bank集:
bank.lmd:
23.5MB
bank.rmd:
19.8MB
mobile集:
mobile.lmd:
8.32MB
mobile.rmd:
15.4MB
jsyd集:
jsyd.lmd:
30.8MB
jsyd.rmd:
16.1MB
location集:
location.lmd:
33.9M
location_bi.rmd:
55.9M
location_tri.rmd:
142MB
b)效率要求:
以服务器2.0GHz4核×2能跑20路计算,每路需要800MHz运算量,以ARM11640MHz折算实时率刚好0.8=(640/800)。
c)代码资源:
43K(dec\dctrl\wfst下文件大小之和:
wfst_dc.c、wfst_def.h、wfst_inst.h、wfst_mem.c、wfst_mem.h)
d)可随机访问的读写存储器:
Heap占用由解码需要15M和资源30.5M组成,即15+30.5=45.5M;Stack占用:
有递归,但深度不会超过3,Stack占用量小于4KB。
5.产品的稳定性达到预定目标,可在满负荷情况下连续稳定运行7天;
结论:
达到该条验收标准。
由于机器需要另作它用,故让:
–系统无故障运行6天
–模拟处理呼叫3,500,000次
6.提供开发样例,支持多种接口(识别端点检测开发接口,应用开发接口以及快速开发接口);
结论:
达到该条验收标准。
沿袭isr40项目的。
7.提供移动和银行的呼叫导航资源包;
结论:
达到该条验收标准。
已提供,放于安装包存放路径的\\192.168.70.37\backup\InterReco\ISR41_InterReco41\Build_****\callrouting中w-bank、w-mobile中。
8.代码验收指标:
a)解码器以纯C风格实现;
b)引擎编码不依赖于任何第三方库,包括C运行库;
c)代码要考虑可移植性。
结论:
达到该条验收标准。
主要通过代码review会议进行保证的。
发现的以下问题,均已解决:
1.不允许别人调用的函数不要在头文件中暴露出来;
2.内存管理器不用初始化内存,在用的时候有必要再初始化;
3.可增加释放链表的内存函数,能提升效率;
4.类型转换需要显示强制转换;
5.可尝试将状态扩展中LZERO的判断省去,增加对LSMALL的判断,对效率可能有所提升。
功能评估
成功替换呼叫导航使用的解码器(新的WFST),更新功能和原始功能均正常。
1、使用新的WFST解码器后,系统更新的呼叫导航功能正常。
系统主要根据呼叫导航语法中meta参数指定的导航资源,来判断使用wfst解码器进行识别,提升解码结果的正确性。
2、提供了对nomatch原因定位的功能,但是最终的效果很差(暂定为功能从无到有,还未对其进行优化)。
3、系统暂不提供带GS的声学模型。
(原始需求,后项目变更删除此项)
4、原有语法、端点检测、识别三个子系统功能均正常,可以实现abnf、grxml语法单独及混合使用,提供较可靠的置信度输出及识别结果,对于输入错误的语法也能判断出来,并编译报错提示错误信息。
三种接口函数本地和网络版返回值正常,对于错误的调用序列均能给出提示信息。
四种语言的七个接口示例程序基本能正常运行。
5、系统暂未使用wfst解码器来识别命令词和POI。
6、POI尚无加入置信度,所有结果的得分均为100。
另外与命令词混用时,命令词的结果在最后1个best。
检索演示程序ssapp不支持动态检查可用的POI资源包。
7、网络版使用呼叫导航功能,需指定资源包的绝对路径。
8、加密锁使用了新的授权方式,对英文采用了单独授权资源包为en-us。
效果评估
产品在客观测试集上的识别正确率基本与原型效果保持一致的,并比isr31高。
具体如下:
1.呼叫导航的客观识别效果与isr31相比提升较多,尤其在公司录制的两个音频集bank和mobile上,识别结果和导航正确率均有10个多点的提升。
但在实际业务积累的音频jsyd上的识别结果和导航正确率仅为3.45和2.06个百分点的提升。
分析的原因有:
实际业务的Jsyd集上的wfst识别错误为83句话,听了一遍,其中错误的原因如下:
a)音质较差,出现严重的喷麦,抖动以及语速很快的问题;
b)用户使用疑问语气,比如“彩铃怎么开通?
”,导航结果是“开通彩铃”,而标注为“彩铃业务”;
c)导航模块引起的问题;识别正确,但是导航出现错误。
a)情况大概占总数的一半(40句左右),这个应该是影响效果提升的较大原因。
Bank业务的呼叫导航主观测试导航准确率基本与客观结果一致,为85.12%,客观结果为85.31%,
呼叫导航的主观效果还存在一些不好之处:
1.子业务导航到父业务的情况还是比较多。
2.对疑问语气的句子,识别有时会较差。
3.呼叫导航nomatch原因结果定位效果并不是很好。
呼叫导航客观识别效果数据:
isr41比isr31识别结果平均高
9.52%
最大高
15.03%
最小高
3.07%
isr41比isr31导航正确率平均高
7.01%
最大高
12.32%
最小高
2.43%
产品
jsyd自适应
jsyd非自适应
识别结果
路由结果(子类可归到父类)
识别结果
路由结果(子类可归到父类)
isr41
86.87%
89.11%
84.53%
87.49%
isr31
83.80%
86.68%
81.08%
84.89%
isr41比isr31高
3.07%
2.43%
3.45%
2.60%
产品
banktest1
banktest2
mobiletest1
mobiletest2
识别结果
路由结果
识别结果
路由结果
识别结果
路由结果
识别结果
路由结果
isr41
85.32%
95.43%
77.05%
95.15%
87.05%
94.01%
78.44%
94.72%
isr31
74.12%
90.41%
64.83%
85.62%
72.02%
83.88%
66.27%
82.40%
验收指标
85.58%
77.17%
isr41比isr31高
11.20%
5.02%
12.22%
9.53%
15.03%
10.13%
12.17%
12.32%
isr41比验收指标差
0.71%
1.44%
呼叫导航主观识别效果数据:
通过实际电话流程进行测试,体验号码:
5373052
测试人员
导航正确率
识别总句数
程美
81.38%
145
邢猛
91.95%
78
李玉梅
82.05%
87
主观结果总计
85.12%
310
客观结果
85.31%
主客观的测试结果基本一致
2.ISR41纯命令词的客观识别正确率与ISR40基本持平,平均提升在0.02个百分点。
NoiseCar
CRLowSNR
expo
en_sentence
en_song
en_word
en_zh_mix
Isr40build1025不带ep
91.49%
90.46%
88.94%
94.90%
86.44%
61.27%
77.89%
Isr41build1011不带ep
91.51%
90.46%
89.36%
92.28%
86.60%
61.67%
77.72%
isr41比isr40相差
0.02%
0.00%
0.42%
-2.62%
0.16%
0.40%
-0.17%
平均差:
0.02%
bank
Name(ep)
Confirm(ep)
City(ep)
Stockid(ep)
Stockname(ep)
Isr40build1025不带ep
88.67%
63.62%
93.77%
53.40%
90.12%
88.94%
Isr41build1011不带ep
88.72%
63.95%
93.71%
53.36%
90.14%
90.71%
isr41比isr40相差
0.05%
0.33%
-0.06%
-0.04%
0.02%
1.77%
3.ISR41POI的客观识别正确率与ISR40基本持平,没有变化。
由于POI功能没有加入置信度模块,目前集外词的拒识尚无法测试。
上海地名+3863条测试语音:
siegn_third_level_enabled设为true,不带端点检测
召回率
ISR41
ISR40
1best
72.68%
72.82%
3best
77.08%
76.46%
POI的主观效果还存在一些不好之处:
a)不支持大写字母和中文的混合检索,这样导致很多含字母的名称条目无法被正确检索。
b)数字串的处理经常被看成是数值,和实际发音不一致,可能导致部分结果无法被检索。
c)倒序的效果总体还是比较差,基本不可用。
d)关键词POI检索和命令词目前还不是一套置信度策略的,混合两种语法使用时,命令词结果会排在最后。
另外测试这边,对新做的演示POI资源包,没有第一手的客观测试数据,需要主动测试积累数据,标注后生成客观数据。
性能及稳定性评估
性能满足变更后的要求,达到项目验收标准。
具体:
⏹命令词语法识别性能相比isr4.0略有下降,刚好满足90路并发。
⏹高配对低路数的命令词识别影响不大,50路以上优势逐渐体现
⏹呼叫导航识别性能相比4.0有下降,主要是采用了新的wfst的解码器,在提高精准度的同时,降低了性能,高配上可以满足60路以上并发服务,标配上可以满足15路以上并发。
⏹不同beam值下的呼叫导航识别性能,beam值越小,识别效果越好,但性能越差。
⏹26w词的上海地名POI业务识别性能可以满足60路以上并发服务。
⏹本地版与网络版的性能对比,本地版平均和最大响应时间要低于网络版的。
⏹带ep比不带ep的响应时间要低。
每秒呼叫次数的关系更是约3倍。
⏹识别时,callog打开、关闭,以及raw_wav是否打开,对性能有影响,rawwav打开,由于涉及磁盘读写,效率最差。
⏹ISRrecAudioWrite中的len设为800时的性能中的响应时间要明显好于1600,但总时间基本保持不变。
⏹随着nbest个数的增加,一般平均响应时间会变大。
⏹不同置信度下性能基本保持一致。
性能测试约定:
服务器:
192.168.77.189(标配);192.168.77.30(高配)客户端:
192.168.77.97。
测试资源:
呼叫导航:
1.bank业务语法+1639句音频(识别1400次:
wav长度max18.01s,min1.28s,avg4.77s)
2.jsyd业务语法+1231句音频(识别1400次:
wav长度max7.9s,min0.63s,avg2.46s)
3.