人脸识别性能测试方案Word下载.docx
《人脸识别性能测试方案Word下载.docx》由会员分享,可在线阅读,更多相关《人脸识别性能测试方案Word下载.docx(8页珍藏版)》请在冰豆网上搜索。
评判方法5
7动态离线视频布控测试5
方案描述5
测试数据准备6
测试步骤6
评判指标7
评判方法8
8最终成绩统计8
9测试流程8
1事项说明
参测厂商操作系统安装及软件和人口照片数据导入、测试调试工作,具体部署时间由甲方通知各个参测单位;
参测厂商自行准备测试环境所需的所有硬件,操作系统及软件环境;
参测厂商上报不超过2人的现场操作团队,并提供现场操作人员的身份信息(姓名、身份证号、联系方式),由组织测试方进行身份核查,所有测试人员进场前上交通讯工具;
组织测试方提供所有测试数据,对于提供的测试素材(人像照片),参测单位有保密义务,不得外泄或复制,禁止拍照、截图;
为保证本次系统测试数据的安全和保密性,确保测试数据不外泄,本次测试过程中的数据转换,编辑和认定均应在组织者制定的场地进行,并于测试前签订保密协议,参测人员不允许能通过任何移动存储介质(手机、U盘、移动硬盘以及光盘等)或网络方式将测试数据带离测试现场;
为保证本次测试的公平公正公开,局域网中严禁使用个人公司的笔记本,对于测试环境有任何的数据导入,都需要有测试方专人在场监督下方可进行,严禁将测试环境的数据导出,带离测试现场。
测试结束后,所有参测设备须由测试组织方清空并格式化后
方能带离。
2测试目的
了解各企业人脸识别系统的实际性能表现;
评估现有人脸识别系统对公安实战应用需求的满足程度;
为后期人脸识别技术系统建设选型提供数据依据。
3测试方式
采用实验室测试的方式。
4测试内容
本次测试包括两个方面:
静态识别技术测试,动态识别技术测试。
5测试环境
网络环境
为了保证测试的公平公正,静态测试与离线视频测试的测试环境一律采用单机或单集群局域网,不得接入外网,和外界物理隔离。
硬件环境
此次测试机器由各厂家自行提供,测试前需向组织测试方报备机器数量及具体参数配置。
6静态人像比对系统评测
方案描述
由测试方提供证件照底库和多组查询照。
参测单位对底库照片进行建库,并启动人像检索功能,系统需将查询返回的前二十名结果保存下来,由测试方统计命屮结果。
测试数据准备
测试数据
描述
证件照底库
5000万张证件照照片
查询照片
查询照总共300张,包括低清视频截图照、高清视频截图、其他照片三类照片数据。
测试步骤
测试步骤描述
1.组织测试方准备5000万证件照底库,并将300张测试数据集的登记照混入人像库,并进行统一重命名。
2.将5000万张照片压缩为一个zip格式压缩包,作为测试数据源。
厂家建立人像库
1.各测试参商将测试服务器部署到组织测试方指定区域,组织测试方以移动硬盘为介质将5000万数据压缩包以随机顺序移交给参测厂商。
2.各参测厂商拷贝人像库压缩包结束后,统一开始计时,要求在4天内完成建库,6天未完成建库,则静态
算法测试计零分。
厂家测试
1.参测厂商以随机顺序依次一一进行测试,组织测试方以U盘为介质,将300张测试集査询照下发给当前参测厂商。
2.参测单位启动系统进行批量自动人像检索,将得到在底库中的前20名最相似人员结果写入CSV文件中。
测试完成后,参测单位将结果CSV文件交予测试方。
记录提交的CSV文件的MD3值。
3.当前测试厂商在测试过程中不允许对测试图片进行修改,检索一旦开启,不允许对机器进行操作。
4.测试过程中,非当前测试厂商的测试人员需在指定区域休息,不得操作各自服务器。
5.比对时间为连续2小时以内,超过小时则静态算法项计零分。
人工验证测试结果
测试方对各厂家的测试结果和标准答案进行对比,记录结果,并形成测试报告。
评判指标
各厂家提交的csv表格格式如下:
査询照
首位
第二位
第二十
Q0001
B03
B44
B79
Q0002
A02
B53
B39
统计量说明:
首位命屮数:
系统返回检索结果屮,目标人物位于第一位,即
相似度最高;
前十命中数:
系统返回检索结果中,目标人物位于前二至十位;
前二十命屮数:
系统返回检索结果中,目标人物位于前十一至二十位
评判方法
命中情况
2-10位
11-20位
分数权重
1
命中数量
A
B
C
总分(百分
100*(l*A+*B+*C)/(300)
制)
7动态离线视频布控测试
测试方提供离线视频文件,同时会提供一定数量登记照片作为布控库。
参测单位将布控人员导入测试系统,并启动离线视频分析比对功能。
系统需将离线视频分析过程屮报警比中结果记录保存下来,由测试方统计报警情况。
30万张底库布控照片。
摄像头架设
按人脸卡口标准架设。
离线视频录制
步骤
1.将20位黑名单人员,将其证件照混入布控底库中
2.测试前,组织方组织测试人员前往测试点位进行视频录制
3.黑名单人员人通过镜头5次,即最终有视频有100人次通过
4.所有黑名单过人记录信息整理为CSV文件,对于每一个视频中出现的黑名单人员,标注其ID,起始时间,结束时间作为一次过人记录,以作为黑名单过人记录的标准答案
测试步
1.测试方准备30万证件照底库,并将20张黑名单的证件照混入人像库,并进行统一重命名
2.测试方按照离线视频录制方法录制一段时长约30分钟,人流量约为1000的离线视频,转换为标准AVI格式,作为测试所用视频源
1.各测试参商将测试服务器部署到组织测试方指定区域,组织测试方以移动硬盘为介质将30万数据压缩包以随机顺序移交给参测厂商
2.参测厂商拷贝人像库,导入各自系统,并启动建库,要求在一小时内完成建库
1.组织测试方以U盘为介质,将测试视频下发给参测厂商
2.各参测厂商将视频文件上传至人脸识别系统,为了比较各厂家在同一误报率下的准确率,各厂家需以同一误报数量的前提下,调整自身报警阈值,维持此时的报警阈值,不得修改。
3.测试过程中,组织测试方对参测厂商一对一进行监督,不允许参测厂商对报警结果进行增删操作
4.测试结束后,参测厂商需将报警结果在可视化页面呈现,且将所有报警结果导出为一个CSV文件,组织测试方依次——对参测厂商的报警结果进行统汁
测试方对各厂家的测试结果和标准答案进行对比,记录结果,并形成测试报告
1.组织测试方统计如下信息量用来评判结果:
a)系统正确报警数:
指测试结果屮可以匹配标准答案屮某次黑名单过人记录的报警结果,“匹配”需同时满足如下条件:
i.布控ID属于黑名单人员。
ii.报警时间处于该黑名单人员某次过人记录时间范围内。
iii.报警分数大于预设报警阈值。
iv.去重。
如果标准答案中某个过人记录匹配了多次报警结果,只算作一次正确报警。
b)系统错误报警数:
指测试结果屮不匹配标准答案屮对应黑名单过人记录的报警结果。
1.组织测试方以随机顺序依次挑选测试厂商进行结果统计,将参测厂商报警结果的分数从高到低排序,从上往下筛选,当找到第十个错误报警时,记录该错误报警的报警分数,统计所有报警分数在该分数以上的正确报警结果,假设为N,则得分为N。
2.为了保证统计的严肃性,统计期间其他厂家不得入场,待当前厂家统计完成后,换下一厂家入场统计。
8最终成绩统计
厂家名称
静态测试得分
动态测试得分
9测试流程
实验室测试环节所有参测厂商按组织方通知的时间进场部署各自的人脸识别系统并进行测试,实验室部署调试测试时间为上午9点至11:
30点,下午14点至16点,分三部分进行:
系统部署及调试(不超过4小时)。
实验室静态照片识别测试、功能测试,实验室动态人脸视频测试,测试环节由检验人员操作,参测企业技术人员需要配合检验人员。
测试结果由检验人员记录保存。