人工智能深度学习算法评估规范.docx-资源下载

人工智能深度学习算法评估规范.docx

1、人工智能深度学习算法评估规范ICS 35. 080L77AIOSS中国人工智能开源软件发展联盟标准AIOSS012018人工智能深度学习算法评估规范Artificial intelligenceAssessment specification for deep learning algorithms2018-07-01 发布2018-07-01 实施目次前言 Ill引言 IV1范围 12术语和定义 13评佔指标体系 23.1评估指标体系表 23.2算法功能实现的正确性 43.3代码实现的止确性 43.4 标函数的彩响 43.5训练数据集的彭响 43. 6对抗性样木的影响 43. 7软硬件平

2、台依赖的影响 53.8环境数据的影响 54评佔流程 54.1概述 54.2确定可靠性目标 64.3选择评估指标 74.4评佔准则 74.5各阶段评估 84.6评估结论 85需求阶段的评估 85.1概述 85.2前提条件 85.3输入 85.4关键活动 95.5输出 96设计阶段的评估 96.1概述 96.2前提条件 96.3输入 96.4关键活动 96.5输岀 101实现阶段的评估 107.2前提条件 107.3输入 107.1关键活动 107.5输出 118运行阶段的评估 118.1概述 118.2前提条件 118.3输入 118.4关键活动 118.5输出 12附录A （规范性附录）深度学

3、习算法可靠性评估指标选取规则 13附录B （资料性附录）深度学习粥法可靠性评估实施案例 15参考文献 25人工智能深度学习算法评估规范1范围本标准提出r人丄智能深度学习算法的评估指标体系、评估流程，以及需求阶段评估、设计阶段评估、实规阶段评估和运行阶段评估等内容。本标准适用r指导深度学习算法开发方、用户方以及第三方等相关组织对深度学习算法的可靠性开展评佔工作。2术语和定义卜列术语和定义适用于本文件。2.1可靠性 ldiability在规定的条件I、和规定的时间内，深度学习算法止确完成预期功能，且不引超系统失效或异常的能力。2.2可靠性评估 reliabilit, assessment确

4、定现有深度学习算法血可靠性所达到的预期水平的过程。2.3算法失效 algorithm failure算法丧失完成规定功能的能力的事件。2.4危险 hazard深度学习算法发生算法失效，从而导致机器学习系统岀现的一个非预期或有害的行为，或者提交给 It他与机器学习系统相关联的系统发生错误。2.5危险严重性 hazard seveiihT杲种危险可能引起的事故丿加的严巫程度。2.6查准率 precision对于给定的数据集，预测为正例的样木中貞例样木的比率。2.7查全率 recall対丁给定的数据集，预测为貞M例的样本占所右实际为疋例样本的比率。2.8准确率 accuracy对于给定的数据集，正确

5、分类的样木数占总样木数的比率。2.9响应时间 response time在给定的软硬件环境卜，深度学习私法対给定的数据进行运往并茯得结果所需要的时间。2.10对抗性样本 adversarial examples在数据集屮通过故彥添加细微的T扰所形成输入样木，受T扰Z后的输入导致模型以高曽信度给出错谋的输出。2.11置信度 coulldence总体参数值落在样木统计值某区内的概率。3评估指标体系3.1评估指标体系表垄丁深度学习算法可靠性的内外部影响考虑，结介用八实际的应用场景，本标准给出了-会深度学习算法的可靠性评估指标体系。本指标体系如图1所示,包含7个级指标和20个二级指标。在实施评估

6、过程中，应根据可靠性H标选取相应指标。篦法功能实现的正确性任务指标代码规范性代码实现的正确性代码漏洞优化目标数员深度学习算法的可微性指标体系数据集标注质拟合程度数据集均衡性数据集规模数据隼污染情况白盒方式生成的祥本黑盒方式生成的样本对抗性样本的影响指定目标方式生成的样本不指定目标方式生成的样木深度学习框架差异软砸件平台依赖的影晦録作系统差异干扰数据环境敛据的彩咆数18集分布迁移野佰数屈图1深度学习算法可靠性评估指标体系3.2算法功能实现的正确性川于评估深度学习算法实现的功能是占满足要求，应包括但不限于卜列内容：a）任务指标：用户可以根据实际的应用场景选择任务相关的基本指标，用丁评估算法完成

7、功能的能力：示例：分类任务中的査旌率（.见2.6）、査全率（见2.7）、准确率（见2.8）等:语音识别任务中的词错误率、句错误率等：1丨标检测任务屮的半均正确率等：算法在Oltft误偏差程度带來的谄响等。b）响应时间（见2.9） o3.3代码实现的正确性用于评估代码实现功能的正确性，应包括下列内容：a）代码规范性：代码的声明定义、版而书写、指针使用、分支控制、跳转控制、运算处理、函数调用、语句使用、循坏控制、类型转换、初始化、比较判断和变备使用等是占符介相关标准或规范中的编程耍求；b）代码漏洞：指代码屮是否存在漏洞。示例：栈溢出漏洞、堆栈溢出漏洞、整数溢出、数纽越界、缓冲区溢出等

8、。3.4目标函数的影响用于评估计并预测结杲与貞实结果Z间的俣差，应包括卜列内容：a）优化门标数量：包括优化R标不足或过多。优化冃标过少容易造成模型的适应性过强，优化冃标过多容易造成模型收敛闲难：b）拟介程度：包括过拟合或欠拟介。过拟介是指模型对训练数据过度适应，通常山丁模型过度地学习训练数据小的细节和噪声，从浙导致模型木训练数据卜表现很好，仙在测试数据卜表规很并，也即模型的泛化性能变并。欠拟介是指模型对训练数据不能很好地拟介，通常山丁模型过于简单造成，需嘤调整算法使得模型表达能力更强。3.5训练数据集的影响用于评佔训练数据集带來的彩响，应包括下列内容：a）数据集均衡件：拆数据集包

9、含的各种灸别的样木数运一致梶度和数据集样木分布的偏差用度:b）数据集规模：通常用样本数量來衡量，大规模数据集通常具有更好的样A多样件；c）数据集标注质竜：拆数据集标注信息是否完备并准确无误：d）数据集污染恬况：指数据集彼人为添加的恶意数据的程度。3.6对抗性样本的影响川于评估对抗性样木对深度学习算法的影响，应包括卜-列内容：a）白盒方式生成的样本：指FI标模型己知的情况下，利用梯度下降等方式生成对抗性样本；b）黑盒方式I：成的样木：指“标模型未知的情况卜利川一个替代模型进行模理佔计，针对韩代模型使用白盒方式生成对抗性样本；c）指定I标丫成的样木：指利川已冇数据集屮的样木，通过拆定

10、样木的方式牛成对抗性样木；d）不指底冃标生成的样本：指利用己有数据集屮的样也通过不指足样本（或使用全部样本）的方式生成对抗性样木。3.7软硬件平台依赖的影响用于评佔运彳丁深度学习算法的软帔件平台对町靠件的影响，应包括卜列内容：a）深度学习框架差片：指不同的深度学习框架在其所丈持的编程语占、模型设讣、接口设讣、分布式性能等方面的差异对深度学习算法可靠性的影响：b）操作系统粉:指操作系统的用八可操作性、设备独也性、可移植性、系统女全性等方而的差异对深度学习算法可靠性的影响；c）硬件架构差界：指不同的硬件架构及其讣算能力、处理粘度等方而的差界对深度学习算法可孤性的影响。3.8环境数据

11、的影响用丁评估实际运行环境对算法的彩响，应包括下列内容：a）扰数据：指山于坏境的复杂性所产牛的IF预期的貞实数据，可能影响并法的町靠件：b）数据集分布迁移：算法通常假设训练数据样本和真实数拥样本服从相同分如，但在算法实际使用中，数据集分布町能发生迁穆，即貞-实数据集分布与训练数据集分布Z间存在差异性：c）野值数据：指些极端的观察值。在-组数据屮可能有少数数据9其余的数据差别比较大，也称为异常观察值。4评估流程4.1概述深度学习并法的可靠性评估流榨如图2所示。包括确定可靠性目标、选择评估指标、需求阶段的评估、设让阶段的评估、实现阶段的评估、运行阶段的评估及得出评估结论这七个活动。图2

12、深度学习算法的可靠性评估流程4.2确定可鍵性目标应运川以卜步骤确定深度学习第法的uJWU标:a）场景分析针对深度7习算法实现的功能发牛算法失效从而导致软件系统产牛个危险时，需要对英所处的运彳f坏境与运行模式进彳J：描述，既耍考虑软件系统任确使用的情况，也要考虑可预见的不疋确便用的情况。b）危险分析1）应通过多种途径开展冇关深度学习算法失效的危险识别；如头脑风暴、专家评审会、质量刃史记录和软件失效模式和影响分析等技术识别深度学习滋法发生兌法失效的危害；2）应识别危险的后果；如对环境或人员是否冇伤需、需要完成的仟务是占冇影响等：3）危险專件应宙运行场景和算法失效的和关组合确定；4）

13、应以能布深度*习算法所布的软件系统层山I观察到的输出來定义结果。c）危险严匝性等级评估针对每个算法失效，应基于确定的理由來预怙潜衣危险的严币性等级。危险严和性等级（见表1）表1危险严重性等级危险严巫性等级描述灾难级算法央效&致系统任务央败.或对安金、财产、环境和业务等适成灾难性谄响.严貶级算法失效导致系统仟务的主耍部分未充成，或对安个、财产、环境和业务等造成严重影响。一般级舁法失效导致系统充成任务冇轻度影响，或刘安全、財产、环境和业务等造成般縛响。轻微级算法失效Y敢系统完成任务存障碍但能够完成.或对安金、财产、坏境和业务等造戍轻微影响或无影响危险严匝性等级的评估可以展于对多个场景的综

14、合性考虑,同时危险严匝性等级的确定应展于场杲中有代表性的个体样本。d）确定可靠性目标根据算法失效的危险严币惟等级，建J深度学习算法的可靠性冃标（见表2） o其屮可靠性冃标从高到低依次分为A、B、C、D四个级别。表2深度学习算法的可靠性目标町靠性IJ标可靠性目标说明危险严重性等级对应说明A避免舜法失效造成灾难级危险衣难级B避免煮法失效造成严重级危险严重级C避免舜法失效造成股级危险一般级D避免算法失效造成轻微级危险轻微级4.3选择评估指标不同町靠性目标的深度学习算法在各个阶段中选取的町靠性评估指标不同,因此在面向算法的需求阶段、设讣阶段、实现阶段和运行阶段的可靠性评估过程LP应确疋9之对应的评估指标。具体选取规则见规范性附录A。4.4评估准则开展可靠性评估工作应遵守以下准则:a）各阶段评估通过的准则应同时满足如卜要求：1）依据规范件阳录A选取的某级指标下的二级指标金部通过：2）依据规范性附录A选取的某阶段的一级指标全部通过。b）深度学习算法可靠性评佔通过的准则应满足：血向算达需求阶段、设计阶段、实现阶段及运彳亍阶段四个阶段的可靠性评估均通过。4.5各阶段评估各阶段评佔工作应满足：a）面向深度学习算法的需求阶段、设计阶段、实现阶段、运行阶段四个阶段实施评估泊动：b）通过为前阶段的评佔是进入下阶段评估的前提条件Z :c）四个阶段的评估活动有完整的顺序关系；d）

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？