人工智能深度学习算法评估规范.docx

资源描述

人工智能深度学习算法评估规范.docx

《人工智能深度学习算法评估规范.docx》由会员分享，可在线阅读，更多相关《人工智能深度学习算法评估规范.docx（42页珍藏版）》请在冰豆网上搜索。

人工智能深度学习算法评估规范.docx

人工智能深度学习算法评估规范

ICS35.080

L77

AIOSS

中国人工智能开源软件发展联盟标准

AIOSS—01—2018

人工智能深度学习算法评估规范

Artificialintelligence—Assessmentspecificationfordeeplearningalgorithms

2018-07-01发布

2018-07-01实施

前言Ill

引言IV

1范围1

2术语和定义1

3评佔指标体系2

3.1评估指标体系表2

3.2算法功能实现的正确性4

3.3代码实现的止确性4

3.4标函数的彩响4

3.5训练数据集的彭响4

3.6对抗性样木的影响4

3.7软硬件平台依赖的影响5

3.8环境数据的影响5

4评佔流程5

4.1概述5

4.2确定可靠性目标6

4.3选择评估指标7

4.4评佔准则7

4.5各阶段评估8

4.6评估结论8

5需求阶段的评估8

5.1概述8

5.2前提条件8

5.3输入8

5.4关键活动9

5.5输出9

6设计阶段的评估9

6.1概述9

6.2前提条件9

6.3输入9

6.4关键活动9

6.5输岀10

1实现阶段的评估10

7.2前提条件10

7.3输入10

7.1关键活动10

7.5输出11

8运行阶段的评估11

8.1概述11

8.2前提条件11

8.3输入11

8.4关键活动11

8.5输出12

附录A（规范性附录）深度学习算法可靠性评估指标选取规则13

附录B（资料性附录）深度学习粥法可靠性评估实施案例15

参考文献25

人工智能深度学习算法评估规范

1范围

本标准提出r人丄智能深度学习算法的评估指标体系、评估流程，以及需求阶段评估、设计阶段评估、实规阶段评估和运行阶段评估等内容。

本标准适用r指导深度学习算法开发方、用户方以及第三方等相关组织对深度学习算法的可靠性开展评佔工作。

2术语和定义

卜列术语和定义适用于本文件。

2.1

可靠性ldiability

在规定的条件I、•和规定的时间内，深度学习算法止确完成预期功能，且不引超系统失效或异常的能力。

2.2

可靠性评估reliabilit>,assessment

确定现有深度学习算法血可靠性所达到的预期水平的过程。

2.3

算法失效algorithmfailure

算法丧失完成规定功能的能力的事件。

2.4

危险hazard

深度学习算法发生算法失效，从而导致机器学习系统岀现的一个非预期或有害的行为，或者提交给It他与机器学习系统相关联的系统发生错误。

2.5

危险严重性hazardseveiihT

杲种危险可能引起的事故丿加的严巫程度。

2.6

查准率precision

对于给定的数据集，预测为正例的样木中貞例样木的比率。

2.7

查全率recall

対丁给定的数据集，预测为貞M例的样本占所右实际为疋例样本的比率。

2.8

准确率accuracy

对于给定的数据集，正确分类的样木数占总样木数的比率。

2.9

响应时间responsetime

在给定的软硬件环境卜，深度学习私法対给定的数据进行运往并茯得结果所需要的时间。

2.10

对抗性样本adversarialexamples

在数据集屮通过故彥添加细微的T•扰所形成输入样木，受T扰Z后的输入导致模型以高曽信度给出错谋的输出。

2.11

置信度coulldence

总体参数值落在样木统计值某•区内的概率。

3评估指标体系

3.1评估指标体系表

垄丁深度学习算法可靠性的内外部影响考虑，结介用八实际的应用场景，本标准给出了-会深度学习算法的可靠性评估指标体系。

本指标体系如图1所示,包含7个•级指标和20个二级指标。

在实施评估过程中，应根据可靠性H标选取相应指标。

篦法功能实现的

正确性

任务指标

代码规范性

代码实现的正确性

代码漏洞

优化目标数员

深度学习算法的可微性指标体系

数据集标注质

拟合程度

数据集均衡性

数据集规模

数据隼污染情

况

白盒方式生成

的祥本

黑盒方式生成

的样本

对抗性样本的影响

指定目标方式

生成的样本

不指定目标方式生成的样木

深度学习框架

差异

软砸件平台依赖的影晦

録作系统差异

干扰数据

环境敛据的彩咆

数18集分布迁

移

野佰数屈

图1深度学习算法可靠性评估指标体系

3.2算法功能实现的正确性

川于评估深度学习算法实现的功能是占满足要求，应包括但不限于卜列内容：

a）任务指标：

用户可以根据实际的应用场景选择任务相关的基本指标，用丁评估算法完成功能的能力：

示例：

分类任务中的査旌率（.见2.6）、査全率（见2.7）、准确率（见2.8）等:

语音识别任务中的词错误率、句错误率等：

1丨标检测任务屮的半均正确率等：

算法在O'l'tft误偏差程度带來的谄响等。

b）响应时间（见2.9）o

3.3代码实现的正确性

用于评估代码实现功能的正确性，应包括下列内容：

a）代码规范性：

代码的声明定义、版而书写、指针使用、分支控制、跳转控制、运算处理、函数调用、语句使用、循坏控制、类型转换、初始化、比较判断和变备使用等是占符介相关标准或规范中的编程耍求；

b）代码漏洞：

指代码屮是否存在漏洞。

示例：

栈溢出漏洞、堆栈溢出漏洞、整数溢出、数纽越界、缓冲区溢出等。

3.4目标函数的影响

用于评估计并预测结杲与貞•实结果Z间的俣差，应包括卜列内容：

a）优化门标数量：

包括优化R标不足或过多。

优化冃标过少容易造成模型的适应性过强，优化冃标过多容易造成模型收敛闲难：

b）拟介程度：

包括过拟合或欠拟介。

过拟介是指模型对训练数据过度适应，通常山丁模型过度地学习训练数据小的细节和噪声，从浙导致模型木训练数据卜•表现很好，仙在测试数据卜•表规很并，也即模型的泛化性能变并。

欠拟介是指模型对训练数据不能很好地拟介，通常山丁模型过于简单造成，需嘤调整算法使得模型表达能力更强。

3.5训练数据集的影响

用于评佔训练数据集带來的彩响，应包括下列内容：

a）数据集均衡件：

拆数据集包含的各种灸别的样木数运一致梶度和数据集样木分布的偏差用度:

b）数据集规模：

通常用样本数量來衡量，大规模数据集通常具有更好的样A多样件；

c）数据集标注质竜：

拆数据集标注信息是否完备并准确无误：

d）数据集污染恬况：

指数据集彼人为添加的恶意数据的程度。

3.6对抗性样本的影响

川于评估对抗性样木对深度学习算法的影响，应包括卜-列内容：

a）白盒方式生成的样本：

指FI标模型己知的情况下，利用梯度下降等方式生成对抗性样本；

b）黑盒方式‘I：

成的样木：

指“标模型未知的情况卜利川一个替代模型进行模理佔计，针对韩代模型使用白盒方式生成对抗性样本；

c）指定I」标丫成的样木：

指利川已冇数据集屮的样木，通过拆定样木的方式牛•成对抗性样木；

d）不指底冃标生成的样本：

指利用己有数据集屮的样也通过不指足样本（或使用全部样本）的方式生成对抗性样木。

3.7软硬件平台依赖的影响

用于评佔运彳丁深度学习算法的软帔件平台对町靠件的影响，应包括卜列内容：

a）深度学习框架差片：

指不同的深度学习框架在其所丈持的编程语占、模型设讣、接口设讣、分布式性能等方面的差异对深度学习算法可靠性的影响：

b）操作系统粉:

指操作系统的用八可操作性、设备独也性、可移植性、系统女全性等方而的差异对深度学习算法可靠性的影响；

c）硬件架构差界：

指不同的硬件架构及其讣算能力、处理粘度等方而的差界对深度学习算法可孤性的影响。

3.8环境数据的影响

用丁评估实际运行环境对算法的彩响，应包括下列内容：

a）「•扰数据：

指山于坏境的复杂性所产牛•的IF•预期的貞实数据，可能影响并法的町靠件：

b）数据集分布迁移：

算法通常假设训练数据样本和真实数拥样本服从相同分如，但在算法实际使用中，数据集分布町能发生迁穆，即貞-实数据集分布与训练数据集分布Z间存在差异性：

c）野值数据：

指•些极端的观察值。

在-组数据屮可能有少数数据9其余的数据差别比较大，也称为异常观察值。

4评估流程

4.1概述

深度学习并法的可靠性评估流榨如图2所示。

包括确定可靠性目标、选择评估指标、需求阶段的评估、设让阶段的评估、实现阶段的评估、运行阶段的评估及得出评估结论这七个活动。

图2深度学习算法的可靠性评估流程

4.2确定可鍵性目标

应运川以卜步骤确定深度学习第法的uJ'WU标:

a）场景分析

针对深度7习算法实现的功能发牛•算法失效从而导致软件系统产牛个危险时，需要对英所处的运彳f坏境与运行模式进彳J：

描述，既耍考虑软件系统任确使用的情况，也要考虑可预见的不疋确便用的情况。

b）危险分析

1）应通过多种途径开展冇关深度学习算法失效的危险识别；如头脑风暴、专家评审会、质量刃史记录和软件失效模式和影响分析等技术识别深度学习滋法发生兌法失效的危害；

2）应识别危险的后果；如对环境或人员是否冇伤需、需要完成的仟务是占冇影响等：

3）危险專件应宙运行场景和算法失效的和关组合确定；

4）应以能布深度*习算法所布的软件系统层山I观察到的输出來定义结果。

c）危险严匝性等级评估

针对每•个算法失效，应基于确定的理由來预怙潜衣危险的严币性等级。

危险严和性等级（见表1）°

表1危险严重性等级

危险严巫性等级

描述

灾难级

算法央效&致系统任务央败.或对安金、财产、环境和业务等适成灾难性谄响.

严貶级

算法失效导致系统仟务的主耍部分未充成，或对安个、财产、环境和业务等造成严重影响。

一般级

舁法失效导致系统充成任务冇轻度影响，或刘安全、財产、环境和业务等造成•般縛响。

轻微级

算法失效Y敢系统完成任务存障碍但能够完成.或对安金、财产、坏境和业务等造戍轻微影响或无影响°

危险严匝性等级的评估可以展于对多个场景的综合性考虑,同时危险严匝性等级的确定应展于场杲中有代表性的个体样本。

d）确定可靠性目标

根据算法失效的危险严币惟等级，建J•深度学习算法的可靠性冃标（见表2）o其屮可靠性冃标从高到低依次分为A、B、C、D四个级别。

表2深度学习算法的可靠性目标

町靠性IJ标

可靠性目标说明

危险严重性等级对应说明

避免舜法失效造成灾难级危险

衣难级

避免煮法失效造成严重级危险

严重级

避免舜法失效造成股级危险

一•般级

避免算法失效造成轻微级危险

轻微级

4.3选择评估指标

不同町靠性目标的深度学习算法在各个阶段中选取的町靠性评估指标不同,因此在面向算法的需求阶段、设讣阶段、实现阶段和运行阶段的可靠性评估过程LP应确疋9之对应的评估指标。

具体选取规则见规范性附录A。

4.4评估准则

开展可靠性评估工作应遵守以下准则:

a）各阶段评估通过的准则应同时满足如卜要求：

1）依据规范件阳录A选取的某■级指标下的二级指标金部通过：

2）依据规范性附录A选取的某阶段的一级指标全部通过。

b）深度学习算法可靠性评佔通过的准则应满足：

血向算达需求阶段、设计阶段、实现阶段及运彳亍阶段四个阶段的可靠性评估均通过。

4.5各阶段评估

各阶段评佔工作应满足：

a）面向深度学习算法的需求阶段、设计阶段、实现阶段、运行阶段四个阶段实施评估泊动：

b）通过为前阶段的评佔是进入下•阶段评估的前提条件Z•:

c）四个阶段的评估活动有完整的顺序关系；

d）

展开阅读全文