人工智能数据安全白皮书.docx

资源描述

人工智能数据安全白皮书.docx

《人工智能数据安全白皮书.docx》由会员分享，可在线阅读，更多相关《人工智能数据安全白皮书.docx（21页珍藏版）》请在冰豆网上搜索。

人工智能数据安全白皮书.docx

人工智能数据安全白皮书

前言

人工智能作为引领新一轮科技革命和产业变革的战略性技术，已成为世界主要国家谋求新一轮国家科技竞争主导权的关键领域。

随着政府人工智能战略布局的落地实施，全球人工智能发展正进入技术创新迭代持续加速和融合应用拓展深化的新阶段，深刻改变着国家政治、经济、社会、国防等领域的运行模式，对人类生产生活带来翻天覆地的变化。

数据作为驱动本轮人工智能浪潮全面兴起的三大基础要素之一，数据安全风险已成为影响人工智能安全发展的关键因素。

与此同时，人工智能应用也给数据安全带来严峻挑战,如何应对人工智能场景下的数据安全风险日渐成为国际人工智能治理的重要议题。

部分国家已率先探索人工智能数据安全风险的前瞻研究和主动预防，并积极推动人工智能在数据安全领域应用，力求实现人工智能与数据安全的良性互动发展。

本白皮书从人工智能数据安全的内涵出发，首次提出人工智能数据安全的体系架构，在系统梳理人工智能数据安全风险和安全应用情况的基础上，总结了国内外人工智能数据安全治理现状，研究提出了我国人工智能数据安全治理建议。

一、人工智能数据安全概述

（一）人工智能安全

当前，由人工智能引领的新一轮科技革命和产业变革方兴未艾，正在对经济发展、社会进步、国家治理等方面产生重大而深远的影响。

世界主要国家和全球产业界高度重视并积极布局，人工智能迎来新的发展浪潮。

然而，技术进步往往是一把“双刃剑”，本项目组在《人工智能安全白皮书（2018年）》中提出人工智能因其技术的局限性和应用的广泛性，给网络安全、数据安全、算法安全和信息安全带来风险，并对国家政治、军事和社会安全带来诸多挑战。

与此同时，人工智能因其突出的数据分析、知识提取、自主学习、智能决策等能力，可在网络防护、数据管理、信息审查、智能安防、金融风控、舆情监测等网络信息安全领域和社会公共安全领域有许多创新性应用。

为有效管控人工智能安全风险并积极促进人工智能技术在安全领域应用，可从法规政策、标准规范、技术手段、安全评估、人才队伍、可控生态等方面构建人工智能安全管理体系。

图1人工智能安全体系架构图

（二）人工智能数据安全内涵

1、人工智能与数据

人工智能与数据相辅相成、互促发展。

一方面，海量优质数据助力人工智能发展。

现阶段，以深度学习为代表的人工智能算法设计与优化需要以海量优质数据为驱动。

谷歌研究提出，随着训练数据数量级的增加，相同机器视觉算法模型的性能呈线性上升。

牛津大学国际发展研究中心将大数据质量和可用性作为评价政府人工智能准备指数的重要考察项1。

美国欧亚集团咨询公司将数据数量和质量视为衡量人工智能发展潜力的重要评价指标2。

另一方面，人工智能显著提升数据收集管理能力和数据挖掘利用水平。

人工智能在人们日常生活和企业生产经营中大规模应用，获取、收集和分析更多用户和企业数据，促进人工智能语义分析、内容理解、模式识别等方面技术能力进一步优化，更好地实现对收集的海量数据进行快速分析和分类管理。

而且，人工智能对看似毫不相关的海量数据进行深度挖掘分析，发现经济社会运行规律、用户心理和行为特征等新知识。

基于新知识，人工智能进一步提升对未来的预测和对现实问题的实时决策能力，提升数据资源利用价值，优化企业经营决策、创新经济发展方式、完善社会治理体系。

2、人工智能数据安全

数据安全是人工智能安全的关键。

数据成为本轮人工智能浪潮兴起发展的关键要素。

人工智能算法设计与优化需要以海量优质数据资

1《2019年政府人工智能准备指数》

2《中国拥抱AI》

源为基础。

数据质量和安全直接影响人工智能系统算法模型的准确性，进而威胁人工智能应用安全。

与此同时，人工智能显著提升数据收集管理能力和数据价值挖掘利用水平。

人工智能这些能力一旦被不当或恶意利用，不仅威胁个人隐私和企业资产安全，甚至影响社会稳定和国家安全。

而且，人工智能、大数据与实体经济不断深度融合，成为推动数字经济和智能社会发展的关键要素。

人工智能大规模应用间接促使数据权属问题、数据违规跨境等数据治理挑战进一步加剧。

人工智能为数据安全治理带来新机遇。

人工智能驱动数据安全治理加速向自动化、智能化、高效化、精准化方向演进。

人工智能自动学习和自主决策能力可有效缓解现有数据安全技术手段对专业人员分析判断的高度依赖，实现对动态变化数据安全风险的自动和智能监测防护。

人工智能卓越的海量数据处理能力可有效弥补现有数据安全技术手段数据处理能力不足的缺陷，实现对大规模数据资产和数据活动的高效、精准管理和保护。

人工智能赋能数据安全治理，助力数据大规模安全应用，将有力推动经济社会数字化转型升级。

基于以上分析，项目组认为，人工智能数据安全内涵包含：

一是应对人工智能自身面临和应用导致及加剧的数据安全风险与治理挑战；二是促进人工智能在数据安全领域中的应用；三是构建人工智能数据安全治理体系，保障人工智能安全稳步发展。

（三）人工智能数据安全体系架构

训练数据污染

运行数据异常

数据逆向还原

开源框架风险

数据过度采集

数据偏见歧视

数据资源滥用

数据智能窃取

数据深度伪造

数据权属问题

数据违规跨境

国家

伦理

法律

监管

标准

技术

人才

战略

规范

法规

政策

规范

手段

队伍

图2人工智能数据安全体系架构图

基于对人工智能数据安全内涵分析，项目组提出覆盖人工智能数据安全风险、人工智能数据安全应用、人工智能数据安全治理三个维度的人工智能数据安全体系架构。

其中，人工智能数据安全风险是人工智能数据安全治理的起因,包含人工智能自身面临的数据安全风险，人工智能应用导致的数据安全风险，人工智能应用加剧的数据治理挑战。

本白皮书重点分析人工智能相关特有数据安全风险与治理挑战。

人工智能数据安全应用是人工智能技术用于数据安全治理,包含人工智能技术在精准化数据安全策略制定、自动化数据资产安全管理、智能化数据活动安全保护以及高效化数据安全事件管理方面的应用。

人工智能数据安全治理是应对人工智能数据安全风险和促进人工智

能数据安全应用的体系化方案,包含国家战略、伦理规范、法律法规、监管政策、标准规范、技术手段、人才队伍等方面。

二、人工智能数据安全风险

（一）人工智能自身面临的数据安全风险

训练数据污染可导致人工智能决策错误。

数据投毒通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性，进而导致训练的算法模型决策出现偏差。

数据投毒主要有两种攻击方式：

一种是采用模型偏斜方式，主要攻击目标是训练数据样本，通过污染训练数据达到改变分类器分类边界的目的。

例如，模型偏斜污染训练数据可欺骗分类器将特定的恶意二进制文件标记为良性。

另外一种是采用反馈误导方式，主要攻击目标是人工智能的学习模型本身，利用模型的用户反馈机制发起攻击，直接向模型“注入”伪装的数据或信息，误导人工智能做出错误判断。

随着人工智能与实体经济深度融合，医疗、交通、金融等行业训练数据集建设需求迫切，这就为恶意、伪造数据的注入提供了机会，使得从训练样本环节发动网络攻击成为最直接有效的方法，潜在危害巨大。

在自动驾驶领域，数据投毒可导致车辆违反交通规则甚至造成交通事故；在军事领域，通过信息伪装的方式可诱导自主性武器启动或攻击，从而带来毁灭性风险。

运行阶段的数据异常可导致智能系统运行错误。

一是人为构造对抗样本攻击，导致智能系统产生错误的决策结果。

人工智能算法模型主要反映了数据关联性和特征统计，而没有真正获取数据因果关系。

针对算法模型这一缺陷，对抗样本通过对数据输入样例添加难以察觉

的扰动，使算法模型以高置信度给出一个错误的输出。

对抗样本攻击可实现逃避检测，例如在生物特征识别应用场景中，对抗样本攻击可欺骗基于人工智能技术的身份鉴别、活体检测系统。

2019年4月，比利时鲁汶大学研究人员发现，借助一张设计的打印图案就可以避开人工智能视频监控系统。

二是动态环境的非常规输入可导致智能系统运行错误。

人工智能决策严重依赖训练数据特征分布性和完备性，人工标记数据覆盖不全、训练数据与测试数据同质化等原因常常导致人工智能算法泛化能力差，智能系统在动态环境实际使用中决策可能出现错误。

特斯拉汽车自动驾驶系统曾因无法识别蓝天背景下的白色货车，致使发生致命交通事故。

模型窃取攻击可对算法模型的数据进行逆向还原。

人工智能算法模型的训练过程依托训练数据，并且在运行过程中会进一步采集数据进行模型优化，相关数据可能涉及到隐私或敏感信息，所以算法模型的机密性非常重要。

但是，算法模型在部署应用中需要将公共访问接口发布给用户使用，攻击者可通过公共访问接口对算法模型进行黑盒访问，依据输入信息和输出信息映射关系，在没有算法模型任何先验知识（训练数据、模型参数等）情况下，构造出与目标模型相似度非常高的模型，实现对算法模型的窃取，进而还原出模型训练和运行过程中的数据以及相关隐私信息。

新加坡国立大学RezaShokri等针对机器学习模型的隐私泄露问题,提出了一种成员推理攻击，在对模型参数和结构知之甚少的情况下，可以推断某一样本是否在模型的训练

数据集中3。

开源学习框架存在安全风险，可导致人工智能系统数据泄露。

人工智能开源学习框架实现了基础算法的模块化封装，可以让应用开发人员无需关注底层实现细节，大大提高了人工智能应用的开发效率。

谷歌、微软、亚马逊、脸书等企业都发布了自己的人工智能学习框架，在全球得到广泛应用。

但是，人工智能开源学习框架集成了大量的第三方软件包和依赖库资源，相关组件缺乏严格的测试管理和安全认证，存在未知安全漏洞。

近年来，360、腾讯等企业安全团队曾多次发现

TensorFlow、Caffe、Torch等深度学习框架及其依赖库的安全漏洞，攻击者可利用相关漏洞篡改或窃取人工智能系统数据。

（二）人工智能应用导致的数据安全风险

人工智能应用可导致个人数据过度采集，加剧隐私泄露风险。

随着各类智能设备（如智能手环、智能音箱）和智能系统（如生物特征识别系统、智能医疗系统）的应用普及，人工智能设备和系统对个人信息采集更加直接与全面。

相较于互联网对用户上网习惯、消费记录等信息采集，人工智能应用可采集用户人脸、指纹、声纹、虹膜、心跳、基因等具有强个人属性的生物特征信息。

这些信息具有唯一性和不变性，一旦被泄露或者滥用会对公民权益将造成严重影响。

2018年8月，腾讯安全团队发现亚马逊智能音箱后门，可实现远程窃听并录音。

2019年2月，我国人脸识别公司深网视界曝出数据泄露事件，超过250万人数据、680万条记录被泄露，其中包括身份证信息、人

脸识别图像及GPS位置记录等。

鉴于对个人隐私获取的担忧，智能安防的应用在欧美国家存在较大争议，2019年7月，继旧金山之后，萨默维尔市成为美国第二个禁止人脸识别的城市。

人工智能放大数据偏见歧视影响，威胁社会公平正义。

当前，人工智能技术已应用于智慧政务、智慧金融等领域，成为社会治理的重要辅助手段。

但是，人工智能训练数据在分布性上往往存在偏差，隐藏特定的社会价值倾向，甚至是社会偏见。

例如，海量互联网数据更多体现我国经济发达地区、青壮年网民特征，而对边远地区以及老幼贫弱人群的特征无法有效覆盖。

人工智能系统如果受到训练数据潜在的社会偏见或歧视影响，其决策结果势必威胁人类社会的公平正义。

在社会招聘领域，美国Kronos公司的人工智能雇佣辅助系统让少数族裔、女性或者有心理疾病史的人更难找到工作；在金融征信领域，科技金融公司Zest的人工智能信用评估平台ZAML，采集分析用户网络行为来判定用户的信用值，曾经错误判定不能熟练使用英语的移民群体存在信用问题。

人工智能技术的数据深度挖掘分析加剧数据资源滥用，加大社会治理和国家安全挑战。

通过获取用户的地理位置

展开阅读全文