人工智能数据安全分析报告Word格式文档下载.docx
《人工智能数据安全分析报告Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《人工智能数据安全分析报告Word格式文档下载.docx(21页珍藏版)》请在冰豆网上搜索。
现阶段,以深度学习为代表的人工智能算法设计与优化需要以海量优质数据为驱动。
谷歌研究提出,随着训练数据数量级的增加,相同机器视觉算法模型的性能呈线性上升。
牛津大学国际发展研究中心将大数据质量和可用性作为评价政府人工智能准备指数的重要考察项1。
美国欧亚集团咨询公司将数据数量和质量视为衡量人工智能发展潜力的重要评价指标2。
另一方面,人工智能显著提升数据收集管理能力和数据挖掘利用水平。
人工智能在人们日常生活和企业生产经营中大规模应用,获取、收集和分析更多用户和企业数据,促进人工智能语义分析、内容理解、模式识别等方面技术能力进一步优化,更好地实现对收集的海量数据进行快速分析和分类管理。
而且,人工智能对看似毫不相关的海量数据进行深度挖掘分析,发现经济社会运行规律、用户心理和行为特征等新知识。
基于新知识,人工智能进一步提升对未来的预测和对现实问题的实时决策能力,提升数据资源利用价值,优化企业经营决策、创新经济发展方式、完善社会治理体系。
2、人工智能数据安全
数据安全是人工智能安全的关键。
数据成为本轮人工智能浪潮兴起发展的关键要素。
人工智能算法设计与优化需要以海量优质数据资
1《2019年政府人工智能准备指数》
2《中国拥抱AI》
源为基础。
数据质量和安全直接影响人工智能系统算法模型的准确性,进而威胁人工智能应用安全。
与此同时,人工智能显著提升数据收集管理能力和数据价值挖掘利用水平。
人工智能这些能力一旦被不当或恶意利用,不仅威胁个人隐私和企业资产安全,甚至影响社会稳定和国家安全。
而且,人工智能、大数据与实体经济不断深度融合,成为推动数字经济和智能社会发展的关键要素。
人工智能大规模应用间接促使数据权属问题、数据违规跨境等数据治理挑战进一步加剧。
人工智能为数据安全治理带来新机遇。
人工智能驱动数据安全治理加速向自动化、智能化、高效化、精准化方向演进。
人工智能自动学习和自主决策能力可有效缓解现有数据安全技术手段对专业人员分析判断的高度依赖,实现对动态变化数据安全风险的自动和智能监测防护。
人工智能卓越的海量数据处理能力可有效弥补现有数据安全技术手段数据处理能力不足的缺陷,实现对大规模数据资产和数据活动的高效、精准管理和保护。
人工智能赋能数据安全治理,助力数据大规模安全应用,将有力推动经济社会数字化转型升级。
基于以上分析,项目组认为,人工智能数据安全内涵包含:
一是应对人工智能自身面临和应用导致及加剧的数据安全风险与治理挑战;
二是促进人工智能在数据安全领域中的应用;
三是构建人工智能数据安全治理体系,保障人工智能安全稳步发展。
(三)人工智能数据安全体系架构
人工智能数据安全风险
精准化数据安全策略制定
训练数据污染
运行数据异常
数据逆向还原
开源框架风险
面临的数据安全风险
导致的数据安全风险
智能化数据活动安全保护
数据过度采集
数据偏见歧视
数据资源滥用
数据智能窃取
数据深度伪造
高效化数据安全事件管理
加剧的数据治理挑战
数据权属问题
数据违规跨境
人工智能数据安全应用
人工智能数据安全治理
国家
伦理
法律
监管
标准
技术
人才
战略
规范
法规
政策
手段
队伍
基于对人工智能数据安全内涵分析,项目组提出覆盖人工智能数据安全风险、人工智能数据安全应用、人工智能数据安全治理三个维度的人工智能数据安全体系架构。
其中,人工智能数据安全风险是人工智能数据安全治理的起因,包含人工智能自身面临的数据安全风险,人工智能应用导致的数据安全风险,人工智能应用加剧的数据治理挑战。
本白皮书重点分析人工智能相关特有数据安全风险与治理挑战。
人工智能数据安全应用是人工智能技术用于数据安全治理,包含人工智能技术在精准化数据安全策略制定、自动化数据资产安全管理、智能化数据活动安全保护以及高效化数据安全事件管理方面的应用。
人工智能数据安全治理是应对人工智能数据安全风险和促进人工智
能数据安全应用的体系化方案,包含国家战略、伦理规范、法律法规、监管政策、标准规范、技术手段、人才队伍等方面。
二、人工智能数据安全风险
(一)人工智能自身面临的数据安全风险
练数据污染可导致人工智能决策错误。
数据投毒通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性,进而导致训练的算法模型决策出现偏差。
数据投毒主要有两种攻击方式:
一种是采用模型偏斜方式,主要攻击目标是训练数据样本,通过污染训练数据达到改变分类器分类边界的目的。
例如,模型偏斜污染训练数据可欺骗分类器将特定的恶意二进制文件标记为良性。
另外一种是采用反馈误导方式,主要攻击目标是人工智能的学习模型本身,利用模型的用户反馈机制发起攻击,直接向模型“注入”伪装的数据或信息,误导人工智能做出错误判断。
随着人工智能与实体经济深度融合,医疗、交通、金融等行业训练数据集建设需求迫切,这就为恶意、伪造数据的注入提供了机会,使得从训练样本环节发动网络攻击成为最直接有效的方法,潜在危害巨大。
在自动驾驶领域,数据投毒可导致车辆违反交通规则甚至造成交通事故;
在军事领域,通过信息伪装的方式可诱导自主性武器启动或攻击,从而带来毁灭性风险。
运行阶段的数据异常可导致智能系统运行错误。
一是人为构造对抗样本攻击,导致智能系统产生错误的决策结果。
人工智能算法模型主要反映了数据关联性和特征统计,而没有真正获取数据因果关系。
针对算法模型这一缺陷,对抗样本通过对数据输入样例添加难以察觉
的扰动,使算法模型以高置信度给出一个错误的输出。
对抗样本攻击可实现逃避检测,例如在生物特征识别应用场景中,对抗样本攻击可欺骗基于人工智能技术的身份鉴别、活体检测系统。
2019年4月,比利时鲁汶大学研究人员发现,借助一张设计的打印图案就可以避开人工智能视频监控系统。
二是动态环境的非常规输入可导致智能系统运行错误。
人工智能决策严重依赖训练数据特征分布性和完备性,人工标记数据覆盖不全、训练数据与测试数据同质化等原因常常导致人工智能算法泛化能力差,智能系统在动态环境实际使用中决策可能出现错误。
特斯拉汽车自动驾驶系统曾因无法识别蓝天背景下的白色货车,致使发生致命交通事故。
模型窃取攻击可对算法模型的数据进行逆向还原。
人工智能算法模型的训练过程依托训练数据,并且在运行过程中会进一步采集数据进行模型优化,相关数据可能涉及到隐私或敏感信息,所以算法模型的机密性非常重要。
但是,算法模型在部署应用中需要将公共访问接口发布给用户使用,攻击者可通过公共访问接口对算法模型进行黑盒访问,依据输入信息和输出信息映射关系,在没有算法模型任何先验知识(训练数据、模型参数等)情况下,构造出与目标模型相似度非常高的模型,实现对算法模型的窃取,进而还原出模型训练和运行过程中的数据以及相关隐私信息。
新加坡国立大学RezaShokri等针对机器学习模型的隐私泄露问题,提出了一种成员推理攻击,在对模型参数和结构知之甚少的情况下,可以推断某一样本是否在模型的训练
数据集中3。
开源学习框架存在安全风险,可导致人工智能系统数据泄露。
人工智能开源学习框架实现了基础算法的模块化封装,可以让应用开发人员无需关注底层实现细节,大大提高了人工智能应用的开发效率。
谷歌、微软、亚马逊、脸书等企业都发布了自己的人工智能学习框架,在全球得到广泛应用。
但是,人工智能开源学习框架集成了大量的第三方软件包和依赖库资源,相关组件缺乏严格的测试管理和安全认证,存在未知安全漏洞。
近年来,360、腾讯等企业安全团队曾多次发现
TensorFlow、Caffe、Torch等深度学习框架及其依赖库的安全漏洞,攻击者可利用相关漏洞篡改或窃取人工智能系统数据。
(二)人工智能应用导致的数据安全风险
人工智能应用可导致个人数据过度采集,加剧隐私泄露风险。
随着各类智能设备(如智能手环、智能音箱)和智能系统(如生物特征识别系统、智能医疗系统)的应用普及,人工智能设备和系统对个人信息采集更加直接与全面。
相较于互联网对用户上网习惯、消费记录等信息采集,人工智能应用可采集用户人脸、指纹、声纹、虹膜、心跳、基因等具有强个人属性的生物特征信息。
这些信息具有唯一性和不变性,一旦被泄露或者滥用会对公民权益将造成严重影响。
2018年8月,腾讯安全团队发现亚马逊智能音箱后门,可实现远程窃听并录音。
2019年2月,我国人脸识别公司深网视界曝出数据泄露事件,超过250万人数据、680万条记录被泄露,其中包括身份证信息、人
3RezaShokri,MarcoStronati,CongzhengSong,etabershipInferenceAttacksAgainstMachineLearningModels
脸识别图像及GPS位置记录等。
鉴于对个人隐私获取的担忧,智能安防的应用在欧美国家存在较大争议,2019年7月,继旧金山之后,萨默维尔市成为美国第二个禁止人脸识别的城市。
人工智能放大数据偏见歧视影响,威胁社会公平正义。
当前,人工智能技术已应用于智慧政务、智慧金融等领域,成为社会治理的重要辅助手段。
但是,人工智能训练数据在分布性上往往存在偏差,隐藏特定的社会价值倾向,甚至是社会偏见。
例如,海量互联网数据更多体现我国经济发达地区、青壮年网民特征,而对边远地区以及老幼贫弱人群的特征无法有效覆盖。
人工智能系统如果受到训练数据潜在的社会偏见或歧视影响,其决策结果势必威胁人类社会的公平正义。
在社会招聘领域,美国Kronos公司的人工智能雇佣辅助系统让少数族裔、女性或者有心理疾病史的人更难找到工作;
在金融征信领域,科技金融公司Zest的人工智能信用评估平台ZAML,采集分析用户网络行为来判定用户的信用值,曾经错误判定不能熟练使用英语的移民群体存在信用问题。
人工智能技术的数据深度挖掘分析加剧数据资源滥用,加大社会治理和国家安全挑战。
通过获取用户的地理位置、消费偏好、行为模式等碎片化数据,再利用人工智能技术进行深度挖掘分析,能够预测用户的喜好和习惯,进而对用户进行分类,可实现更加精准的信息推送。
基于数据分析的智能推荐可带来用户便利、企业盈利和社会福利,但是也加剧了数据滥用问题。
一是在社会消费领域,可带来差异化定价。
“大数据杀熟”实现对部分消费者的过高定价,甚至进行恶意欺
诈或误导性宣传,导致消费者的知情权、公平交易权等权利受损。
2018年,我国滴滴、携程等均爆出类似事件,根据用户特征实现对不同客户的区别定价,社会负面影响巨大。
二是在信息传播领域,可引发“信息茧房”效应。
人们更多接收满足自己偏好的信息和内容,限于对世界的片面认知,导致社会不同群体的认知鸿沟拉大,个人意志的自由选择受到影响,甚至威胁到社会稳定和国家安全。
2018年曝光的
“Facebook数据泄露”事件中,美国剑桥分析公司利用广告定向、行为分析等智能算法,推送虚假政治广告,进而形成对选民意识形态和政治观点的干预诱导,影响美国大选、英国脱欧等政治事件走向。
基于人工智能技术的数据分析与滥用,给数字社会治理和国家安全等带来严峻安全挑战。
人工智能技术可提升网络攻击的智能化水平,进而实施数据智能窃取。
一是可用来自动锁定目标,进行数据勒索攻击。
人工智能技术可通过对特征库学习自动查找系统漏洞和识别关键目标,提高攻击效率。
英国网络安全公司Darktrace分析显示,集成人工智能技术的勒索软件可自动瞄准更具吸引力的目标,劫持工业设备、医疗仪器等相关运行数据勒索赎金,受害者为使系统和设备重新上线运行而被迫支付赎金。
二是自动生成大量虚假威胁情报,对分析系统实施攻击。
人工智能通过使用机器学习、数据挖掘和自然语言处理等技术处理安全大数据,能够辅助自动化地生产威胁情报,攻击者也可利用相关技术生成大量错误情报以混淆判断。
美国McAfee公司指出,“提高噪声基底(noisefloor)”技术可对特定环境进行情报轰炸,给威胁情报
分析系统的判断模型制造大量的主动错误信息,造成威胁情报过载,迫使系统重新校准以过滤掉假警报,通过这一过程,攻击者可了解防御逻辑并伺机发起真正的攻击,进而窃取系统数据。
三是自动识别图像验证码,窃取系统数据。
图像验证码是一种防止机器人账户滥用网站或服务的常用验证措施,通过解决视觉难题来验证人类用户,以有效区分拦截恶意程序,保护系统数据安全。
但是,人工智能技术已实现对验证码的有效破解。
美国Vicarious公司开发的基于概率生成模型的验证码识别算法,在标准的reCAPTCHA测试中,可成功解开三分之二的验证问题4。
2017年,我国浙江省破获了全国第一例人工智能犯罪,案件中黑客利用人工智能识别图片验证码的正确率高达95%以上,在此平台被打掉前的3个月已经提供验证码识别服务259亿次。
基于人工智能技术的数据深度伪造将威胁网络安全、社会安全和国家安全。
人工智能可利用收集的训练数据进行特征学习,生成逼真的虚假信息内容。
特别是近年来基于生成对抗网络(GAN)的
“DeepFakes”(深度伪造)技术应用,使得“换脸”虚假视频的制作门槛不断降低,大量深度伪造数据内容开始涌现。
我国也出现了徐锦江版“海王”,杨幂版“黄蓉”等逼真虚假视频。
目前,深度伪造2.0
概念已被提出,相比于之前的换脸,深度伪造2.0可模仿人的行为举止、声音和习惯动作,更难以区分真假。
2019年6月,Facebook一段扎克伯格的假视频传播迅速,视频里的人从长相、声音、穿衣、手势以及说话时的动作神情都与真人无异。
深度伪造数据内容的大量生
4DileepGeorge*,WolfgangLehrach,etal.Agenerativevisiontaefficiencyandbreakstext-basedCAPTCHAs
成和传播,将给网络安全、社会安全和国家安全带来严重风险。
一是降低生物特征识别技术可信度,提升网络攻击能力。
基于图像特征的人脸识别技术和基于声纹的语音识别技术均属于典型的生物特征识别技术,在非接触式身份认证、大流量或自动化安全检测等领域已开展规模化应用。
但目前识别伪造音视频存在技术难度,降低了生物特征识别技术的可信度,给网络攻击提供了新手段。
二是造成人际间的信任危机,威胁伦理和社会安全。
随着换脸换声技术的不断进化,伪造图片和音视频的成本会不断降低,各种恶意伪造的图片和音视频信息将大量涌现,会侵犯公民肖像权等个人权益,甚至用于敲诈勒索、伪造罪证等不法活动,从而造成社会信任危机,对伦理道德和社会稳定构成严重威胁。
三是通过制作虚假新闻影响政治舆论,进而威胁国家安全。
国内外恶意势力可利用基于人工智能的换脸换声技术伪造政治领袖和公众人物的新闻视频,普通民众根本无法辨别真假,此类虚假视频内容的大量扩散与传播,可对社会舆论生态造成恶劣影响,引发民众骚乱甚至国内动乱,威胁国家安全。
2019年6月,由于担心深度伪造对2020年美国大选的灾难性影响,美国众议院已经开始考虑修订现行法案,在立法层面打击相关行为。
(三)人工智能应用加剧的数据治理挑战
人工智能提升数据资源价值,数据权属问题更为突出。
一是个人层面,数据权属体现为公民的数据权利,个人隐私保护面临挑战。
用户个人隐私信息含金量高,是人工智能技术与产业发展的重要驱动。
相关机构在利用用户数据追求自身利益时往往忽视用户个人隐私权
益。
近年来,个人隐私泄露重大事件连续发生,顺丰快递、华住酒店、万豪酒店等均出现数亿用户信息泄露事件。
另外,互联网用户在使用社交平台、网络直播、在线游戏等应用的过程中,会产生海量社交关系数据和用户行为数据等,这类数据在权利归属上存在争议,但已成为人工智能企业进行算法设计和产品研发的重要支撑。
二是行业层面,数据权属体现为企业的数据产权,数据垄断损害行业整体发展。
人工智能技术使数据经济价值越发凸显,数据已成为企业的核心资产,相关企业积极储备数据资源,并阻止竞争对手获得数据,力图垄断数据资源来最大化企业利益。
我国曾爆发华为与腾讯、顺丰与菜鸟之间的数据纠纷事件。
数据产权之争将加剧数据垄断。
一方面,科技巨头依托网络覆盖和用户规模,加强数据汇聚;
另一方面,人工智能中小企业获取数据的渠道受限,数据资源匮乏。
企业在数据产权没有被广泛认可,以及数据流动环节存在安全风险的前提下,无论是从维护自身利益角度还是从遵守法律法规角度,都不愿将自身数据进行共享,这将导致初创企业和研究机构在算法设计和优化过程中无数据可用,损害我国人工智能行业整体发展。
人工智能凸显数据的战略地位,数据违规跨境冲击国家安全。
当前,世界主要国家都制定了人工智能发展战略,对数据的依赖快速上升,数据作为国家基础性战略资源的地位更加突出。
为快速积累数据,科技企业通过向消费者提供特定领域免费应用、使用政府公开数据以及进行产业上下游数据协同等方式获取尽可能多数据。
以脸书、谷歌为代表的美国科技巨头,依托其庞大用户规模和强大数据抓取工具,
在全球范围内进行数据收集,强化数据资源优势,推进自身人工智能发展,加剧数据违规跨境流动风险。
与此同时,2018年3月,美国发布《澄清境外数据的合法使用法案》(CLOUD法案),为美国执法机构访问在美国境内运营的企业存储在海外的用户数据提供明确授权,促使数据管辖权和跨境流动争议进一步加大,威胁我国网络主权和国家安全。
三、人工智能数据安全应用
(一)人工智能与数据安全治理
人工智能和数据安全治理互利互补,人工智能技术赋予数据安全治理智慧,数据安全治理为人工智能技术发展提供前驱动力。
人工智能技术的发展为数据安全治理提供底层通用技术支撑,取代数据安全治理中大量重复性、长期性、粗略性人类劳动,使数据安全治理向自动化、高效化、精准化、智能化演进。
与此同时,数据安全治理工作的开展能提升数据质量,促进数据安全流通和合规使用,为人工智能提供高质量数据集,从而为人工智能技术发展提供前驱动力。
具体表现为以下五个方面。
一是人工智能技术可更加准确地理解数据,促进数据安全治理精准化。
数据量的丰富为人工智能提供特征广泛的训练数据集,使人工智能模型更加精确。
算力的提升使人工智能具备实时数据处理能力,支持在更大范围内及时监测和处理数据,并持续改进样本库,减少样本过少或漏报带来的运算误差。
以神经网络为代表的的深度学习技术的发展可以大力提升数据分类分级精准度和数据内容识别准确率。
例
如,2012年神经网络算法只有5层,而2018年可以做到1200多层,在人脸识别领域最高可达一亿分之一的误识率。
二是人工智能技术可取代人类重复性劳动,促进数据安全治理自动化。
2018年李开复在《人工智能》一书中指出,人工智能将在15年内具备取代40-50%岗位的技术能力,主要集中在重复性劳动、有固定台本和对白内容的各种互动、不需与人进行大量面对面交流的工作领域。
在数据安全治理领域中,传统的数据特征标注需要大量人力反复筛选和识别,人工智能可以取代人类自动对数据按照内容进行识别和添加标签。
在网络安全防护方面,随着网络攻击手段的智能化升级,传统的依赖手动过程以及静态规则和签名的数据传输网络安全保护方法正在失效,人工智能技术可以通过自我学习自动更新安全规则,及时检测出新型网络威胁。
三是人工智能技术直击数据安全治理痛点,促进数据安全治理智能化。
数据资产不清晰、数据和知识难以关联、数据安全管理策略更新不及时是数据安全治理中常见问题。
与传统数据安全治理相比,人工智能技术可通过精准分级分类自动梳理数据资产,基于统一的管理标准形成元数据,通过智能搜索、关联查询手段,形成数据关联关系图谱,对数据安全风险进行智能评估、量化和预测,辅助形成更合理的安全管理策略。
例如,IBM的大数据安全智能系统实时运用人工智能技术实现了数据的智能高速查询、实时异常检测、自动确定事件根源并开展核查。
腾讯的智能大数据治理系统基于基础知识库实现针对不同类型数据的自动感知、智能推荐转换等智能处理功能,人工智能
技术使数据安全治理智能化。
四是人工智能技术可提升系统效率,促进数据安全治理高效化。
人工智能可以充分利用自然语言处理、图像识别、语音识别、视频处理等技术弥补传统数据处理耗时长、效率低等弱项,提升系统效率。
例如人工智能技术可以对非结构化数据进行高效分析处理,将过去需要几周乃至几个月才能完成的工作缩短到几个小时之内完成,使数据安全治理高效化。
华为将机器学习技术用于大数据分析平台,其在中国移动等多个项目的实践表明,数据治理效率提升超过40%,数据准备周期从月降为小时级,大数据分析应用上线周期从月降到周,同时高效数据治理也提升了数据质量,高质量数据占比提升40%以上。
五是数据安全治理促进高质量数据集生成,驱动人工智能技术发展。
高质量数据集是提升人工智能算法准确性、模型合理性和产品先进性的至关重要的因素,只有当人工智能系统能够获取更为准确、及时、一致的高质量数据,才能提供更高效、更可靠的智能化服务。
近年来,随着政府、企业对数据质量管理的重视,数据质量工具市场稳步增长。
据Gartner发布的2018年数据库魔力象限报告显示,2017年数据质量软件工具市场达到16.1亿美元,比2016年增长11.6%。
数据安全治理是提升数据质量的必要途径,是促进人工智能全面发展和应用的基础保障。
(二)人工智能在数据安全治理中的应用
2018年5月,Gartner发布数据