联邦学习及其在电信行业的应用Word下载.docx

资源描述

联邦学习及其在电信行业的应用Word下载.docx

《联邦学习及其在电信行业的应用Word下载.docx》由会员分享，可在线阅读，更多相关《联邦学习及其在电信行业的应用Word下载.docx（9页珍藏版）》请在冰豆网上搜索。

联邦学习及其在电信行业的应用Word下载.docx

本地优化完毕后，客户端向参数服务器端发送更新的模型参数，参数服务器收到参与本轮训练的各个客户端计算后的模型参数更新来更新公共模型；

然后重复上述过程直至通用模型收敛（见图1）。

图1

该架构能够较好地解决各种数据分布下的联邦学习场景，同时各参与方信息交互方式为模型参数传递，保证了隐私数据不出端侧。

参数服务器联邦学习架构代表算法及框架有谷歌开源的FedAvg算法[1]、微众银行开源的FATE架构[2]，基于该框架的项目包括谷歌的GBoard以及苹果的QuickType等。

2.1

参数服务器架构要素

参数服务器架构需考虑模型精度、通信代价、超参数目及通信带宽等关键要素。

2.1.1

模型精度

McMahan[1]提出了一种基于迭代模型平均的深度网络联合学习方法FedAvg，用于解决计算节点数据非IID条件下的通用模型训练问题。

在FedAvg算法中，客户端学习率由参数服务器下发，XiangLi[1]等人通过分析证明，引入学习率衰减机制可有效提升最终模型的精度，防止模型参数在模型收敛值附近振荡。

2.1.2

通信代价

在考虑模型精度之外，联邦学习场景中的通信代价也需格外关注。

FedSVRG[3]（FedratedStochasticVarianceReducedGradient）算法通过限制客户端在本地进行模型更新计算时梯度变化的方向，使参与此轮迭代的客户端在更新公共模型时向同一个方向进行梯度更新，从而使模型在云端汇聚时更高效，在更少的通信轮数的情况下获得了一个较高精度的公共模型。

2.1.3

超参数目

为减少联邦学习公共模型训练时需要设置的超参数目，Sahu等人提出了FedProx[4]联邦学习框架算法，该算法通过在客户端优化目标函数中加入正则化项来限制本地训练模型偏离通用模型的程度，客户端在优化目标函数时，不需要参数服务器为客户端本地优化设置超参。

2.1.4

通信带宽

在参数服务器架构中，模型在参数服务器和客户端之间传输需要耗费大量的通信带宽，因此在有海量客户端参与联邦学习的情况下，通信带宽越来越成为联邦学习参数服务器架构的瓶颈所在。

此时，也可通过训练后抽样、结合训练压缩、针对数据压缩的模型更新方法等模型压缩技术来实现模型压缩，以达到降低通信带宽的目的。

2.2

参数服务器下的可持续学习

在联邦学习项目中，任务模型、数据分布等将随着时间及联邦网络结构的变化而变化，因此目标数据特征、特征提取器、业务标签等都会发生变化，此时需要利用持续学习方法对其进行处理。

可持续学习（ContinualLearning或LifelongLearning）指利用已学习任务的知识来降低新任务的学习成本。

Thrun和Mitchell于1995年提出可持续学习的概念[5]，要求学习器可以学习、保留并利用过往任务知识来高效地学习新任务。

特别的，学习器在学习新任务的同时也不应该遗忘过往任务的知识，即在过往任务上仍要取得良好的性能表现。

可持续学习中针对目标数据特征、特征提取器、业务标签等发生变化的情况，相应地提出了特征空间变化的持续学习、特征提取器变化的持续学习及标签空间变化的持续学习方法加以应对解决。

特征空间变化的持续学习关注点在任务的特征空间变化，指新任务的特征空间与之前任务的特征空间不同，此时可借用迁移学习里Source和Target的概念，利用共同子空间法（如HFA——HeterogeneousFeatureAugmentation[6]）和特征对齐变换法（如SHFR——SpraseHeterogeneousFeatureRepresentation[7]）来解决特征空间变化问题。

特征提取器变化的持续学习要求在学习新任务的同时，学习器也应当在过往任务上具有良好的性能表现。

因此，特征提取器也应当在自适应跟踪新任务的同时，保持在过往任务中的良好表现，这种特性被称为抗灾难性遗忘。

在标签空间变化的可持续学习中，随着时间的推移，目标任务中可能会出现新类别的数据。

此时，有中心损失函数法、深度样例学习法、自适应增量学习模型等多种可行方案来应对这种数据标签变化的情况。

其中，中心损失函数法通过在损失函数中引入新的惩罚项，使得属于同一类样本的特征更加汇聚，增加了样本特征的可鉴别性，适当调整输出层参数即可保持学习器的鉴别分类能力。

深度样例学习方法结合了深度学习的强特征提取能力和样例学习的高新类别容忍度，从而适于解决任务标签变化问题。

自适应增量学习模型通过新增级联的分类器追踪了数据标签的变化，与此同时也增强了模型的特征提取能力，有助于提升模型的学习精度。

相比较而言，中心损失法从特征空间上降低了新类与原有类之间的重叠概率，从本质上增加了学习方法对新类的容忍度。

模型隐私保护

在联邦学习中，参与联邦学习的各方通过交换参数而非交换本地数据的方式完成模型训练，在一定程度上保证了本地数据的安全，但在面对模型攻击和差分攻击时，依然会导致隐私泄露。

所谓模型攻击，如攻击者只要给出人脸姓名即可通过公开的人脸识别模型重构出人脸轮廓；

而差分攻击是通过对系统进行差分查询来获取个体数据的敏感信息。

基于此，业界提出了差分隐私技术、多方可信计算技术、同态加密技术等隐私保护技术进行应对。

3.1

差分隐私

2006年,微软的Dwork[8]提出了差分隐私（DifferentialPrivacy）概念以应对差分攻击问题。

差分隐私的思想就是对原始数据的转换或者是对统计结果添加0-均值噪声来达到隐私保护效果。

如果一个方法满足通过引入噪声使至多相差1个数据的2个数据集查询结果概率不可分，那么该方法即满足差分隐私要求，称为差分隐私保护算法。

苹果公司在其手机用户数据加密上传就是应用了差分隐私保护技术，谷歌公司开源了通过向数据中注入可控的噪音元素来保护用户隐私的RAPPOR项目，该技术也被谷歌用来保护手机用户使用Chrome浏览器时的数据。

差分隐私形式化定义为，有两个相似的数据集D、D’，若其中只有一个用户的数据不同，称二者为相邻数据集。

对于任意参数ε>

0，一个查询函数q满足εDifferentialPrivacy，那么两个相邻数据集的查询结果在概率上应该接近，即对任意的查询结果集S，满足：

P\left[q\left（D\right）\inS\right]\lee^\epsilonP\left[q\left（D^\prime\right）\inS\right]。

其中，参数ε称为差分预算，当ε越接近于0，其保密程度就越高，ε越大，其保密程度越低，但查询结果可以更精确。

因此，对于有意义的隐私保护，需要足够低的ε值。

3.2

多方可信计算

多方可信计算（SecurityMulti-partsCompute，SMPC）[9]最初由图灵奖获得者、中科院院士姚期智在1982年通过百万富翁问题提出，是解决一组互不信任的参与方之间保护隐私的协同计算问题。

SMPC在电子选举、电子投票、电子拍卖等场景中有着重要的作用。

多方可信计算通过数据加密及算法加密，以达到保护数据和程序的目的。

多方可信计算可用于解决横向联邦学习中用户模型保护问题。

多方可信计算可保证各方输入独立，计算时不泄露本地任何数据。

计算结束后，各方得到正确的数据反馈。

多方可信计算的参与各方地位平等，不存在任何有特权的参与方或第三方。

SMPC也存在一些问题，如当参与计算的用户数量增多时，彼此间的交互存在效率问题。

此外，当参与计算的用户出现数据丢失或用户掉线时，如何保证多方可信计算的正常工作也是一大课题。

AdiShamir早在1979年便提出了一个通过构造N元多项式来解决参与多方计算的若干方（N方）掉线导致的数据恢复困难问题。

SMPC最为经典的实现是姚期智院士提出的混淆电路算法，其通过加密输入输出真值表来隐藏程序的真实逻辑，从而达到程序隐私保护的目的。

3.3

同态加密

同态加密（HomomorphicEncryption，HE）是一种不需要访问数据本身就可以加工数据的方法。

对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。

同态加密主要应用在需要第三方处理敏感数据的场合，如云计算、匿名投票等。

同态加密按照自身实现方式，分为半同态加密、全同态加密两种。

其中，半同态加密又分为加法同态和乘法同态两种。

加法同态加密中，加密算法f满足f（A）+f（B）=f（A+B），典型的加法同态加密算法为Paillier算法。

乘法同态加密中，加密算法f满足f（A）×

f（B）=f（A×

B），典型的乘法同态加密算法有RSA、Elgamal算法。

全同态加密中，加密算法f同时满足加法同态和乘法同态，代表的算法有Gentry、DGHV、CAFED算法。

单一的加法同态或者乘法同态有时无法满足要求，全同态算法将为数据加密提供完备方案。

然而，全同态加密算法目前只是在理论层面论证了可行性，其核心算法和性能问题尚未得到突破，存在密钥制作时间长以及制成的密钥过大等困难，但这一技术在效率提升之后有着广阔的应用前景。

在纵向联邦学习场景中，需要利用同态加密技术实现隐私保护，同一条数据的不同特征分布在了不同参与学习的用户中，例如本地银行和本地电商，用户相同但用户特征不同，此时便可利用同态加密技术，将其不同特征在加密状态下加以聚合。

联邦学习实际应用场景中存在本地数据与全量数据不服从独立同分布的情况，因此基于全量模型快速训练小而精的本地模型，其模型私有化变得极为必要。

模型私有化可通过迁移学习和元学习两种方式来保证。

4.1

迁移学习

传统的机器学习、深度学习算法均假定测试数据和训练数据是独立同分布的，但是现实的场景中测试数据和训练数据的分布可能不一致，迁移学习即为了解决此类问题而提出。

给定源域DS和源任务TS，目标域DT和目标任务TT，迁移学习旨在利用源域DS和源任务TS的知识提升预测函数在目标域DT中的表现。

迁移学习分为基于样本的迁移、基于特征的迁移、基于模型的迁移以及基于关系的迁移四大类[10]。

（1）基于样本的迁移，简单来说就是通过权重重用，对源域和目标域的样例进行迁移，可直接对不同的样本赋予不同权重，如对相似样本给予高权重。

（2）基于特征的迁移就是对特征进行变换。

假设源域和目标域的特征原来不在一个空间，则可以想办法把它们变换到一个空间里，并保证变换后的特征是相似的。

（3）基于模型的迁移就是构建参数共享的模型，这种迁移学习常见于神经网络中，如Finetune。

（4）基于关系的迁移就是挖掘和利用关系进行类比迁移，如老师上课、学生听课就可以类比为公司开会的场景。

4种不同的迁移模式对应不同的使用场景，所以解决迁移问题的第一步是确定迁移模式。

4.2

个性化向量

个性化向量指的是针对不同的任务学习得到一个特定的向量，用以标识该任务。

典型的个性化向量是由FlorianHartmann[11]在2018年提出来的用于表示分布不同任务的softID。

整个过程分为两个阶段：

首先是预训练阶段，在一般的特征旁边增广放置初始化为0的softID位，其位数可以改变。

在这个阶段只训练神经网络的参数，不训练ID位；

第二个阶段是Fine-tune阶段，在这个阶段交替地训练网络的权重和softID位。

4.3

元学习

4.3.1

元学习概述

元学习指对于元数据，通过元学习器来学习已有基学习器的学习经验，从而对于新的学习任务，新的基学习器可借鉴元学习器的学习经验，改善当前学习过程的一类机器学习算法。

元学习的研究工作可追溯到1990年前后，JurgenSchmidhuber、YoshuaBengio及SamyBengio等都对元学习的早期工作作出过贡献[12]。

元数据一般由多组与新学习任务的数据集分布相似或相同的数据集组成，元学习将学习任务当作“样本”，追求在任务间的泛化性能，而传统的监督学习则将数据点当作样本，追求在数据间的泛化性能。

如图2所示，在元学习的Meta-learning阶段中，各个任务的基学习器学习对应的任务，而元学习器则通过与各基学习器交互，学习各基学习器的学习经验。

元学习Meta-testing阶段的数据来自新的学习任务，一般情况下新的学习任务和Meta-learning阶段的各个任务是相近的，此时新的基学习器会基于新任务的数据进行学习，学习的过程中会借鉴元学习器的学习经验。

图2

元学习示意图

已有的元学习分为基于循环模型、基于度量以及基于优化器三大类。

基于循环模型的方法一般会训练一个循环模型（如LSTM），模型从数据中获取序列输入，然后处理任务中新的输入；

基于度量学习的元学习是指学习一个度量空间，使在该空间中的学习异常高效，这种方法多用于小样本学习；

基于优化器的元学习方法是学习一个优化器，即一个网络（元学习器）学习如何更新另一个网络（学习器），以使学习者能高效地学习该任务。

元学习者通常是一个循环网络，该网络可以记住其之前更新学习者模型的方式。

4.3.2

元学习MAML方法

2017年，ChelseaFinn等人提出了解决小样本学习问题的元学习方法MAML（Model-AgnosticMetaLearning）[13]。

MAML最大的特点是直接去优化小样本学习最终的目标，即在各个任务的测试集上让测试效果比较好。

在MAML中，首先初始化一个源模型，每个任务的数据会被分成k和v两部分，通过N个任务中每个任务的前k个数据对源模型进行微调，得到N个任务模型；

然后，利用每个任务剩下的v个数据进行对应模型的验证，得到N个loss，将这N个loss求均值后作为元目标函数，通过最小化元目标函数更新模型参数；

最后，利用测试任务中的k个数据对源模型做微调，得到的模型记为目标模型。

测试任务中剩余的v个样本可以用来做目标模型的测试。

MAML可以被很方便地拆解成联邦学习架构，其中参数服务器负责定义模型结构以及初始化一个模型的参数，对各个端侧汇总的梯度进行融合，并对模型参数进行更新。

联邦学习旨在从技术层面解决数据安全场景下，各节点能够快速训练出高性能模型的课题。

联邦学习框架定义服务端及客户端的交互以及模型参数共享规则，模型隐私保护技术保证节点数据的安全，模型私有化则进一步提升边缘模型的准确率，这3点是联邦学习比较重要的技术方向。

电信领域为何需要联邦学习

运营商在其运营运维的网络里有大量的智能设备，这些设备每时每刻都在产生大量的数据，由于数据保存在局点内部，将各局点数据直接拿出来是万万不能的。

如果使用局点内部的数据直接训练，有时候会由于数据分布不均匀，训练的模型泛化能力很差。

因此，启用联邦学习来解决这些问题显得很有必要。

联邦学习主要解决的问题概括为以下3个方面。

（1）数据分布不均：

数据样本在各地分布不均，样本量少的局点训练得出的AI模型效果较差，AI模型应用的泛化效果没有保障。

（2）隐私保护：

由于数据安全、隐私保护（如欧盟的GDPR）造成的数据不出本地、数据孤岛形成的问题，使得传统的机器学习无法汇聚完整的训练数据，从而无法训练出较优的模型。

（3）分布式训练：

随着边缘计算能力越来越强，分布式训练相对于集中训练更能提升AI模型生成效率。

联邦学习充分发挥边缘节点的计算资源各自基于自身的本地数据进行模型训练，通过联邦机制汇聚模型的更新部分，整合生成公共的AI模型，从而实现各参与方在不共享本地数据的前提下共建AI模型。

联邦学习所使用的技术并不新，但是将分布式训练、隐私保护等技术结合起来的时候，产生了一种特殊的化学反应，能够在保护隐私的前提下，进行更广泛规模的机器学习。

该想法一经提出，就引起业界强烈关注，各大企业纷纷打造自己的联邦学习能力。

华为根据这一迫切的需求，打造了NAIE联邦学习服务，致力于将联邦学习的能力渗透到运营商业务中，构建更加智能的网络。

联邦学习在电信领域的应用

华为CloudMSE的业务感知（ServiceAwareness，SA）技术，主要基于SA技术的业务管理，用于识别业务流量后的带宽控制、阻塞控制、业务保障。

其中，业务流量识别是一个典型而且重要的联邦学习在电信领域中的应用，将机器学习的能力搬到NAIE联邦学习服务中，可达到在数据不出局的情况下，提升每个局点训练效果的目的。

SA业务应用广泛，比如在A地区基于国情考虑，不允许使用VoIP类软件，但VoIP应用种类繁多，版本或协议更新频繁，很多应用还是加密的，需要SA技术支持对于VoIP软件的检测和控制（见图3）。

图3

VoIP业务管控

通过NAIE的联邦学习服务，可以做到更好的SA流量识别。

为了更好地说明联邦学习的效果，可以把SA的训练分成3个场景，从不同侧面验证联邦学习效果。

这3个场景分别是：

总体上分布不均匀、总体上分布均匀但边缘节点分布不均匀、总体上分布均匀但边缘节点缺失部分分类数据。

第一种场景是为了说明总体分布不均匀，也可以达到较好的效果；

第二种和第三种场景的对比是为了说明在某些边缘没有部分标签的时候，还可以达到较好的训练效果。

经过训练，可以得到如表1所示的结果。

表1

联邦学习训练结果

表1中的最后一列是将所有数据放在一起的训练结果，即联邦学习要达到的基线目标；

倒数第二列是联邦学习训练的结果，从表中可以看到，在这3种场景下，通过联邦学习都可以达到预期目标，结果和基线接近。

这也说明，在SA业务中联邦学习可以在数据不出局的情况下，达到很好的训练效果，为SA服务提供更多、更实用的应用场景。

结束语

人工智能当前面临“数据孤岛”及隐私监管力度加大的巨大挑战，联邦学习的出现为人工智能的进一步发展提供了新的解决方案。

通过联邦学习的架构方案设计及隐私保护技术应用，可使多个数据拥有方协同建立共享模型，达到模型训练与隐私保护双赢的目的。

联邦学习在电信领域的应用将会加速人工智能技术的创新发展，催生以运营商为中心的跨领域生态合作。

联邦学习在未来的网络自动驾驶、用户满意度提升、用户信用评估等领域将得到广泛使用。

展开阅读全文