在这篇文章中,作者通过 4 篇论文详细介绍了联邦学习中的联邦迁移学习问题,并探讨了向经典联邦学习中引入迁移学习的目的和意义。
海量训练数据是现代机器学习算法、人工智能技术在各个领域中应用获得成功的重要条件。例如,计算机视觉和电子商务推荐系统中的 AI 算法都依赖于大规模的标记良好的数据集才能获得较好的处理效果,如 ImageNet 等。然而在一些应用领域中,例如医学领域、经济学领域以及一些政务信息化领域中,海量的可用训练数据往往是非常有限的。存在这些问题的主要原因:一是,针对机器学习算法的数据标注任务需要专业的知识和经验才能完成,这种预处理任务的成本非常高,往往无法获得机器学习所需要的足够的标注数据。二是,各个行业对数据隐私和数据安全的保护越来越强,在一定程度上也限制了对训练数据的共享,也就进一步加剧了可用的标注数据缺乏的问题。
联邦学习(Federated Learning,FL)是解决上述问题的一种有效方法。2016 年,Google 首次提出了针对移动设备的联邦学习(FL)系统 [1],该系统允许用户形成一个联合体训练得到一个集中模型,而用户数据则安全地存储在本地,这就解决了数据隐私和安全保护问题。同时可以有效应用联合体各方所掌握的标注数据,解决标注数据缺乏的问题。但是,FL 要求联合体的不同方拥有的训练数据必须共享相同的特征空间,这就限制了 FL 的实用性。
微众银行 (WebBank) 进一步提出了联邦迁移学习(Federated Transfer Learning,FTL)[1,6]。FTL 通过应用同态加密(Homomorphic Encryption)和多项式近似代替差分隐私(Polynomial Approximation instead of Differential