日前,京东数字科技集团AI实验室首席科学家薄列峰首次对外披露了京东数科联邦学习战略全布局,向业界介绍了京东数科独创的快速安全的联邦学习框架。薄列峰还分享了京东数科两项业界首创的技术突破——“基于核的非线性联邦学习算法”和“分布式的快速同态加密技术”,这两项技术创新成果都形成了论文,并已经被顶级学术会议KDD 2020接受。
在香港人工智能与机器人学会主办的AI金融公开课上,薄列峰指出,随着大数据的发展,重视数据隐私和安全已经成为一种世界性的趋势,欧盟颁布了《通用数据保护条例》(GDPR)、中国发布了《数据安全管理办法(征求意见稿)》并公开征求意见。越来越严格的法规给人工智能的落地应用带来了挑战。在这样的背景下,联邦学习作为新一代人工智能技术应运而生,从源头出发解决数据隐私保护和数据安全问题。
联邦学习从源头出发解决数据隐私保护和数据安全问题
联邦学习是在满足数据隐私、安全和监管要求的前提下,让人工智能系统能够更加高效、准确的共同使用各自数据的机器学习框架。多个企业在不用给出己方数据的情况下也可以联合进行模型训练并得到模型结果。
据薄列峰介绍,京东数科在联邦学习领域已经成功实现了落地应用。京东数科将其用于人脸识别,在配合式场景下(如自拍照对比自拍照),当误检率为十万分之一的情况下,通过率高达99.96%,当误检率为万分之一的情况下,通过率则高达99.99%。联邦学习使用多方联合数据,使得模型结果超出预期。
目前,联邦学习在产业应用方面面临着一系列挑战——由于需要传递梯度信息,容易导致基于梯度信息的构造攻击;需要对梯度加密,虽然增加了安全性,但是也极大损失了算法的效率;传统联邦学习基于同步更新,浪费了大量的计算资源。如何设计既能保证安全性又具有高效率的联邦学习算法以满足产业AI应用需求,是业界面临的突出难题。为解决这一问题,京东数科推出了快速安全的联邦学习框架。
京东数科快速安全的联邦学习框架
薄列峰介绍说:“快速安全的联邦学习框架具有三大特点。第一,在数据和模型隐私方面,不同参与方之间没有直接交换本地数据和模型参数,而是交换更新参数所需的中间数值。同时,为了避免从这些中间数值中恢复数据信息,我们也采用增加扰动对这些数值进行保护,确保了数据和模型的隐私安全。其次,在通讯方面,我们引入中心化数据交换的概念,使得数据的交换独立于参与方。最后,我们采用了异步计算框架,极大地提高了模型训练的速度。”
在京东数科开发快速安全的联邦学习框架过程中,实现了多项业界首创技术,譬如近期实现的“基于核的非线性联邦学习算法”和“分布式的快速同态加密技术”。
利用双随机梯度下降法,京东数科在业界首次实现了快速安全的“基于核的非线性联邦学习算法”。在安全性上,这一方法不传输原始样本及梯度信息,充分保护数据隐私;在快速性方面,这一方法使用首创的双随机梯度下降,大大提高计算速度,充分利用计算资源,通过增加扰动提高数据的安全保护。这一技术创新已经形成了论文《解决多方垂直联邦学习的安全核学习算法》(Federated Doubly Stochastic Kernel Learning for Vertically Partitioned Data),并被顶级学术会议KDD 2020接受。“分布式的快速同态加密技术”则使得京东数科在业内首次实现了大规模、高速、安全的同态加密技术,这项创新成果同样形成论文——《用分布式计算极大加速同态加密的算法》(Faster Secure Data Mining via Distributed Homomorphic Encryption),并被KDD 2020接受。
人工智能已经被明确列为新基建的重要领域,对产业数字化升级具有重大促进作用。薄列峰表示,今年初京东数科就成立了产业AI中心。该中心集成了京东数科旗下AI实验室、数据智能实验室、智能风控实验室等多个研发机构的AI研发力量,致力于将以联邦学习为代表的前沿AI技术投入产业级应用,推动产业数字化进程。除了将自身的AI能力实现产业级应用之外,将AI能力“基础设施化”也是产业AI中心成立的初衷。联邦学习是未来机器学习乃至整个人工智能的重要基石,京东数科将持续加大对联邦学习的投入。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。