日前,京东数字科技集团AI实验室首席科学家薄列峰首次对外披露了京东数科联邦学习战略全布局,向业界介绍了京东数科独创的快速安全的联邦学习框架。薄列峰还分享了京东数科两项业界首创的技术突破——“基于核的非线性联邦学习算法”和“分布式的快速同态加密技术”,这两项技术创新成果都形成了论文,并已经被顶级学术会议KDD 2020接受。
在香港人工智能与机器人学会主办的AI金融公开课上,薄列峰指出,随着大数据的发展,重视数据隐私和安全已经成为一种世界性的趋势,欧盟颁布了《通用数据保护条例》(GDPR)、中国发布了《数据安全管理办法(征求意见稿)》并公开征求意见。越来越严格的法规给人工智能的落地应用带来了挑战。在这样的背景下,联邦学习作为新一代人工智能技术应运而生,从源头出发解决数据隐私保护和数据安全问题。
联邦学习从源头出发解决数据隐私保护和数据安全问题
联邦学习是在满足数据隐私、安全和监管要求的前提下,让人工智能系统能够更加高效、准确的共同使用各自数据的机器学习框架。多个企业在不用给出己方数据的情况下也可以联合进行模型训练并得到模型结果。
据薄列峰介绍,京东数科在联邦学习领域已经成功实现了落地应用。京东数科将其用于人脸识别,在配合式场景下(如自拍照对比自拍照),当误检率为十万分之一的情况下,通过率高达99.96%,当误检率为万分之一的情况下,通过率则高达99.99%。联邦学习使用多方联合数据,使得模型结果超出预期。
目前,联邦学习在产业应用方面面临着一系列挑战——由于需要传递梯度信息,容易导致基于梯度信息的构造攻击;需要对梯度加密,虽然增加了安全性,但是也极大损失了算法的效率;传统联邦学习基于同步更新,浪费了大量的计算资源。如何设计既能保证安全性又具有高效率的联邦学习算法以满足产业AI应用需求,是业界面临的突出难题。为解决这一问题,京东数科推出了快速安全的联邦学习框架。
京东数科快速安全的联邦学习框架
薄列峰介绍说:“快速安全的联邦学习框架具有三大特点。第一,在数据和模型隐私方面,不同参与方之间没有直接交换本地数据和模型参数,而是交换更新参数所需的中间数值。同时,为了避免从这些中间数值中恢复数据信息,我们也采用增加扰动对这些数值进行保护,确保了数据和模型的隐私安全。其次,在通讯方面,我们引入中心化数据交换的概念,使得数据的交换独立于参与方。最后,我们采用了异步计算框架,极大地提高了模型训练的速度。”
在京东数科开发快速安全的联邦学习框架过程中,实现了多项业界首创技术,譬如近期实现的“基于核的非线性联邦学习算法”和“分布式的快速同态加密技术”。
利用双随机梯度下降法,京东数科在业界首次实现了快速安全的“基于核的非线性联邦学习算法”。在安全性上,这一方法不传输原始样本及梯度信息,充分保护数据隐私;在快速性方面,这一方法使用首创的双随机梯度下降,大大提高计算速度,充分利用计算资源,通过增加扰动提高数据的安全保护。这一技术创新已经形成了论文《解决多方垂直联邦学习的安全核学习算法》(Federated Doubly Stochastic Kernel Learning for Vertically Partitioned Data),并被顶级学术会议KDD 2020接受。“分布式的快速同态加密技术”则使得京东数科在业内首次实现了大规模、高速、安全的同态加密技术,这项创新成果同样形成论文——《用分布式计算极大加速同态加密的算法》(Faster Secure Data Mining via Distributed Homomorphic Encryption),并被KDD 2020接受。
人工智能已经被明确列为新基建的重要领域,对产业数字化升级具有重大促进作用。薄列峰表示,今年初京东数科就成立了产业AI中心。该中心集成了京东数科旗下AI实验室、数据智能实验室、智能风控实验室等多个研发机构的AI研发力量,致力于将以联邦学习为代表的前沿AI技术投入产业级应用,推动产业数字化进程。除了将自身的AI能力实现产业级应用之外,将AI能力“基础设施化”也是产业AI中心成立的初衷。联邦学习是未来机器学习乃至整个人工智能的重要基石,京东数科将持续加大对联邦学习的投入。
好文章,需要你的鼓励
CIO们正面临众多复杂挑战,其多样性值得关注。除了企业安全和成本控制等传统问题,人工智能快速发展和地缘政治环境正在颠覆常规业务模式。主要挑战包括:AI技术快速演进、IT部门AI应用、AI网络攻击威胁、AIOps智能运维、快速实现价值、地缘政治影响、成本控制、人才短缺、安全风险管理以及未来准备等十个方面。
北航团队发布AnimaX技术,能够根据文字描述让静态3D模型自动生成动画。该系统支持人形角色、动物、家具等各类模型,仅需6分钟即可完成高质量动画生成,效率远超传统方法。通过多视角视频-姿态联合扩散模型,AnimaX有效结合了视频AI的运动理解能力与骨骼动画的精确控制,在16万动画序列数据集上训练后展现出卓越性能。
过去两年间,许多组织启动了大量AI概念验证项目,但失败率高且投资回报率令人失望。如今出现新趋势,组织开始重新评估AI实验的撒网策略。IT观察者发现,许多组织正在减少AI概念验证项目数量,IT领导转向商业AI工具,专注于有限的战略性目标用例。专家表示,组织正从大规模实验转向更专注、结果导向的AI部署,优先考虑能深度融入运营工作流程并产生可衡量结果的少数用例。
这项研究解决了AI图片描述中的两大难题:描述不平衡和内容虚构。通过创新的"侦探式追问"方法,让AI能生成更详细准确的图片描述,显著提升了多个AI系统的性能表现,为无障碍技术、教育、电商等领域带来实用价值。