日前,京东数字科技集团AI实验室首席科学家薄列峰首次对外披露了京东数科联邦学习战略全布局,向业界介绍了京东数科独创的快速安全的联邦学习框架。薄列峰还分享了京东数科两项业界首创的技术突破——“基于核的非线性联邦学习算法”和“分布式的快速同态加密技术”,这两项技术创新成果都形成了论文,并已经被顶级学术会议KDD 2020接受。
在香港人工智能与机器人学会主办的AI金融公开课上,薄列峰指出,随着大数据的发展,重视数据隐私和安全已经成为一种世界性的趋势,欧盟颁布了《通用数据保护条例》(GDPR)、中国发布了《数据安全管理办法(征求意见稿)》并公开征求意见。越来越严格的法规给人工智能的落地应用带来了挑战。在这样的背景下,联邦学习作为新一代人工智能技术应运而生,从源头出发解决数据隐私保护和数据安全问题。
联邦学习从源头出发解决数据隐私保护和数据安全问题
联邦学习是在满足数据隐私、安全和监管要求的前提下,让人工智能系统能够更加高效、准确的共同使用各自数据的机器学习框架。多个企业在不用给出己方数据的情况下也可以联合进行模型训练并得到模型结果。
据薄列峰介绍,京东数科在联邦学习领域已经成功实现了落地应用。京东数科将其用于人脸识别,在配合式场景下(如自拍照对比自拍照),当误检率为十万分之一的情况下,通过率高达99.96%,当误检率为万分之一的情况下,通过率则高达99.99%。联邦学习使用多方联合数据,使得模型结果超出预期。
目前,联邦学习在产业应用方面面临着一系列挑战——由于需要传递梯度信息,容易导致基于梯度信息的构造攻击;需要对梯度加密,虽然增加了安全性,但是也极大损失了算法的效率;传统联邦学习基于同步更新,浪费了大量的计算资源。如何设计既能保证安全性又具有高效率的联邦学习算法以满足产业AI应用需求,是业界面临的突出难题。为解决这一问题,京东数科推出了快速安全的联邦学习框架。
京东数科快速安全的联邦学习框架
薄列峰介绍说:“快速安全的联邦学习框架具有三大特点。第一,在数据和模型隐私方面,不同参与方之间没有直接交换本地数据和模型参数,而是交换更新参数所需的中间数值。同时,为了避免从这些中间数值中恢复数据信息,我们也采用增加扰动对这些数值进行保护,确保了数据和模型的隐私安全。其次,在通讯方面,我们引入中心化数据交换的概念,使得数据的交换独立于参与方。最后,我们采用了异步计算框架,极大地提高了模型训练的速度。”
在京东数科开发快速安全的联邦学习框架过程中,实现了多项业界首创技术,譬如近期实现的“基于核的非线性联邦学习算法”和“分布式的快速同态加密技术”。
利用双随机梯度下降法,京东数科在业界首次实现了快速安全的“基于核的非线性联邦学习算法”。在安全性上,这一方法不传输原始样本及梯度信息,充分保护数据隐私;在快速性方面,这一方法使用首创的双随机梯度下降,大大提高计算速度,充分利用计算资源,通过增加扰动提高数据的安全保护。这一技术创新已经形成了论文《解决多方垂直联邦学习的安全核学习算法》(Federated Doubly Stochastic Kernel Learning for Vertically Partitioned Data),并被顶级学术会议KDD 2020接受。“分布式的快速同态加密技术”则使得京东数科在业内首次实现了大规模、高速、安全的同态加密技术,这项创新成果同样形成论文——《用分布式计算极大加速同态加密的算法》(Faster Secure Data Mining via Distributed Homomorphic Encryption),并被KDD 2020接受。
人工智能已经被明确列为新基建的重要领域,对产业数字化升级具有重大促进作用。薄列峰表示,今年初京东数科就成立了产业AI中心。该中心集成了京东数科旗下AI实验室、数据智能实验室、智能风控实验室等多个研发机构的AI研发力量,致力于将以联邦学习为代表的前沿AI技术投入产业级应用,推动产业数字化进程。除了将自身的AI能力实现产业级应用之外,将AI能力“基础设施化”也是产业AI中心成立的初衷。联邦学习是未来机器学习乃至整个人工智能的重要基石,京东数科将持续加大对联邦学习的投入。
好文章,需要你的鼓励
阿里纳德数据中心与Calibrant Energy合作开发首创电池储能系统,通过绕过传统电网升级时间线,使俄勒冈州希尔斯伯勒在建数据中心园区提前数年上线。该31兆瓦、62兆瓦时储能系统计划2026年投运,将作为响应电网的动态资产,在需求高峰期放电,增强区域电网可靠性。这标志着美国首次使用专用电池系统加速大型数据中心并网。
浙江大学和阿里巴巴集团联合开发的DATAMIND系统,通过创新的数据合成和训练方法,让AI具备了专业数据分析师的能力。该系统使用12,000个高质量训练样本,采用动态权重调整的混合训练策略,最终的DATAMIND-14B模型在多项测试中超越了GPT-5等商业模型,平均得分达71.16%。这项开源成果大大降低了数据分析的技术门槛,让普通用户也能获得专业级的数据洞察能力。
微软在Edge浏览器中推出增强版Copilot模式,提供更强大的AI代理功能,目前在美国进行限量预览。该模式包含Actions和Journeys两大功能:Actions让浏览器能代表用户执行任务,如语音控制打开网页或查找文章特定内容;Journeys则记住用户浏览历史,帮助用户继续之前的研究任务。此举正值AI浏览器竞争加剧,OpenAI推出ChatGPT Atlas、Perplexity发布Comet、谷歌集成Gemini到Chrome。目前Chrome占据71%市场份额,Edge仅占4.67%。
复旦大学团队针对掩码扩散语言模型提出三项关键技术:EOS早期拒绝解决句号陷阱问题,渐进式步长调度器将解码步骤从L/2降至log?L,一致性轨迹强化学习确保训练与实际运行的一致性。研究发现规划任务更适合并行解码而数学任务偏好顺序解码,为AI系统的任务特定优化提供新思路。