微软正在开发一个代号为“巴厘岛(Bali)”的项目,旨在让用户控制关于他们的数据收集。该项目是微软研究院的孵化项目,现阶段似乎正在进行私下测试。
笔者从“Longhorn”的推文中了解到巴厘岛项目的存在,并通过另一个推特用户“Walking Cat”也看到了相关的内容。Longhorn将巴厘岛项目描述为“一个可以删除所有连接和帐户信息的项目(反向隐私项目)。”
打开巴厘岛项目页面的链接。该页面允许拥有代码的用户登录该网站,但并未说没有代码的用户可以申请代码。
巴厘岛项目的“关于”页面将其描述为“新的个人数据库,让用户控制被收集的所有数据……该数据库将使用户能够存储由他们生成的所有数据(原始和推断出的)。将允许用户可视化、管理、控制、共享和货币化这些数据。”
“关于”页面显示,巴厘岛项目是基于“反向隐私”的概念,这是2014年由Yuri Gurevich、Efim Hudis和Jeannette Wing撰写的论文的主题,他们当时都在为微软研究院工作。如果一条个人信息可以由某一方访问,而它的创建者/用户却不能,那么这条信息就是反向隐私。这些作者指出,卫生服务提供者、警察、收费公路运营商、杂货连锁店和雇主都创建了反向隐私数据,在许多情况下,用户可以从拥有这些数据中受益。
巴厘岛项目的“关于”页面显示,该项目处于“初始阶段”,这意味着开发人员专注于帮助用户汇总来自各种网站的个人数据,并能够查看这些数据。
虽然并非每个微软研究院的项目都以某种方式转变为商业化产品或服务,但现在很多项目都已经实现了这一点。所以我认为巴厘岛很有可能在某个时候会成为一个商业实体。与其他技术供应商一样——例如最近因为数据隐私相关问题而负面缠身的脸书,微软也可以通过发布支持用户控制自己数据的技术获益。
微软称,用户对自己数据的控制是微软、Adobe和SAP去年秋天公布的开放数据计划(Open Data Initiative)的核心原则。微软几乎没有提供任何关于此数据所有权模型如何工作的详细信息。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。