ZD至顶网软件频道消息:许多微软观察家在过去的几个月里曾(错误地)满怀希望地预测,微软已经做好了推出与亚马逊Echo和谷歌Home竞争产品的准备。
专挖微软消息的网友The Wakling Cat(又名@h0x0d)挖出了家庭中心(“Home Hub”)的信息后,这一类谣言更是甚嚣尘上。但The Wakling Cat还发现,家庭中心并不是硬件,而是Windows 10里的某个或某些功能,至少在起始阶段是用于启动家庭账户共享。
12月2日,Windows中心网站发布了更多来自内幕的关于家庭中心的消息。诚如家庭中心的名字所暗示的,家庭中心的功能和策略是要使Windows 10成为一家里各用户的共享中心。
据Windows中心网站介绍,用户通过家庭中心能更容易地、以更无缝连接的方式共享日历、应用程序和服务。
(笔者曾问过微软愿不愿意谈谈家庭中心。到目前为止我还没收到任何回应,不过我预计会收到“不予置评”的回答。)
顺便说一句,微软数年来一直在努力实现上述的家庭协作/生产力愿景。微软曾在2013年做过一个未来“愿景”视频,目的是要展示一下公司高管对未来5年到10年里科技走势的看法。视频也展示这方面的一些概念,微软可能要通过家庭中心交付视频所展示的家庭协作概念。
笔者在上文里插了2张2013年视频的截屏,从图中可以看到,共享环境里的家庭成员可以在大屏幕设备甚至在家里的墙上分享照片、应用和日历。图像识别技术有可能在用户将物件放在这种设备上时触发一些积极的建议,比如给出以胡萝卜为主的食谱。
微软最近发了一个操作系统工程软件工程师职位的广告,其中也突出了微软蓬勃发展的“家庭”重点走势。实际上,微软的Windows和设备部(Windows、Xbox、HoloLense和Surface的老家)里有个“家庭团队”,该团队主打针对家庭和居家网站和后端服务。
11月的职位广告是这样写的:
“家庭用户是微软最宝贵的忠实客户。他们希望孩子们可以在家庭环境里安全地、无忧地使用家庭设备和服务。家庭用户希望能很容易地分享照片、视频、应用程序、游戏和其他购物体验。家庭用户希望能自由地交流和保持联系。微软与谷歌、亚马逊、苹果、美国电话电报公司(AT&T)及许多其他科技巨头之间的竞争极为激烈,各家都在打造抢眼的家庭产品组合,这场比赛才刚刚开始。
快来加入WDG家庭团队吧,让我们共同成为该项使命的核心。职位描述:设计和构建网站和后端服务,为全球数亿用户和他们家人提供重要的家庭功能;该职位的工作将:令家庭健康成长,保障互联网上儿童的安全,提供无忧网购,分享数字媒体和订阅,等等不一而足。”
另外,微软聚焦自然语言接口,所以Cortana、Skype,机器人和Surface笔/Dial外设也大有可能成为家庭中心策略的一部分。再者,微软在向云优先公司转型,Azure无疑也将发挥其作用。
微软已经在一些Windows“家庭”功能(后来改名为微软家族家庭安全控制)里和围绕“居家”用户在Office 365家庭用户定价/许可上做了一些这方面的工作。但到目前为止,这些工作都只是基础性的。
假如Windows中心网站说的是准确的,微软则可能进一步将家庭中心扩展成连接的家庭概念的核心。同样,微软已经在“HomeOS”(家庭操作系统)概念上做了相当多的试验和研究,但却并没有将有关技术推至市场。
笔者认为,微软Surface团队那还不至于冒出一个类似“Cortana Cube”Echo/家庭一类的竞争产品,Surface团队目前似乎在集中精力搞商业优先类的设备。但一些Windows OEM或许会尝试推出这种设备……
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。