至顶网软件频道消息: Box希望客户能够从他们保存在其内容管理服务中的数据中心获得更多价值。今天,Box宣布了一系列有机器学习技术提供部分驱动力的新工具,让客户有更多方法从数据中提取价值--有更多理由为Box提供的额外服务付费。
据悉,Box Skills是一个软件框架,采用机器学习等一系列技术让客户能够学习类似于大脑的工作方式,而不是以被明确编程的方式执行诸如计算机视觉分析图像、视频检索和从音频中分析情感等任务。本周在旧金山举行的BoxWorks大会上,Box做了以上公布,首席执行官Aaron Levie表示,这么做的目标是让Box"成为最智能的云内容管理平台"。
今天,Box预览了三项仍在开发中的技能。首先是Image Intelligence,实际上是在8月中旬就宣布beta测试了。这项功能采用来自Google云平台的机器学习技术,可检测图像文件中的对象和概念,并分析具有光学字符识别的文本,以编制图像目录的元数据,无需手动标记收据、驾驶执照等。
第二个技能是Video Intelligence,采用了微软的Cognitive Services进行转录、检测主题和人来快速了解视频而无需手动查看。第三个技能是Audio Intelligence,采用IBM的Watson AI技术将音频转录为文本,并且可以以其他方式进行搜索和使用。
最后一项技能实际上展示了用户如何通过结合多项技能来创建定制的技能。例如,一项技能可以在IBM云上结合Watson语音到文本和自然语言理解服务,以分析客户的服务呼叫,确定哪些服务呼叫是满意的或者不满意的,以更好地进行呼叫中心的培训。另外一项技能是由文档捕获公司Ephesoft开发的,可以检测合同中的信息,并将这些信息提取到Box中的定制元数据"卡"中,可自动执行贷款申请或者新员工入职。
Box希望鼓励外部软件开发者、系统集成商和企业内部开发者创建他们自己的技能,并将这些技能连接起来。Box企业产品管理高级总监Jon Fan在接受采访时表示:"任何开发者都可以创建一项定制技能。"
Constellation Research副总裁、首席分析师Alan Lepofsky表示:"因为内容保存在了Box中,所以自然地你可以从Box中提供洞察、发现模式、自动执行重复任务等等。现在Box不是打造自己的AI系统,而是利用来自Google Cloud Platform、微软Azure、IBM Watson的AI能力,这将让Box保持'AI中立'。"
“Box的最终目标是说服客户"把内容放到Box中,你可以获得比放在其他地方更多的价值。"这也是Box需要与更多客户产生共鸣的地方,因为它面对来自Dropbox、Google等其他低成本文件存储提供商的竞争。”Fan表示。
在上个季度,Box推出了多款新产品:Box Drive,一款面向大型企业的无限云驱动器;Box Elements,在一组将Box内容嵌入其平台应用上的软件工具。1月,Box还更新了自己推出3年之久的Notes实时文档创建和分享工具。
新产品
有迹象表明该战略奏效了。新产品帮助带动更多客户支出,在8月的第二财季,39笔规模达6位数(100000万美元)的新交易中,有60%涉及到了新产品,Box这样表示。
不过,在追求增长的同时Box却在亏损。Box需要打造一个类似Apple App Store企业版的生态系统,在未来某个时候扭亏为盈。
"这些技能将有助于Box更多地变成'目的地,而仅仅是存储文件的地方'。例如,现在客户支持人员不仅保存音频文件,他们还可以让沟通围绕着在呼叫中出现负面情绪的方面。Box Skills对于那些希望在Box上打造应用的开发者们具有吸引力,因为他们提供了预编码的功能,例如图像标记或者视频转录,不需要你自己编写这些功能的代码。"
Box没有提供任何关于Box Skills的定价信息。目前只有图像识别技术是在测试中,其他将在明年初公开测试。
Box还展示了Box Graph,称其为一种内容、关系和活动网,旨在为个人和其他的新体验提供支持。例如,Box推出了Feed,一种个性化的活动feed,利用机器学习找出最相关的内容,例如某种面向企业的Facebook新闻Feed。
Box表示,希望提供其他来自Graph的应用,例如搜索、个性化文件和应用推荐,以及类似威胁检测这样的安全服务。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。