ZD至顶网软件频道消息: 一直游离在技术雷达象限范围外的人工智能,这一次居然通过开源框架,一步进入到实用领域,这个结果既在意料之外,又在意料之中。
近日,ThoughtWorks公司发布了最新一期技术雷达,雷达发布了关于容器、人工智能、团队结构以及AR/VR等四个新趋势。其中,长期待在实验室的机器学习和人工智能,突然通过Nuance Mix、TensorFlow等框架进入到实用领域,这些开源框架支持开发者下载NLP、机器学习库等复杂的库和工具,使开发者能够广泛地加以应用。
ThoughtWorks CTO徐昊
技术雷达是ThoughtWorks公司从2007年开始发布,用于监测全球技术战略和对行业重大影响的技术趋势。ThoughtWorks CTO徐昊表示,技术雷达是一份非常“主观”的趋势观察,既不是基于统计也不是基于搜索,所有技术雷达观察的结果和趋势都是行业里真实的经验积累并过滤的,是专业人士的主观判断。
技术雷达通过图形化方式将各种技术归类为技术、工具、平台、语言和框架四个象限,并按照采用、试验、评估以及暂缓四项指标对这些技术的发展阶段进行划分。其中,采用阶段表示,强烈主张采用这个阶段的技术;试验阶段表示,雷达认为这个阶段的技术值得追求,并且主张企业重要的是理解如何建立这种能力,企业可以在那些风险可控的项目中尝试该项技术;评估阶段的技术,雷达建议企业有必要对其如何影响企业做一番探究;暂缓阶段的技术,雷达建议要谨慎推行。
今年5月,上一期技术雷达发布时,以机器学习为主要标志的人工智能尚不在技术雷达的四个阶段中。徐昊曾表示“机器学习在传统企业应用场景中还太早了,现有的机器学习的应用都是个案,还不能满足某一类应用的需要,机器学习是否产生明确的价值还不清楚。”
徐昊认为,人工智能相关的智能算法并不是什么新鲜事物,在金融等行业的应用已经有很多年,但是对于企业和开发者来说,要想获得这些技术应用所依赖的库和工具等需要付出非常昂贵的代价。而现在,这一切都在以开源的形式免费提供给大众,这让人工智能相关技术得到了推广。从现在的事实来看,很多具体项目上,智能算法的使用越来越普遍。
技术雷达上有两种开源框架被提及,一种是Nuance公司发布的自然语言处理框架Nuance Mix,一种是谷歌开源的开源机器学习平台TensorFlow。技术雷达显示,Nuance Mix支持语法生成,允许用户通过语音进行自由形式的交互,这个框架通过一种领域特定语法能够自主训练以进行理解,响应的结果会根据用户输入识别的用户意图和交互概念进行判断。起初,这个框架仅能理解被训练过的短语的近似语句,但是随着时间的推移,它已经开始从许多不同的短语中识别含义。
TensorFlow则是在上一期技术雷达中介绍过,是一个可以用于从研究到生产的平台,可以在小到一部手机、大到大规模GPU集群上运行。雷达认为,它的重要性在于能让实施深度学习算法变得更容易更便捷。
技术雷达将这两种框架放到了“评估”象限,对此表现出了足够的兴趣,并且推断基于此,将催生一系列新的工具,例如商业计算(一种大规模、低成本、可伸缩的集群计算标准)、特殊定制的硬件(GPU),以及云端资源等。
事实上,从近半年人工智能技术在全球的发展态势看,这样的神速进展也是在意料之中。不管是谷歌阿尔法狗与李世石那场PK,还是无人驾驶汽车在业内掀起的风浪,不管是百度宣告将成为人工智能代言人,还是阿里ET在双11晚会上的抢镜效果,科技界对于人工智能的推崇再一次进入波峰,而大量的投资也注入到这个领域,让技术产品化的步子开始迈出去。更重要的是,学术界多年的积累正在因为工具的普及而大大降低了技术使用的门槛,云计算和GPU为人工智能奠定了计算的基础,而智能算法在开发团队中小范围的应用也往往能让开发有那么神来一笔的体验,这些都为人工智能的普及奠定了可行性的基础。就像技术雷达的推荐那样,企业或可开始对人工智能相关技术所能产生的影响进行一番探究了。
好文章,需要你的鼓励
Meta宣布为Facebook Dating推出AI聊天机器人助手,帮助用户找到更匹配的对象。该AI可根据用户需求推荐特定类型的匹配者,并协助优化个人资料。同时推出Meet Cute功能,每周提供算法选择的"惊喜匹配"。尽管18-29岁用户匹配数同比增长10%,但相比Tinder的5000万日活用户仍有差距。AI功能已成为约会应用标配,Match Group等竞争对手也在大力投资AI技术。
字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。
Neo4j认为已找到让生成式AI访问图数据库记录的方法。图数据库专注于数据点之间的关系建模和查询,在欺诈检测、推荐引擎等场景中表现出色。2024年4月,ISO批准了图查询语言GQL标准,Neo4j的Cypher查询语言完全符合该标准。现代工具提供拖拽式工作流程,GenAI可作为自然语言接口,将用户请求转换为Cypher查询。
ByteDance团队开发的Mini-o3系统通过深度多轮推理突破了传统AI视觉理解的局限。该系统能像人类侦探般进行几十轮的视觉探索,在困难的视觉搜索任务上准确率达48%,相比现有模型提升显著。核心创新包括挑战性的Visual Probe数据集、多样化推理策略训练和突破性的过轮掩码技术,实现了测试时思考轮数的自然扩展。