ZD至顶网软件频道消息: 3亿用户同时在线、每秒14万笔交易、8.6万笔支付、一天200 PB数据,“双11”的交易数值总是能令人咋舌。
“中国没有任何一家企业能够像阿里巴巴一样,一天的数据处理量达到200PB。但是今天,特别是随着移动互联网的发展,企业拥有的数据越来越多,接下来的五年里,都将可能遇到这样的挑战。”阿里云总裁胡晓明认为,今后企业在发展转型过程中遇到的挑战主要有三点:其计算资源永远不够用;业务越来越多,但每一次开发都是从零开始;拥有越来越多的企业数据,却不知其意义。
“这些挑战不奇怪,阿里巴巴也遇到过。真正的原因在于,在传统的IT架构下,开发是烟囱式的,资源、应用以及数据都是孤岛。试想,如果天猫、淘宝、聚划算、咸鱼、支付宝、余额宝等都各自为政,那么,今天的我们是没有办法让研发的质量和数据更敏捷,同样也没有办法让消费者的体验变得更好。”
阿里云总裁胡晓明
6月15日,云栖大会厦门峰会开幕,阿里云集中展示了它为企业解决上述挑战难题的三件法宝:全面的云计算、企业级互联网中间件、大数据平台数加。胡晓明表示,“未来三年内,中国40%以上的企业都将采用云计算开展业务。这三件法宝将为企业资源融合、架构共享、数据互通的价值。”
如何实现资源融合?答案是阿里云飞天系统。
目前,阿里云提供的云计算包括了公共云、专有云(Apsara Stack)以及通过多种方式构建的混合云。其中,专有云(Apsara Stack)基于经过大规模市场服务验证的阿里云公共云平台,针对企业市场进行了二次优化,可以让企业内硬件资源在系统层完成统一调度,实现资源大融合,同时满足了企业对于安全合规和可靠性要求。
“如果企业需要专有云,就可以使用飞天系统去部署,并且快速实现计算资源最快最好的集约化。”胡晓明表示,“我们正在通过互联网的方法来提供我们的弹性计算、数据库、负载均衡、储存等各类的服务。同样的,我们还可以通过一个独立部署的操作系统管理所有资源,调度所有通用任务,并最终形成软件定义数据中心、分布式应用、大数据三位一体。”
但是,胡晓明说:“只是将系统云化还远远不够。”在云计算环境重构业务架构来应对互联网带来的不确定性挑战才是关键。
事实上,在互联网时代,传统IT架构固有的孤岛模式无法因应新时代需求。数年前,阿里巴巴亦遇到类似挑战,在历经了用云架构应对“双11”这样全球巅峰挑战、用企业级互联网架构应对业务的巨量创新需求之后。阿里巴巴积累了大量的理论与实践创新:将核心能力原子化,抽象封装,以应对来自需求、用户规模、创新、数据等等的不确定性。
胡晓明介绍道:“现在,在全球范围内,阿里云整体支撑全球大概100多万家网站,中国将近35%的网站是放在阿里云的。双11是非常好的应用场景,让我们不断的去压力测试自身技术能否满足客户的需求。今天阿里云不仅仅是整合了交易和支付,更整合了物联网、大数据的能力,以及图片识别等各种能力,把整个供应链、交易、支付、客户管理和物流这一套体系下的IT架构进行整体输出,交给越来越多大型企业。”
现在这一经过严苛实战考验的阿里云互联网中间件也对外开放服务,帮助企业做到资源融合、架构共享、数据互通。
据介绍,中石化采用这套架构搭建了国内首个工业品电商网站“易派客”,从立项到上线仅用时3个月。能够处理2000~3000亿次调用服务,2万亿条业务调用链,管理4000次线性扩容和缩容。
目前,全国已经有30多家大中型政府机构、企业集团采用阿里云互联网中间件,真正实现了“互联网+”战略的实施落地。
此外,数据是企业、国家弯道超车的机会,数加平台帮助企业去挖掘自己的数据。浙江省与阿里云合作,借助MaxCompute的强大计算能力,实现了对省内1300公里高速路段未来1小时车速的精准预测。这背后的运算量惊人,但系统可以在秒级内完成。
胡晓明表示:“今天阿里云可以把云计算、大数据、中间件捆绑在一起,让企业客户拥有一个很强壮的基础设施。而通过数加平台,企业可以快速复制阿里巴巴沉淀十年的数据能力,让数据从原来的成本中心转变成企业的价值中心。”
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。