ZD至顶网软件频道消息:12月9日,阿里云宣布数据库产品 HybridDB 正式商业化。HybridDB(ApsaraDB HybridDB)是一款在线MPP大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发,并由阿里云数据库团队在云计算架构下深度扩展。
该服务支持了OSS存储、JSON数据类型、HyperLogLog预估分析等功能特性。通过符合SQL2008标准查询语法及OLAP分析聚合函数,提供灵活的混合分析能力。提供在线扩容、备份、性能监测等服务。
阿里云数据库产品研究员褚霸介绍,随着各行各业信息技术的发展催生了以数据分析场景为主要业务的企业。特别是物联网和广告分析领域的企业,对云上复杂场景数据分析有强需求。“这个产品可以简化大量工作,如数据库管理员、开发者以及数据分析师可以专注于如何通过 SQL 挖掘数据价值,无需再自行维护复杂的大规模并行数据集群。”
HybridDB 是此款产品的名字,也体现了“混合”的特点。HybridDB 兼容数据类型多达23种,比市面上云计算厂商的同类产品多一倍。同时,它支持横向扩展,当用户数据量变大,内存及CPU计算能力需求增大时,随时可以添加节点,以线性扩展分析性能,提高计算能力。
7月公测以来的数据显示,JSON 和 GIS 类型的数据量高达TB级别时,查询也可以在1秒内完成。此外,广告分析领域的公司在做互联网海量数据的 PV、UV 预估分析时,统计性能提升20-100倍。
在MySQL和ProstgreSQL之外,数据库用户为什么还需要全新的产品?褚霸表示,HybridDB的混合数据类型及混合存储(行存、列存、OSS外部表)能力,可以与阿里云现有的RDS、NoSQL数据库方案实现数据融合分析。同时补全了EMR(Hadoop)分析场景中实时性不足的问题,为用户提供基于开源OLTP、OLAP、BigData生态的一站式解决方案。
Greenplum 诞生于2006年,是一个分布式大规模并行处理数据库,常用于大数据的存储引擎、计算引擎和分析引擎。它和HybridDB将形成云上云下业务场景的互补,软件开发过程中,云上HybridDB环境与云下Greenplum商业版本、Greenplum Database开源版本环境可以采用同一套代码,节省开发及维护成本。
阿里云数据库团队的愿景是打造一站式在线分析引擎。从数据的传输、存储、计算到管理,让客户的数据需求能够在同一个产品环境体系内实现,进一步降低数据处理的整体成本。未来,阿里云将围绕 HybridDB 做数据库生态的努力。一方面,加速与阿里云数据类产品实现互通,让用户可以通过SQL快速分析从不同渠道存储下来的数据。另一方面,引入合作伙伴认证机制,邀请更多ISV开发商及BI/ETL厂商支持,共同为用户创造价值。
实时分析
支持SQL语法进行分布式GIS地理信息数据类型实时分析,协助物联网、互联网实现LBS位置服务统计
支持SQL语法进行分布式JSON、XML、模糊字符串等数据实时分析,助金融、政企行业实现报文数据处理及模糊文本统计
稳定可靠
支持分布式ACID数据一致性,实现跨节点事务一致,所有数据双节点同步冗余
分布式部署,计算单元、服务器、机柜三重防护,提高重要数据基础设施保障
简单易用
丰富的OLAP SQL语法及函数支持,众多Oracle函数支持,业界流行的BI软件可直接联机使用
可与云数据库RDS(PostgreSQL/PPAS)实现数据通讯,实现OLTP+OLAP(HTAP)混合事务分析解决方案
性能卓越
支持行列混合存储,列存性能在OLAP分析时相比行存储可达100倍性能提升
支持高性能OSS并行数据导入,避免单通道导入的性能瓶颈
灵活扩展
按需进行计算单元,CPU、内存、存储空间的等比扩展,OLAP性能平滑上升致数百TB
支持透明的OSS数据操作,非在线分析的冷数据可灵活转存到OSS对象存储,数据存储容量无限扩展
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。