近日,获得 AI 开发者广泛关注(Github star 数 9000+)的“AI 神鸟项目” Milvus 向量数据库(Milvus 在英文中指鸢),正式宣布2.0 版本的 GA。全新的 Milvus 向量数据库具备支持大规模生产环境的能力,帮助开发者在构建深度学习、机器视觉、语义学习等大规模系统时,能够快速构建起高可靠、高性能、高检索效率、运维管理友好的向量数据(embedding vector)处理平台。
“这不是一次简单的版本升级,而是一次全面重构,也是我们过去三年在向量数据库领域探索之后的集大成之作。在经过对架构进行全面重新设计,及 9 个 RC 版本的迭代后,我们正式宣布 Milvus 2.0 的 GA。 Milvus 的用户将由此能够获得生产级可用的开源向量数据库系统,它可以部署在任意云基础设施上,使用更加便利,性能更加强大,整体成本也更为优化。”Milvus 工程总监栾小凡如此描述此次 GA 对 Milvus 项目的意义。
“我们在迭代了 19 个版本后发布了 Milvus 的 1.0 版本,并获得了全球近 1000 家用户的实践验证。但我们依然看到了它的很多局限性,比如实时性与效率的冲突,成本的高昂,可扩展性和弹性的不足。于是我们开始了 2.0 版本的重构。” 栾小凡提及的这些局限,充分说明目前 AI 系统开发者在面对生产落地时,在算法和模型之外,也同样面临更为切实的权衡:
的确,随着 AI 应用的大规模快速普及,一套 AI 系统需要应对的业务数据量呈几何级数增长。这其中以图形、视频、音频为代表的非结构化数据为主。目前业务处理这类非结构化数据的主流的做法是将数据通过算法先转化成向量(embedding vector),之后通过向量数据库平台进行向量近似性搜索,以实现对这些数据的搜索查询等需求。在最近的人工智能顶会 NeurIPS 上,Google、Facebook 及 Microsoft 的 AI 团队向业界公开了数个全新的 10 亿级向量数据包,而这些数据全部基于真实的业务场景产生。面对这些这些真正意义上的“大规模”并且仍在高速增长的海量数据,是否有更好的向量数据库解决方案,能在更高的效率、更好的成本收益比,更稳定可靠的平台支持,更方便的运维管理之间取得取舍均衡,是业界的焦点所在。
Milvus 2.0 正是为应对这种大规模生产级场景而设计的向量数据库系统,综合考虑了架构稳定性、工程可靠性、性能、成本、功能、用户体验等多种因素,并全面拥抱云原生技术。
Milvus 2.0 围绕三个理念,重新定义了新一代云原生向量数据库:
Milvus 2.0 架构概览
基于上述的理念及架构设计,Milvus 2.0 可以支持: 百亿规模的向量数据扩展能力,增量数据毫秒级实时可见的数据可见性,存储计算的秒级扩缩容能力,10 毫秒级查询延时性能,分钟级的故障恢复能力,动态负载均衡能力;提供完善的面向向量数据的增删改查功能,数据压缩压缩功能,动态加载索引功能,及图形化 GUI 及命令行管理工具,提供 PyMilvus、Node.js、Java and Go 等多语言语言 SDK。目前,Milvus 2.0 无论在性能、功能、稳定性、可扩展性及易用性方面,均到达业绩领先水平,重新定义了向量数据库的标杆。
“基于大数据 + AI 的应用架构依然过于复杂,简化非结构化数据处理一直是 Milvus 社区努力的方向。” 谈及 Milvus 项目未来的发展路线图时,栾小凡这样表示。接下来的 Milvus 项目会重点关注以下几个方向:
好文章,需要你的鼓励
Instabase 公司完成 1 亿美元 D 轮融资,估值 12.4 亿美元。该公司提供非结构化数据处理平台,可从多种文件中提取信息并标准化。新资金将用于增强数据提取、分析和搜索功能,以满足企业 AI 需求。
人工智能在建筑设计领域正展现出惊人潜力。从生成令人赏心悦目的建筑效果图,到创造无限游戏世界,AI 正逐步改变设计流程。尽管人类仍是核心创作者,但 AI 辅助工具正迅速普及,未来可能会大幅提升设计效率和质量。这一趋势引发了对 AI 取代人类建筑师的担忧,也带来了硬件革命和地缘政治影响。
研究显示,高收入公司的CEO正将人工智能置于业务战略的核心地位。欧美企业声称已具备AI项目的基础条件。专家建议避免过度乐观,关注投资回报,构建稳健的数据基础,并优先考虑循序渐进的推广策略。研究还发现,最成功的公司往往是那些高层领导有意识地不直接参与AI战略制定的公司。
微软研究团队开发了名为 MatterGen 的扩散模型系统,用于高效发现新材料。该系统可从大量候选材料中筛选出具有特定性质的新材料,比传统方法快速高效得多。这项技术有望加速电池等关键领域的创新,推动材料科学的发展。