Oracle 宣布将对 MySQL HeatWave 进行革新,包括支持向量存储、生成式 AI、新增数据库内机器学习功能、MySQL Autopilot 增强功能、新增 HeatWave Lakehouse 功能、支持 JavaScript、加速 JSON 查询以及支持新的分析运算符。目前在私有预览中,向量存储支持客户利用大型语言模型 (LLM) 的功能及专有数据,其准确性比仅使用公开数据进行训练的模型更高。通过生成式 AI 和向量存储功能,客户可以使用自然语言与 MySQL HeatWave 交互,并高效地在 HeatWave Lakehouse 中搜索各种格式的文档。
甲骨文公司首席企业架构师 Edward Screven 表示:“此次宣布推出的 MySQL HeatWave 增强功能,是我们在解决客户数据、分析和 AI 等紧迫问题的又一个重要里程碑。我们之前在 HeatWave 中添加了具有高性价比、自动化机器学习、湖仓一体和多云功能的实时分析。现在,向量存储和生成式 AI 为客户带来了强大的 LLM,客户可以用一种直观的方式来与企业中的数据交互,并获得业务所需的准确结果。”
为满足希望对各种数据类型和数据源执行分析、事务处理、机器学习和生成性 AI 的客户,MySQL HeatWave 中增加了额外的功能,适用于与 MySQL 兼容的工作负载和非 MySQL 工作负载。
生成式 AI 和向量存储(私有预览)
向量存储以各种格式(如 PDF)摄取文档,并将其存储为通过编码器模型生成的嵌入。对于给定的用户查询,向量存储将对所存储的嵌入和嵌入式查询执行相似性搜索,识别相似度高的文档,然后这些文档将用于增强给 LLM 的提示,使其能够提供更符合情境的答案。
MySQL HeatWave AutoML
MySQL HeatWave 所提供的数据库内机器学习包含全自动化的训练模型管道。客户无需将数据迁移到单独的机器学习服务中,即可轻松、安全地将存储在 MySQL HeatWave 中的数据用于机器学习训练、推断和解释。具体新增功能如下:
MySQL Autopilot
MySQL Autopilot 是 MySQL HeatWave 的内置功能,使用机器学习驱动的自动化来提高性能和可扩展性,并且无需具备数据库调优的专业知识即可操作。该功能将学习如何执行查询,以改进未来查询的执行计划。MySQL Autopilot 新的增强功能包括:
其他 MySQL HeatWave 增强功能
NAND Research 首席分析师兼创始合伙人 Steve McDowell 表示:“MySQL HeatWave 工程团队显然正在加大 AI 和机器学习的创新力度。现在,客户不仅能够以全面自动化的方式,使用数据库和对象存储中的数据进行机器学习模型训练,还可以借助全新的 AI 和向量存储功能,以自然语言与 HeatWave 进行交互。相关的模型训练除了使用公开提供的数据外,也使用了企业自己的数据,让客户能够获得精准符合业务目的的答案。客户可以自由选择 LLM,而这一点凸显了 MySQL HeatWave 工程团队的开放式协作策略。”
MySQL HeatWave 可在一个 MySQL 数据库服务中提供事务处理、实时分析、机器学习、数据池查询和基于机器学习的自动化功能。作为 Oracle Distributed Cloud 策略的核心,MySQL HeatWave 在 OCI 和 Amazon Web Services 中原生提供,作为 Oracle Database Service for Azure 的一部分提供,以及通过 OCI Dedicated Region 在客户数据中心内提供。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。