数据库巨头Oracle今天宣布推出基于云的自治数据仓库新版本,有分析师称,新版本增加的功能将有助于推动机器学习的大众化。
整体来看,新版本将Oralce 自治数据仓库从一个复杂的产品生态系统变成了一款为数据分析师和商业用户提供“直观的单击和拖放体验”的服务。
Oracle在2018年发布自治数据仓库,定位是一个用于处理所有企业组织信息的存储库,易于使用且可以自我修复和自我优化。据称,自治数据仓库的查询性能非常高,并且可以根据用户的需求进行扩展。由于自治数据仓库是一项自主服务,因此Oracle负责所有涉及调配、配置、调优、备份和安全性的方面。
自治数据仓库作为一个提取、转换、存储和管理来自任何来源数据的统一平台,可以对信息进行分析以提供业务决策,也可用于例如推动人工智能训练等方面。
Oracle表示,今天公布的新版本和新功能特性可以让数据分析师和普通业务用户的工作变得更加轻松,同时实现比以前更深入的分析。新版本提供了更为简单的拖拽界面和低代码编程工具,让人们意识到Oracle所说的“大众开发者”正在迅速崛起。
Oracle大数据和高级分析副总裁Neil Mendelson表示:“如今,构建数据库的人是数据库管理员、数据工程师、数据建模人员和数据库开发人员,而使用数据库的人却是业务部门的人。我们要赋予他们更多自我服务的能力。”例如,新版本中内嵌的数据工具可以让用户更轻松地将数据加载到自治数据仓库中,提供给团队成员协作使用。Oracle说,用户可以使用拖拽界面加载数据,然后自动生成业务模型,发现数据中的异常情况和隐藏模式,了解其中的关联和变更带来的影响。
Mendelson说:“我们增加了简便性让包括中小企业在内的广大客户可以使用数据仓库而不必依赖IT部门。”
有分析师认为,这次发布的新版本中,最引人关注的新功能是AutoML,该功能可以通过一个无代码用户界面自动创建机器学习模型所涉及的许多耗时步骤。非技术型的业务用户可以使用拖拽工具来设置期望的结果,例如让特定客户更有可能注册附属项目的各项因素。AutoML会对数据集进行扫描,采用不同的机器学习算法例如贝叶斯(Bayesian)和K-means,输出最可能的相关因子以及最适合确定这些因子的统计技术。
Meldelson说:“如果现在你不知道数据都在哪里,那么这对你来说就像是大海捞针。我们已经颠倒了整个过程,让系统可以找到这根针,因为它无需人类发出询问即可在数据中查找出异常。”
Dragon Slayer Consulting总裁Marc Staimer表示,AutoML功能实际上改写了关于数据仓库服务使用机器学习会有怎样性能表现的游戏规则。“自问世以来,Oracle 自治数据仓库就内嵌了机器学习功能,不过现在实现了自动化,这样任何客户都可以使用该服务而无需任何专业技能,相比之下,这让其他竞品显得非常基础而原始。”
此外,自治数据仓库现在还兼容Python编程语言。Python由于其简单性成为了机器学习代码编写的主流选择。据说,现在代码编写将更加直观并且更易于被人类所理解,从而让机器学习模型构建也变得更加容易。
不仅如此,现在自治数据仓库还允许用户使用拖拽功能和低代码技术来定义各种最终用户工具(如Tableau和Qlik)的数据要求。
这次发布的另一个新功能是支持可用于对不同实体之间关系进行建模和分析的属性图功能。Oracle表示,现在用户可以在自治数据仓库内创建图形,使用60多个内存图形分析程序对其进行分析。在此基础上,新的Graph Studio UI功能还可以通过提供自动创建的图形模型、集成的可视化效果和针对不同任务的预构建工作流来帮助初学者掌握图形分析技术。
最终,自治数据仓库还扩展了在Oracle 云基础设施对象存储和其他第三方对象存储中查询数据的功能。
现在Oracle通过自治数据仓库增强功能进一步扩大了领先优势,这些功能旨在消除用户对SQL的需求,让数据分析和机器学习更加普及。Oracle提供了拖拽式的UI和AutoML来构建和测试机器学习模型,让业务用户可以自己进行数据探索,而无需依赖IT、数据库或系统管理员来管理数据。
如今,低代码/无代码工具发展势头迅猛,因为当今很多应用从设计之初“并没有意识到会被几代人持久使用”,例如只是针对单一项目或者事件开发的专用智能手机应用。“但是现在,我们谈论的是打造一种让任何人都可以开发的敏捷应用。”
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。