AWS近日宣布全面推出AWS Entity Resolution服务,旨在帮助企业将数据组织成更易于处理的形式。
AWS在纽约举行的AWS Summit峰会上首次公布了这项服务。AWS高官们还在台上介绍了一些现有产品的新功能,这些功能与新的AWS Entity Resolution服务类似,都是为了让企业更轻松地管理和处理他们的数据。
AI驱动的实体解析功能
企业通常有多个记录描述同一对象。例如,某家电子产品零售商可能有一份描述手机功能的文档和一份包含了有关价格和上市信息的文档。尽管关注的是同一主题,但这些记录往往被保存在不同的系统中。
将相关记录链接到单个数据集中可能会很有帮助。单个数据集要比多个不同的文件更容易使用,特别是当这些文件分散在多个系统中时,而且在某些情况下,合并记录可以降低数据存储成本。
这次AWS发布的AWS Entity Resolution服务简化了将相关文件链接在一起的过程,而且该服务比企业经常用于实体解析的定制软件工作流程更易于使用。
用户可以通过可视化的界面与实体解析进行交互。AWS称,用户只需要点击几点下,就可以创建一个软件工作流程来查找相关记录并将其链接起来,还可以手动配置记录链接工作流程或者是使用AWS提供的预配置AI模型实现这个过程的自动化。
AWS应用副总裁Dilip Kumar表示:“如今,有关客户、产品或业务的信息通常是分散的并且保存在各个组织中,只需要点击几下,AWS Entity Resolution就可以让组织轻松匹配不同记录,并且将工作流灵活地、可扩展地、轻松地连接到现有应用。”
简化的AI数据管理
这次AWS峰会的另一个焦点是Amazon OpenSearch Serverless,这项托管搜索引擎和分析服务是在今年1月份推出的,现在已经更新加入了一种矢量引擎,处于预览阶段,将让企业更容易构建AI应用。
AI模型不会以原始格式存储它们摄取的文本、图像和其他文件。相反,模型会把摄取的数据转化为所谓的嵌入,这些是专门的数学结构,比其他类型的数据更容易被神经网络处理。
AWS称,客户可以使用OpenSearch Serverless中新增的矢量引擎来存储他们的AI模型嵌入,而且该引擎可以存储多达数十亿个嵌入。它会在幕后把数据保存在AWS Amazon S3对象存储中,并随着应用需求的变化自动添加或者删除基础设施容量。
AWS公司产品管理高管Pavani Baddepudi和Carl Meadows在博客文章中详细介绍称:“这种矢量引擎通过适应不断变化的工作负载模式和需求来自动调整资源,以提供始终如一的快速性能和规模。随着矢量数量从原型设计期间的几千个增加到生产中的数亿个甚至更多,这种矢量引擎将实现无缝扩展。”
除了存储AI模型的信息外,这种矢量引擎还提供了相似性搜索功能,允许神经网络上传文件并查找已存储在引擎中的类似记录。通常,企业执行该任务需要使用复杂的第三方软件工具。
在数据库中查找相似记录,对很多AI用例来说至关重要。例如,推荐引擎的工作原理就是分析用户购买了哪些产品并显示出类似的商品。AI驱动的网络安全工具则是通过将系统访问请求与已知恶意活动模式进行比较来检测违规行为的。
生成式AI增强
除了OpenSearch Serverless之外,AWS此次还更新了另外两项服务:AWS Glue和Amazon QuickSight,这两项服务增加了生成式AI功能,旨在通过自动执行重复性任务来简化用户的日常工作。
Glue是一种数据集成服务,用于将业务记录转换为更易于分析的形式。工程师们通过编写脚本或者笔记本与Glue进行交互,这些脚本或笔记本定义了如何准备数据以供分析。同时,它集成了AWS的生成式AI编码助手Amazon CodeWhisperer,使工程师能够使用自然语言命令创建这些脚本。
QuickSight也增加了生成式AI增强功能。据AWS称,这项商业智能服务现在允许用户通过在侧边栏中输入自然语言指令将数据转换为图表,分析团队同样可以使用文本提示来自定义图表并对数据进行计算。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。