AWS正在向自己的云平台中增加更多新的功能,帮助开发者更有效地编写代码,并为AI项目生成训练数据集。这些功能于近日在美国拉斯维加斯举行的Amazon re:MARS 2022大会上首次亮相。
AI驱动的编码助手
AWS云产品组合的首个新增功能,是一项名为Amazon CodeWhisperer的服务,该服务目前处于预览阶段,使用AI自动生成软件代码。据AWS称,这项服务通过自动生成原本必须手动的代码,为开发者节省时间,从而更快速地完成软件项目。
AWS表示,已经用来自开源项目、内部代码库和其他来源的数十亿行代码对CodeWhisperer进行了训练。该服务能够一次性生成超过10行代码,还可以匹配给定软件项目的编码风格,从而简化某些开发任务。
“CodeWhisperer利用多个上下文线索来生成建议,包括源代码中的光标位置、光标之前的代码、同一项目中其他文件的注释和代码,”AWS首席布道师Jeff Barr详细介绍说。
软件团队可以使用AWS IDE Toolkit工具访问Code Whisperer,该工具旨在与开发者的集成开发环境或IDE集成(IDE是程序员用来编写代码和执行相关任务的一种桌面应用)。CodeWhisperer支持多个主流IDE以及多种编程语言,包括Java、JavaScript和Python。
CodeWhisperer可以根据开发者添加到源文件的自然语言文本生成代码片段。如果开发者输入“检查数字是否为质数”之类的指令,CodeWhisperer就可以生成执行指定任务的代码片段。如果完成一项任务需要利用云服务或库等外部技术,CodeWhisperer则可以自动找到必要的技术并将其整合到代码中。
CodeWhisperer服务的另一个重点是让开发者更容易使用AWS云平台,它简化了在AWS Amazon S3存储服务中创建存储桶或数据存储库等任务,此外也适用于其他服务例如Amazon EC2和AWS Lambda。
简化AI训练
除了CodeWhisperer之外,AWS还更新了SageMaker Ground Truth服务。该服务可以帮助软件团队为AI项目创建训练数据集,此次更新加入了合成数据生成功能。
构建AI应用涉及到很多步骤,其中最耗时的步骤之一就是准备训练数据集,可能需要长达数月的时间,因为这通常需要手动创建数据,例如,如果一家公司正在构建一个神经网络来检测生产线上的故障组件,就必须创建一个包含了故障组件图像的自定义训练数据集。
AWS人工智能和机器学习首席开发者布道师Antje Barth在一篇博客文章中解释说:“一旦你收集了所有数据,就需要准确地标记图像,这本身就是一项艰巨的任务。手动标记图像很慢,并且容易出现人为错误,构建自定义标记工具和设置缩放标记操作可能是既耗时又耗费成本的。”
据AWS称,此次更新SageMaker Ground Truth将简化这项任务,AWS可以帮助企业创建一个合成的训练数据集,加快AI开发速度,这种合成训练数据集是专门为AI开发目的而生成的文件集合。
Barth详细介绍说:“AWS数字艺术家将首先创建一小批带标签的合成图像作为试制,供你查看。一旦准备好,就可以使用逼真的物理引擎进行渲染,通过虚拟世界中的传感器捕获场景图像,图像也是自动标记的。”
新的合成数据生成功能和CodeWhisperer服务扩展了AWS已经相当广泛的AI产品组合。AWS提供了多种旨在简化神经网络开发的服务,还通过Amazon Personalize等产品提供预打包的机器学习功能,用于自动生成产品推荐。
好文章,需要你的鼓励
OpenAI发布ChatGPT新功能Pulse,可在用户睡眠期间生成个性化报告,提供5-10条简报帮助用户快速了解当日重要信息。该功能旨在让用户像查看社交媒体一样优先使用ChatGPT。Pulse首先向每月200美元的Pro订阅用户开放,未来计划扩展至所有用户。功能支持连接Gmail、日历等应用,可解析邮件、生成日程安排。报告以卡片形式展示,包含AI生成的图像和文本,涵盖新闻摘要、个性化建议等内容。
这项由谷歌DeepMind研究团队完成的开创性研究首次系统阐述了AI智能体经济的概念框架。研究提出"沙盒经济"模型,从起源性质和边界渗透性两个维度分析AI智能体经济形态,预测未来将出现自然涌现且高度透水的AI经济网络。研究详细探讨了科学加速、机器人协调、个人助手等应用场景,提出基于拍卖机制的公平资源分配方案和使命经济概念,并深入分析了技术基础设施需求、社区货币应用以及相关风险防范措施。
AI平台公司Clarifai发布新推理引擎,声称能让AI模型运行速度提升一倍,成本降低40%。该系统采用多种优化技术,从CUDA内核到高级推测解码,能在相同硬件上获得更强推理性能。第三方测试显示其在吞吐量和延迟方面创下行业最佳记录。该产品专门针对推理过程优化,特别适用于需要多步骤响应的智能体和推理模型。
中国人民大学研究团队提出LoFT方法,通过参数高效微调基础模型解决长尾半监督学习中的数据不平衡问题。该方法利用预训练模型的良好校准特性改进伪标签质量,并扩展出LoFT-OW版本处理开放世界场景。实验显示,仅使用传统方法1%的数据量就能取得更优性能,为AI公平性和实用性提供了新的解决方案。