ZD至顶网软件频道消息:AWS正在让客户可以使用到为Amazon产品和能力提供支撑的人工智能技术,AWS首席执行官Jassy在本周二的re:Invent大会上这样表示。
“有很多公司并没有意识到Amazon在机器学习领域所具备的能力,”Jassy在主题演讲中说。
确实,随着云大战的升温,像Azure和Google Cloud Platform这样的竞争对手正在试图打压AWS的统治地位,而像机器学习这样的能力很大程度上成为Google的关键价值主张之一。但是Jassy指出,Amazon已经在很多方面采用了机器学习,例如声音激活助理Alexa,它的实现和逻辑能力,以及发现和搜索功能。
AWS第一款AI新产品是Amazon Rekognition,这是一个图像识别和分析服务。一旦提交图像,它就可以识别出对象和场景,可以做面部识别。它可以用于实时分析,可以批量处理数百万个图像,它易于使用且具有成本效益,Jassy这样承诺说。
第二个产品Amazon Polly是一个文本转换为语音的服务,采用了深度学习技术。一旦提交了文本流,Polly就会输出mp3音频流。有了Polly的智能特性,如果提交的是“WA的温度是75华氏度”,那么mp3输出的就是“华盛顿的温度是75华氏度”。
Polly支持24种语言的47种不同的声音。
Jassy推出的第三个产品是Amazon Lex,提供由深度学习实现的理解自然语言和自动语音识别。
这实际上是“Alexa的核心”,Jassy说。“这将让你可以开发所有类型的对话应用”。
有了在AWS上的集成开发平台,客户可以设置实例短语用于开发一个自然语言模型,并发布一个Amazon Lex Bot。用户可以设置Lambda功能或者出发提取数据用于各种请求和多步骤对话。
Amazon Lex设置了几个企业连接器,包括Salesforce、Facebook Messenger和Twilio。这是一个完全托管的服务,所以不需要花时间管理或者纵向扩展基础设施。
好文章,需要你的鼓励
OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。
艾伦人工智能研究所开发的olmOCR 2通过创新的单元测试训练方法,将文档识别准确率提升至82.4%,在处理复杂数学公式、表格和多栏布局方面表现卓越。该系统采用强化学习和合成数据生成技术,实现了完全开源,为全球研究者提供了先进的OCR解决方案,推动了AI技术民主化发展。
Zoom推出AI Companion 3.0,采用联邦AI架构结合自研模型与OpenAI、Anthropic等第三方大语言模型。新版本具备智能工作流、对话式工作界面等功能,可将会议对话转化为洞察、进度跟踪和文档内容。系统支持加密传输,不使用客户内容训练模型。用户可通过ai.zoom.us访问,或以每月10美元独立购买。
苹果公司发布了包含40万张图片修改案例的AI训练数据集Pico-Banana-400K,涵盖35种修图操作类型。该数据集采用严格质量控制,包含成功失败案例对比和多轮修图场景。研究显示AI在全局修改方面表现优秀,但精细操作仍有挑战。这为AI修图技术发展奠定基础,未来将让修图软件更智能易用。