至顶网软件频道消息: 微软正在为希望为他们的应用和服务增加更多人工智能智慧的开发者提供新的视觉、人脸识别和实体搜索界面。
微软继续推出更多的应用程序编程接口(API),让开发人员能够将自定义的人工智能功能添加到他们的应用程序中。
3月1日,微软推出了其定制视觉(Custom Vision)服务的公开预览版;在其Face API中增加了一百万个可识别的面孔;并在Azure门户中提供Bing Entity Search服务。
这些API和服务都是微软正在开发的25种以上的认知服务的一部分。
去年5月,微软的官员表示,56.8万名开发人员正在使用其认知服务(Cognitive Services)将人工智能的智慧添加到他们自己的应用程序和服务之中。本周,该公司的官员们表示,已有超过100万的开发者注册并使用了微软的认知服务。
自定义视觉服务API(Vision Service API)允许开发人员用一组自己的图像数据训练分类器,这些图像数据甚至可以只有十几张图片,然后在iOS、安卓和其他的“边缘”设备上离线运行。
认知服务负责小组项目经理Andy Hickl表示:“没有人有时间从头开始构建定制模型。”他表示:“这可以让你上传图像,尽你所能地对它们进行注释,并使用主动学习来建议更多的注释。”
Bing Entity Search添加了有关人物、地点、事物和本地商业,这些内容可以被添加到任何应用程序、博客或者网站之中。微软拥有的实体信息包括名人、地点、电影、电视节目、游戏和书籍。
在相关的人工智能新闻中,据Axios报道,微软今天宣布,Javier Soltero现在负责监督Cortana。他曾任Office的企业副总裁,现在是Cortana公司的企业副总裁。
微软的一位发言人表示,Soltero正在扮演一个全新的角色,而不是取代某个一直在这个位子上的人。Andrew Schuman现在仍然是Cortana Engineering公司的企业副总裁。
好文章,需要你的鼓励
浙江大学研究团队开发了ContextGen,这是首个能够同时精确控制多个对象位置和外观的AI图像生成系统。该系统通过情境布局锚定和身份一致性注意力两大创新机制,解决了传统AI在多对象场景中位置控制不准确和身份保持困难的问题,并创建了业界首个10万样本的专业训练数据集,在多项测试中超越现有技术。
谷歌推出升级版图像生成模型Nano Banana Pro,基于最新Gemini 3语言模型构建。新模型支持更高分辨率(2K/4K)、准确文本渲染、网络搜索功能,并提供专业级图像控制能力,包括摄像角度、场景光照、景深等。虽然质量更高但成本也相应增加,1080p图像费用为0.139美元。模型已集成到Gemini应用、NotebookLM等多个谷歌AI工具中,并通过API向开发者开放。
上海交通大学研究团队开发的SR-Scientist系统实现了人工智能在科学发现领域的重大突破。该系统能够像真正的科学家一样,从实验数据中自主发现数学公式,通过工具驱动的数据分析和长期优化机制,在四个科学领域的测试中比现有方法提高了6%-35%的精确度。这标志着AI从被动工具转变为主动科学发现者的重要里程碑。