若干年前,很难想象会有一样技术工具是由人工智能驱动的。
若干年后,很难想象会有任何技术的背后没有人工智能的影子。
云计算与日俱增的强大威力、运行于深度神经网络的强力算法,再加上今天能够获取到的海量数据,在这三股强大动力的交织驱动下,今天,我们终于有能力实现人工智能的梦想。
人工智能拥有无穷的潜力,它有能力颠覆任何现有的垂直行业,比如银行或者零售业,还有任何单一的业务流程,比如销售、市场或者人力资源和猎头。
这样发展下去,终有一天,人工智能将有能力为人类无边的聪明才智锦上添花——增强人类已有的能力,并且帮助我们获得更强的生产力。
最近,人工智能开始为大众所关注,但微软在人工智能上的投入由来已久。从二十多年以前,我们就已经在不断地构建人工智能的基础,机器学习、语音识别、计算机视觉、图像识别,在这些领域中的一个一个成就不断地积累起来,最终促成了今天这一波引人注目的人工智能的突破。
时至今日,我们得以利用之前数十年的研究成果,利用Microsoft Graph读取数据,利用Azure云计算的强大计算力,以此为基础,我们打造出了新一代的人工智能工具和产品,让开发者和客户能够真正从中受益。
今天,在西雅图召开的Build 2017大会上,我们分享了微软关于人工智能的愿景:将人工智能带给每个人,从开发者到数据科学家,从技术爱好者到学生。作为这一愿景的组成部分,我们致力于为开发者提供包括工具、服务在内的完整的平台,同时我们要强调信任的原则,是始终让人掌控一切。
将人工智能带给每个开发者
在微软认知服务的帮助下,开发者可以让自己的应用识别手势、翻译多种语言,通过解析视频实现快速搜索、编辑、实时添加字幕,甚至可以通过定制数据来识别某种特定类别的画面。
在Build大会上,我们宣布现在已经可以提供29种认知服务,这为开发者提供了广泛的选择,让他们只要几行代码就能直接利用现成的人工智能,或者是对其进行定制加工。我们还演示了开发者该如何定制训练这些服务,而无需设计单独的深度学习模型。
这次新增的服务包括必应定制搜索 (Bing Custom Search)、定制视觉服务(Custom Vision Service)、定制决策服务(Custom Decision Service)和视频索引(Video Indexer)。我们还推出了微软认知服务实验室,让开发者成为这个研究社区的一部分,共同探索和理解人工智能的未来发展。认知服务实验室提供的第一个人工智能服务是手势API,它允许用户通过手势进行控制和互动,从而创造出更加直观和自然的操控体验。
微软认知服务提供了业界数量最多的人工智能服务,而微软也是唯一在关键认知领域提供定制功能的主要技术供应商。自2015年在Build大会上首次发布以来,已经有来自60多个国家和地区的超过56.8万名开发者注册使用了这项服务。
我们在理解语音和语言方面获得的进步引领了一种变化趋势——从人类必须理解计算机的世界,发展到让计算机真正读懂人类的世界。我们称之为会话人工智能。
诸如微软对话机器人框架之类的工具,正在帮助人们以更自然的方式利用技术实现人机交互。自去年发布以来,有超过13万开发者已经注册对话机器人框架并用它进行创造。在Build大会上,我们演示了一些新的举措,让开发者能够更轻松地使用对话机器人框架。例如新的适应卡,允许开发者创建跨多个应用和平台工作的卡片。此外,开发者现在可以将其成果发布到新的渠道中,包括Skype for Business、必应搜索和 Cortana,并且可以利用微软的支付请求API,利用他们的机器人实现快速便捷的结账。
面向那些想要训练自己的深度神经网络的开发者,我们在Build大会上宣布了一项新功能Azure Batch AI Training的有限预览。利用这项新服务,开发者可以使用他们选择的任何框架来训练他们的数据模型,包括微软认知服务工具包、TensorFlow和Caffe等。在Build大会上,我们还演示了开发者该如何通过使用分析集成在数据所在的位置,如Azure Data Lake 、Azure Cosmos DB或者SQL Server上,直接运行这些深度学习模型。
人工智能与Azure相辅相成,将为开发者带来最全面的人工智能平台。
人工智能重新定义微软
今天,微软的每一件产品和服务都在融入人工智能,从Xbox到Windows,从必应搜索到Office。
就拿Office来说,人工智能让人们可以更轻松地创建更丰富多彩的内容。用户可以通过Office Researcher找到所需的一切,只要几秒钟,它就能够帮助用户研究和规划出文档的框架,例如在设计PowerPoint时,就能对语言进行转释并且建议出适合的视觉设计元素。
我们一直在不断研究如何利用人工智能改善Office体验。今天发布的Presentation Translator就能利用我们的翻译API在PowerPoint文档演示过程中,实时将其翻译成多种语言。启动Presentation Translator之后,它会在演讲者说话的同时,自动生成特定语言的字幕,甚至会生成一个链接让与会者能够实时看到自己语言版本的演示。
我们构想并为之奋斗的终极人工智能是Cortana,你的私人智能助理。目前全球各地有1.45亿用户在使用Cortana,而且微软还在加速推进Cortana跨设备和平台的推广,我们希望能够让每一位开发者更快捷地接触到这个快速增长的用户群。
除了哈曼卡顿内置Cortana的Invoke智能扬声器,我们还与惠普在设备端展开了合作,并且和英特尔一起开发参考平台,以便带来更多Cortana驱动的智能设备。
数据的力量
人工智能要获得成功,少不了另一个关键要素:数据。一个人工智能工具要获得成功,就需要大量的数据来进行训练和学习。
在Build大会上,我们向开发者提供了关于Microsoft Graph的更多细节。它允许用户使用来自其组织内的数据来推动人工智能转型。利用Office 365、必应搜索、LinkedIn,微软将工作数据与外界数据相互结合,此外还有来自其它任何业务流程或者应用的数据。
将于今年下半年推出的全新的销售体验平台Tact,将把Microsoft Graph的威力和来自业务与客户的数据全部整合起来。在Build大会上,我们展示了微软的众多产品和服务,包括Dynamics 365、Office 365、Microsoft Teams、Cortana Skills、Microsoft Graph 和Sentiment Analysis如何被整合到Tact平台上,成为一个由对话人工智能驱动的虚拟销售助手。
在微软,我们希望将人工智能带给每一位开发者,利用微软云、微软人工智能创新、Microsoft Graph,帮助大家创建出由人工智能驱动的下一代应用。正如计算机科学家Alan Kay所说,“预测未来的最好方式,就是创造未来。”
作者:沈向洋博士,微软全球执行副总裁,微软人工智能及微软研究事业部负责人
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。