微软李京梅：微软认知服务让应用更智能

作者：赵东

微软认知服务包涵的智能API让开发者仅用几行代码就可以借助强大的算法开发应用程序，不论是 iOS、Android 或者 Windows ，基于机器学习的人工智能使自然的和基于语境的人机交互变为可能，为应用增强用户体验。

ZD至顶网软件频道消息： 2014年微软新CEO接棒以来，微软的策略发生了巨大的变化，创新成为新的风向标，一切都以此展开。在2016年微软开发者峰会上，微软展示了基于云端语音识别技术和波形分析技术的口吃辅助治疗应用，以及通过感知周围环境的盲人人工智能应用，微软的认知服务正在以自己的科技力量帮助开发者创造更人性化、创新的应用。

微软中国云计算与企业事业部首席产品经理李京梅

微软认知服务就是此前微软的“牛津计划”，它旨在帮助开发者开发更智能的应用，通过API的调用方便快捷地在跨平台应用中添加面部、语言、图像、文本等识别。微软中国云计算与企业事业部首席产品经理李京梅表示，基于机器学习的人工智能使自然的和基于语境的人机交互成为可能，为应用增强用户体验，微软认知服务包含的智能API让开发者仅用几行代码就可以借助强大的算法开发应用程序，实现跨设备、跨平台的应用开发。

据了解，目前微软Azure上有21款API，分别涉及视觉、语音、语言、知识和搜索五个方面。在商用方面，Azure全球版已经拥有八款API的收费计划，Azure中国版也在不久的将来可以提供商用服务。

人脸识别与CRM的集成

认知服务的商用计划，全球版已经有8种API的付费计划，国内版也很快了

李京梅现场演讲实录（官方确认版）：

认知服务到底是什么，今天机器学习、人工智能这些技术已经不再是神秘的黑科技，为自然的人与机交互的应用变得更为可能，可以让应用插上智能的翅膀，让应用拥有人的智慧。所以，下面我会给大家介绍我们的认知服务，希望可以让大家把智能带入到你的应用里面，让你的想法变成现实。

多年以前，也不是多年以前，甚至只是好几年以前，曾经有销售部门的同事带着客户来找到我们研发部门，当时给我们看了一个很长的单子，全是微软在各个市场有关的专利长长的列表，当时我首先是感到非常震惊，没有想到微软有这么多专利的项目，包括搜索的、数据结构的等等。但是在另一方面我也感到非常遗憾，因为这些专利其实都已经在被埋藏在我们各种产品线里，包括Office、Windows、必应搜索，可是我没有办法给到我们的小伙伴们。今天认知服务的出现，就是把这些高科技、黑科技开放出来以API的形式，应用程序接口的形式开放给大家，让你的应用理解你所看到的这些数据，包括文字的、视频的、图片的、语音的。刚才说了这么多，其实微软拥有这些技术、产品技术很多年，都不是全新的东西，它是在逐渐的深化、提高。今天把这些强大的模型，包括刚才我说的微软各个产品线里，今天早上大家看到的小冰、小娜、必应搜索等等，这些模型和算法都开放出来分享给大家，可以让大家把它放到自己的应用和产品里面去。所以我的口号，就是希望我们的认知服务做你的最强大脑。

认知服务是一系列API的接口，也包括一些可以训练你自己数据的工具和系统，我们最终的宗旨是让它变得轻松使用，让你觉得触手可及。今天大家已经注意到了，完全是一个“微软爱”的主题，微软爱开源，微软爱Linux，微软爱认知服务，而且微软爱跨平台、跨设备，也不需要你一定要用Visual Studio，也不一定要你用Script，后面我会进行一些演示，就是希望这些API的接口可以让你轻轻松松开发应用，不用再想背后的算法跟模型，我们来帮你把这些事情搞定，你只要关注你自己的应用，你的业务、你的企业、你的逻辑。

微软认知服务讲了这么长的时间，我想在场的很多小伙伴们肯定都已经开始进行了一些试用。我下面花一些时间给大家再讲一下到底有哪些应用，从产品。今天上午小文博士主要Show了一下肌肉，微软从研究院角度有哪些超前的技术，从这些技术研究的成果，到转化成产品，是有一个过程，今天我们给大家开放了这五个系列或者五个类别。所谓人工智能，我们要给应用赋予人的智慧，包括哪些呢？听、说、读、写，今天我们看到的这五类，听跟说，语音跟文字双向转换，STT、TDS，读包括什么？是广义的读，从你能够看到的东西，你能够看懂照片、看懂视频，甚至你能看懂很多文章，包括语言类的，里面的含义是什么，语意是什么，写，包括拼写检查。还有一个更重要的，我们在听、说、读、写之外还可以学习，还可以搜索。视觉，刚才我已经讲过了，后面我会详细再展开一些，凡是跟图片、图象处理相关的，这是属于视觉这一类。语音类，凡是跟语音相关的，语音文字双向转换，甚至你有特定的用户群，有特定的有噪音或者在一些公开的场合，你可以使用我们的定制化智能语音识别服务，自己拿你的数据进行训练，这样你的精确度，识别率就会高很多。语言类和知识类，这里面都是包括对文本文字的一些基本认识和处理，以及语意的分析，我后面也会重点给大家介绍一下我们的语言理解智能服务。知识类的，这里面有很多学习和演绎，进一步这一层的含义。最后一个序列是必应搜索，所有搜索引擎后面的功能，以搜索接口的形式开放给大家，包括普通网页的搜索，以及一些垂直方面的，像新闻、图片、视频等等的搜索，都以API的形式开放给大家。

重点提几个，是我们目前来讲一共有21款API，而且我们从深度跟广度都会不断引申。今天重点从全球来看，更多也是从中国现在正在使用的客户来看，大家比较感兴趣的几个方面，一会儿给大家演示一下中文的网页，线下的小伙伴也非常聪明，自己也可以进行一些学习。上午小文博士也提到，微软在研究计算机视觉这个领域还是非常给力的，在我们前不久的计算机视觉方面的大赛也得了很多一等奖，不管是能够识别出来的物体的种类，还是坐标值、位置等等，精确率都非常高，排名非常靠前。但是同时，我也想跟小伙伴们讲，其实从一个学术研究的成果，到我们的产品，中间还是有一个距离，所以不要把这两个方面混淆，我们的产品相对来讲是属于从技术上比较成熟，也比较适用一些实际的场景，我们会逐步通过产品给大家分享。比如说计算机视觉分为这样几个方面，一是对我们图像里面的基本特征值的抽取。今年我们在3月底Build2016全球开发者大会，我们刚刚增加了对图像里面的物体识别，打标签的功能，目前可以识别2000多种物体，我们识图的API在你的图片里看到一种物体就会标注一种物体，而且这2000种物体的种类会逐渐增加。识别名人，这属于在我们分析图像垂直的一些特定的领域，比如现在可以识别名人全球大概跨商界、体育界、文娱界，大概有小几十万的人脸库，如果你的图片里有人脸出现，以后也会不断增加，可能还会有其它领域，比如识狗、识花等等方面也会慢慢推出。识别图片里的文字，一般讲的OCR。还有生成缩略图，这是一个智能的缩略图。

下面看几张简单的图片，举一些比较直观的例子，比如说这张图片，里面是一个人，我们拿人直接去识别的时候，你会看出来这是一个人在游泳，分析图片，首先当我们看到图片里出现人脸的照片的时候，首先可以分辨出，跟我们的人脸识别用的是一个技术，年龄跟性别会把他判断出来。还有是不是剪贴画，是不是黑白照片，还是彩色的。下面看图片的内容，这里面有一些比较新的东西，如果你们在真正使用的时候，这里面有一个特征值叫Content（音），分了86类，这是有层级的，试图告诉你这个照片的主题是有关人、有关动物还是有关植物。如果你了我们最新的Types，会把所有认出来的物体打上识别的标签，比如这张照片有水、运动、游泳、泳池，还有水上运动，而且会把每一个标签打一个确信值，这个确信值，开发者根据自己应用场景和逻辑，以自己确定一些阀值，看你最后怎么决定，怎么使用这些具体的数值。还有就是颜色，一会儿我有一个演示，大家可以比较直观的去体会，包括主导色、前景色、背景色，这在很多应用场景也很有意义。包括还有国内在用的一些鉴黄的应用，图片里是不是有成人内容，不雅照等等，都会标注出来，并且打出一个确认值的分值。这张照片来自今天早上萨提亚·纳德拉在进行主题演讲的时候的一张照片，我们通过计算机视觉API识别的时候，就可以说这里面有名人，名字是萨提亚·纳德拉，并且把萨提亚·纳德拉的人脸的坐标值标志出来，也给打一个确信值。这里面会用到自己的照片，这也是微软非常注重隐私的公司，我不能随便乱用网上的照片，只能拿自己的照片牺牲一下。这张照片是我在2005年的时候，在墨西哥坎昆玩儿的时候吃饭的一张照片，上午小文博士也讲了一下，这也是利用了我们计算机是觉得API，CaptionBot.ai视图机器人，像我这张照片传上去之后，他会说“这是一个女士在餐桌上吃饭，她看起来挺高兴”，也会有一些情况，比如手里拿什么东西，在做什么事情，不确定的时候，识图机器人也会猜一下告诉你。首先这里面没有名人，他没有识别出来，如果是名人，他会把名字讲出来，他在做什么事情。关键最后那个表情符，也是用到了我们的情绪识别的技术，看起来是高兴的，比如是很惊讶的等等，都会在视图机器人的看图说话的场景里体现出来。

提取图片的文字，我特地找了一段中文网站里面的客户证言，这是法国做社交媒体分析的客户，下面的名字用的是英文，客户证言这部分是中文，这张图里也有图片，所以我们要提取这里面图片的文字，这是我的原文转抄，从API返回的结果我抄在这儿了，基本上是完全正确的，而且你会发现，它可以自动识别你里面的语言，无论是中文还是英文，可以给你一起提取出来。当然，如果你很明确的知道这张图片里只有中文或者只有英文，你把语言参数设置得比较具体，它的性能或者效果可能会更好一点。这是返回的JSON值，我把中间几个关键点标出来了，蓝色，比如识别出来这里主要是英文，“zh Hans”，API自己定义的，每一个中文字识别出来以后，在图片里的像素坐标是什么都标注出来了，加上这些识别文字，加上坐标，在应用里面可以进一步组合，去附加逻辑。目前已经支持的功能刚才也讲到了，支持多语言的识别，扫描的图片等等，效果会比较好一点。但是也有一些待增强的功能，比如像手写体现在还差一点，我自己也试了一下。也希望大家多多使用，我们网站有各种渠道给我们反馈。目前来讲，特别希望大家用，来给我们反馈，我们好进一步跟各个相关的技术团队进行反馈，可以提高一下我们整个产品。

智能缩略图，这是非常实用的小功能。现在演示的是普通的关闭了智能所略功能的图片，从一张大图，看到上面的图片和下面的图片，其实分别都有一个主题，上面是一个雕塑，在山上。下面是一个女孩在火炉边看书，这里面的主题，如果不分主题做一些切图、截图，可能很容易出现了砍头、砍脚，或者主题都没有的状况。看右边的小图主题都没有了。当我们开启了智能缩略的功能，我们API会很智能识别出图片的主题是什么，当我们切图的时候不管切到什么形状，多小，我们都会尽量保留原来的主题，这是一个非常实用的小功能。

人脸识别，一年以前How old.net在网上火了，也是无心插柳的事情，也满足了大家的某种需求，就是人对未知道的好奇心，你虽然知道自己多少岁，但是在机器人眼里我是多少岁了，还是有很好奇的地方。人脸识别经过一年多的优化，目前有几个功能，首先是对人脸的检测，在一张图片里能找到人，目前一张图片可以识别64张脸。验证，两个人是不是同一个人，进行一个比对。我想再次说明一下，所有这些比对我们都会返还一个确信值，这个值就是确信度，根据应用场景，如果偏娱乐的，放得松一点。如果你想做一些像生物识别，要求就高一点，值可以提得高一点。相似人脸的搜索上是1对N，1对多的搜索，当你有了一个人脸的列表，你想在这里面搜索新来的一张图片，到这里面找相似的脸。分组，很多在照片处理的场景里会用到，我会根据两张脸的相似度，自动把很多照片分成若干组，根据它的相似度和距离，比如一家四口人的照片，很自动的一下分成了四组，可能我不知道这些都是谁，但是可以自动分组。最后一个辨识，就是知道谁是谁，就是我们所说的真正的辨识，这个一定是要提前建库的，否则我们也不知道谁长成什么样子，至少有一张照片到多张照片，一个人建一个人脸库，这样再有新的照片我们就知道谁是谁了。

一些小功能、小特征介绍一下。这几个月加了几个小功能，除了年龄、性别，How old去年被大家玩儿坏了，加了几个新的小功能，比如笑容，这个男士是微笑的状态，还有胡须，包括侧面络腮胡，也有一个数值，还有他戴没戴眼镜，是什么眼镜，这边都会标识出来，左边是JSON返回值，你去解析返回值的是非常轻松的事情。我又用了我自己，这是我前面进行介绍的照片，前几天刚照的，右边是我在2005年照的照片，虽然过了很多年，而且表情、穿着、样子也不是完全一样，但是当我用人脸验证的时候还可以看出来这是一个人，这是我们的一个Demo，我们取了它的确信值，只要超过0.5，我们认为就是一个人，因为返回来这是确定是我本人，所以确信值给的是0.80。

情绪识别，是去年年底我们推出的一个API，非常实用，今年也增加了一些功能。除了在静态的图片里面可以识别八种情绪，现在也支持视频，目前也都是免费的。所谓视频里面，我们凡是看到了人脸，对他进行情绪识别，把它记录下来，最后的返回值，我们会给你一个整个的统计，在整个视频里面，比如微笑有多少帧，伤心、难过、惊讶等等，分别给你进行一个统计。这是一个很简单的例子，要指出的是，有的时候表情可能是非常复杂的，所以对于这八种表情，生气、厌恶、伤心、难过、惊讶、害怕等等，每一个表情我们都会给你打一个分值，所以到底怎么去使用，最后的决定权还在你自己。

视频检测，简单给大家介绍一下。功能里面有很多很有趣，但是目前我们视频，因为是完全基于云服务的，我们目前定位的场景主要是在一些非实时的场景，也就是说可能我们会在10几秒、几十秒之后才会返回给你结果，但是会给你一个状态，是在处理中还是已经结束了，请你到这个位置拿你处理后的结果，现在是这样的使用方式。

后面给大家简单的看一下，一个是稳定处理，实际上是去抖，你在行走中，很多时候是拿着手机，或者不是很专业的摄像师，拍的东西会抖动很大。这个技术是通过算法，跟微软研究院之前发布的Hyperlapse里面用到的防抖处理、稳定处理是同样的技术。帮你整个视频变得非常顺畅。人脸检测及追踪，高精度的人脸位置检测和追踪，能够检测出视频中有几个人，地点和时间点。运动检测，一段视频里中间是不是有运动，比如这个视频里出现的，可能是我在家里楼门口、院门口放了这个视频，中间大多数的时候家里没人，突然出来一个人，有可能是回家了，它的运动出现的时间点到底开始结束在什么地方，都会显示出来。而且这个算法有一些优化，比如对光线、阴影出现的时候产生的效果，或者风吹动的窗帘等等，这些并不是人们关注的，这个会自动略去。

视频缩略图是一个非常有趣，也很实用的操作，利用算法我们会非常默认的帮你把一段视频压缩成一段很有趣的，可以作为预览的。比如10几分钟的视频，中间可能是采访什么人，或者你的运动里用到了摄像机等等，中间会有很多大量重复的，并没有变化性的，视频缩略图会自动识别，把这些非常重复，无聊的视频去掉，最后压缩成一段非常精彩的、有趣的，可以作为一个预览的视频缩略图。

下面给大家介绍一下语音，上午大家看到了小娜的演示，小娜是一个数字助手，里面的功能很多，有一个功能是接受语音的指令，他还可以说话。包括两层含义，首先是语音到文字，进行语音方面的识别。再一个，从文字到语音，可以输出，变成人的声音，说出话来。最后，当我们把语音的识别和我们的语言理解智能服务一起应用的时候，我们还可以对它的语意进行识别，就是你的应用就能听懂人的指令，这是非常有意义，也实用的一个应用。所以大家关注一下，我们的语音识别目前有两种方式，一种是REST，我们现在所有API都有REST接口，为什么它可以跨平台、跨设备。REST接受的是短语音，最长是15秒。另外还有一个客户端的SDK，包括Windows、Android、iOS，可以接受2分钟。我们希望不久的将来可以给大家提供更长语音的接口服务，可以适用一些电话会议等等，录音或者客服，需要更多长语音的支持。语言上，语音识别支持七种语言，包括英文，也包括中文。更想强调的，这个跟我们Cortana、Windows、Skype里面语音部分是同一款技术，还是非常给力的。

这里举了一个简单的实例，短模式最后给你返回的是一个n-Best的结果，根据不同的确信度，最后给你确认值最高的，你自己怎么使用还是自己做决定。

语音输出，左边也是一个真正的实例，标黑的那一块是你要合成语音的那部分文字，变成声音会放出来。一会儿给大家放出来。意图识别，跟我们语言理解智能符合要结合一起看，把语言变成文字以后，文字再进行语意的理解、标注，再加上非监督式的自主学习，它就会变得越来越聪明，了解你发出来的指令到底是什么意思，你应用的逻辑再让他去执行，帮你打开家电，或者帮你在手机里做什么应用，就变得非常容易了。这是刚才给大家提了好几次的语言理解智能服务，大概是这样一个过程，首先你要定义概念，这个网站大家可以看一下，Luis.ai，只要有微软的账号就可以免费进行登录，你可以训练自己要进行的语言文字上的句子，你的应用能够接受这些指令。我们可以从中提取里面的意图，还有里面的一些实体，首先是你进行一些基本的标注，在后面会以一种统计的方式出现的概率，还有一些上下文，自己也会进行自主的学习，并不是简单的一个规则，如果他说这个表示什么，实际上他后面还有一些自主学习在里面。如果你说在训练方面不是太有经验，也没有关系，当你打开这个网站的时候，里面会有一个预制的Cortana 小娜的模型，你可以在这个基础上扩展，去建造自己的模型，建造好了以后可以发布，变成一个服务，也一样是一个REST服务，就可以把这个服务当做API的服务接口一样去调用，这是很实用的。比如这个人说了一句话，“关于航班延误的新闻”，他是想干嘛呢？这里的意图，不外乎是想找新闻，这就是他的意图。这里面的实体包括哪些呢？比如新闻等等，这就是里面的实体，很容易提取出来。这是一个应用界面，我们也希望很快的把界面汉化，内容识别中文没有问题，有一个语言的选择，标注中文的时候，在句子打标签的时候是完全可以识别中文的。

下面进行案例分享环节，这是我们在网站上有这样一个窗口，也是进行应用案例的展示。这里面有一些是微软自己每年有一年一度的黑客马拉松，微软的员工会利用业余的时间做一些项目，用一些比较前瞻的，比较新的技术作出一些有趣的项目，这里面包括这样一些项目。也有一些是我们真实的客户，刚才讲的社交媒体的分析等等，大家也可以到网站上看一下。

下面我给大家演示模仿者闹铃，实际上也是微软车库的项目，具体看看这个项目是怎么做出来的。下面我们看一下演示。

大家看出来了，我拿的也不是Windows Phone，今天的主题，爱开源、爱跨设备、跨平台，今天这款应用虽然是微软团队做出来的，实际上是基于安卓手机的一个应用，是一个模仿者闹铃。它是一个简单的app，首先我把闹铃设置上。现在是15：50，我设置一个15：51，很快它的就要能响。其实更像一个小游戏，很多人早上会赖床，闹钟响了，一遍一遍按掉最后就睡过头了，这是一个很有趣的环节，你不是想睡觉吗，先跟我做多游戏，根据我的游戏环境可能做不同的事情，说绕口令，照照片或者做一个表情，我实在不是一个表情帝，所以选择了一个比较简单的，看看闹钟的应用让我干一些，让我拍一些什么样的图片。现在我的闹钟响了，顺便给大家讲一下，这个应用可以做三件事情，第一个是可以照一张颜色，第二个是做什么脸，第三个是绕口令，我把这两个先勾下去。这款应用巧妙的用了我们认知服务里面的三款API，这回的比较简单，我提前已经准备了有颜色的图片，我把手电筒打开，很简单的照一张照片，这个就过关了。而且我还可以表示我今天非常不错，准时起床了，我可以发到我的朋友圈，这不是我的手机，我就可以发一下。给大家看一下这个应用是开放给大家的，你还可以做很多事情。我今天也特地安装了安卓的Studio，忘了讲，很久很久以前我也是一个程序员，所以今天希望能够懂你们，咱们展示一点程序员看的东西。这个应用完全是开源的，放在Dehap（音）上，刚才说的这几种小游戏都在这里面，大家可以自己去扩展，你想干点别的小游戏过关都可以。我们非常建议你不要写死在你的应用里面，我申请的这个Key，语音、计算机视觉我都用了一个Key，对于你来讲可能是分别注册的，会有不同的Key，放在不同配置的文件里面，如果这个Key过期了，或者你将来付费购买了其它的商业计划，你会比较容易替换它。

下面直接到我们的网站，给大家介绍一下今天到底给中国的开发者带来了什么样的东西，首先这个网站，这是Azure在中国的门户，进去以后有一个“前沿科技”，目前是以这样的身份进入到我们给中国的市场。我们对网站进行了汉化，有21款API，当你浏览所有API的时候，可以很容易的有一个概览，就是我刚才给大家看的那五个类别，这里面你可以很容易的知道在不同的类别，而且有简单的说明这个API到底可以做什么，是干嘛的。当你看到某一个API感兴趣以后，可以点进去，每一个API都会有一个自己的主页，比如对这个API的一个详细的介绍，最重要的是在线的演示，你不用写任何代码，可以用我们的样例图片，直接看到结果，在右边，对程序员来讲，把返回的真相值显示出来。还有一个很重要的，今天也是给大家简单的看一下，当你看完这个演示，试了一下自己的图片，还不错，下面当你大张旗鼓选Code之前还可以做什么？我选的开发者，目前我们也征求了一些开发者的需求，其实大家对技术文档，看英文的觉得原汁原味也不是什么不好，但是我们后面也会考虑把技术文档翻译成中文进行汉化。到每一个API里面，除了你可以详细看每一个操作是个Post，还是put，还是什么，还有所有参数的介绍，返回的确认值是什么含义，还有一个非常有用的API，这个非常好用，也实用。比如也会先设一些参数，我提前申请了密钥，我直接给大家演示一下账户怎么弄。这是我自己Hotmail的账户，我已经登录了，之前我已经免费订阅了一些API，你也可以选择申请新的API，如果我没有全申请好，我也可以选择这个。我其实是想找一个人脸识别的密钥，在这里把密钥选好，回到我刚才的界面，在要密钥的地方把它放进去，上面的参数就选择已经默认的。下面这个是你的Reques（音），里面要求你放一个UIoff（音），当你调用的时候，也可以放你真正的图片。就干了这两样事情，我就可以说是Sand（音），返回200，因为刚才我的参数选的比较少，所以只返回了我的ID，还有框出脸的坐标值，如果选了上面的这个就会把你的整个脸部的27个关键点所有的坐标值显示出来，这个非常好用，打开你的IDE之前都可以这样尝试一下。

语音我今天并没有实际的举一个例子，我们可以看一下，语音也是非常给力，非常实用的一个小功能。比如说英文，我随便打一段话，比如“Welcome to Microsoft Developer Summit at Shange-ri-la hotel”。我们模拟一下这个声音的效果，听起来还不错吧。中文到底怎么样，首先来中文的普通话，“欢迎大家参加微软开发者峰会”，听起来还是听真实的。换一个更好玩点的，我们听听台湾音，说一个有点意思的，“祝贺大家六一儿童节快乐”，有点嗲嗲的，还不错。

有关图片识别，我们可以用一个刚才提过的实际例子，也是一个网站，看图说话识图机器人。除了上午我们提供一些样例的图片，上午小文博士也给大家看了，比如这张照片，“我觉得是一个年轻人在玩儿滑板”，提到他在空中做跳跃的动作。我尝试一下，提前没有准备的照片，今天上午萨提亚·纳德拉演讲的这张照片，看看它说什么。识图机器人可以识别几样东西，首先名人识别出来了，萨提亚·纳德拉，他穿的什么衣服呢？是正装。他在做什么事情，他站在屏幕前面，而且他的表情是什么呢？他看起来很高兴。这里面是多集合的因素，是以一个比较自然的语言的方式表达出来。目前来讲很抱歉，还只是英文，但是后面我们会拿一些中文的语料进行一些训练，很快也会写出中文的看图说话的小作文。

回到这个网站，除了这种技术文档，还有开发者的板块，我们也是希望大家去多多的使用和利用。一个是所有的资源，文档SDK，因为我们提供的都是REST API，可能有Java的样例、iOS里的一些例子，也可能是Windows里面一个样例的应用，大家都可以去充分利用，而且SDK现在窦开源放到Github里面去。有关社区，现在放了三个社区，后面我们也是希望大家反馈，我们在中国的开发者小伙伴可能常用的社区跟在海外的不太一样，在美国用的比较多的，比如微软的MSDN、Stack overflow，我们在后台也会看一下哪个用的比较多，包括中国这边，大家也可以提反馈，我们后面也会对中国市场进行一些优化。欢迎留言，虽然这些网站有些是英文的，你们拿中文留言都没有关系，我们有团队在后面会监测，会去回答这些问题。

现在我的演示就这么多，回到之前的分享。

这是刚才看到的模仿者闹铃，现在有几种形式，大家可以去参考，有几个截图，如果让你做什么样的表情，或者念一段绕口令，或者找一个带有什么颜色的照片，你拿手机照一张就过关了。样例代码，怎么样设置Key，更多的是安卓手机应用其中逻辑的代码，真正去解析我们JSON的返回值并不是很复杂，很简单的。

下面要放的这段视频是微软另外一个团队，是Windows IOT做的项目，人脸识别除了做一些社交很有趣，娱乐性的应用，也可以做一些类似于生物识别，拿人脸跟IOT结合起来开门的场景。下面我们看一下这个小视频。

（播放视频短片）

其实刚才大家可以在这里面的场景看到，这就是微软的普通员工，他们是IOT的团队，可以看到认知服务里人脸识别技术，很巧妙做了这样的小项目，其实在实际应用里面可以再加上生物识别，让你做生物识别的时候更加安全。因为这是去年的一个项目，当时用的还是牛津计划，现在可以叫做认知服务了。

下面我继续跟大家分享几个小的案例，下面这个是属于Dynamics CRM-Social Hub应云而生，这是微软的合作伙伴广东的天正，在前不久进行了创客先锋这样一个应用的软件大赛，这个项目获得了一等奖。它的背景非常有意思，首先CRM大家都知道，它是做一些客户关系管理的，这里面是针对数字化营销的场景，今天在我们中国的市场，其实Social，应就是社交这个场景有一个非常好的生态系统，而且现在各种PaaS平台即服务的云服务也都应运而生，给了非常好的催化剂。当我们做数字营销的场景，一些是属于实名的用户行为的分析，更有一些在线下的营销活动，会涉及一些匿名的用户行为分析，这里头就可以巧妙的把人脸识别用进去了。下面我们可以看一下用户交互的场景，比如说在手机，通过一些IOT小的传感器进行摇一摇，在这个位置里你就可以关注它的一些营销的内容，这里面有一些营销的手段，大家可以获取一些积分、优惠券，可以关注微信公众号，关注了以后，你就可以针对这些已经关注了公众号的用户进行一些用户行为的分析，包括，如果你传给我们一张图片，我们就可以给你增加一些积分，我们也会更加了解你。根据你上传的图片，我们在后台就可以很容易的分辨出他的年龄性别大概的状况，对他今后进行比较有针对性的营销场景，所以也是很巧妙的一个后台应用。比如说在后面通过实名的场景，摇一摇进来的，包括其它微信场景进来的，在后台就会很容易对这些实名跟匿名的用户进行行为的分析，这是属于认知服务里面的API，在一些比较真实的商用场景里是怎么样的巧妙结合。

再接下来看一下，刚才有微软自己的团队，也有我们合作伙伴这样比较实际、真实的商业场景，还有一个生力军是我们高校的学生。就在上周，我参加了微软亚洲研究院每年一度的编程之美的大赛，这个大赛在初选的时候有一个海选，全国100多所高校，2万多高校学生报名，经过初赛、复赛，到最后的决赛，闯进决赛大概是60个高校的学生，我也跟他们进行了面对面交流，大概有60个学生，大部分都是本科的学生。这些学生最后会接受几个决赛的考题，分了15个团队，最后有一、二、三等奖，分别有三个团队胜出。我想分享两个案例，一个是Percepicture智能相框，大的场景框住了，但是在这个命题内还做了很多有意思的发挥，我们可以看一下，后面还有一个学术搜索超新星，也是用了微软学术搜索的API。这是实际雏形的效果图，智能相框，把Perce和picture放在一起，这是他们的名字。用到了语音发指令、语意理解，进行了一些训练，对照片的基本操作，而且自己加入了体感手势对照片进行翻转、和缩放的操作，非常有意思的人机交互。我们的学生在不到一天的时间做出的架构图，每一个参赛的团队大概是4个学生。除了我刚才讲的前面的语音识别、语意理解、打标签，图片打标签的时候很巧妙的用到了我们计算机视觉的API，帮助他识别里面所有的，自动帮他打上在图片里识别了哪些物体的标签，最后通过手势跟他进行整个照片相框的互动，还是非常炫酷的应用。另外一个是完全利用我们的学术搜索，做一个可视化数据分析的展现，你们看到的效果图，学术搜索API会返回一些学术文献的作者，发表的日期，发表的期刊，这些学生利用API返回的结果进行了很多聚合、分析，最后产生的效果，他们根据数据分析以后产生什么效果，这个图片利用树状的图表示，中间很多枝繁叶茂的状态代表了学术的大牛、大咖，因为他发表的文章被引用的次数很多，这是根据数据分析的结果。而且发表文章的数目也很多，所以显得枝繁叶茂。所谓这些新星，有一些绿点点的，比较欣欣向荣的，这种虽然树枝不多，但是会感觉绿色很多，已经有一些领域被人引用次数很多，所以这是属于学术搜索超新星的匹配，当企业跟学术进行合作，学生去寻找合适导师的时候，这是一个非常好的应用场景。

下面我给大家放一个非常感动的视频，可能在今天的开发者大会大家已经看见了，是一个Seeing AI，看见人工智能的视频。我们一起看一下这个视频。

（播放视频短片）

所以刚才这个视频虽然我已经看过好几遍，但是每看一次都会觉得很感动。参与到IT界里，并不是说每个人都去做研发的大牛，都去搞算法，搞模型，刚才这个视频里就是一个普通的开发者，是微软的一个应用开发的工程师，你可以站在巨人的肩膀上做出让世界不同。我们经常说，我希望我的存在让世界不同，我觉得这就是这样一个应用。所以，下面你们可以做些什么。

认知服务的商用计划，今天认知服务已经在全球版的Azure.com上，如果有外面的账号可以去看，21个API里面已经有8个付费计划。在世纪互联运营运营中国的Azure上未来将很快会上线。还等什么，马上行动起来。我刚才给大家看过的网站上面去体验，有演示，我再重复一遍，所有API都可以免费试用。打造你自己的智能应用，我们希望分享你的应用。

来源：ZD至顶网软件频道

0赞

好文章，需要你的鼓励

微软李京梅：微软认知服务让应用更智能

来源：ZD至顶网软件频道

2016

06/01

15:29

分享

点赞

当科幻照进现实：傲鲨首款消费级外骨骼机器人 VIATRIX 惊艳亮相 WAIC 2025

施耐德电气发布“算电协同”洞察报告 数据中心能源挑战的“三层解法”

夸克AI眼镜来了！阿里巴巴发布首款自研 AI 眼镜研发进展

傅利叶WAIC 2025：带来 GR-3 新品首秀，开启具身智能康养新概念

谷歌新"网页指南"功能将用AI重组搜索结果页面

AI编程工具连续错误致用户数据全部丢失

对话后摩智能吴强：大模型90%计算需求将来自端边，存算一体是未来

两个计划，三个转变，华为服务体系面向AI再进化

服务行业数智化，共创AI新时代 华为中国政企用户峰会2025成功举办

英特尔将于年底前再裁员15% 并缩减晶圆厂投资规模

阶跃星辰发布三代基础大模型、成立生态联盟，并提出了模型的“好用标准”

AI智能体——互联网正在被重写——用户与品牌的调研

当 AI 与数学在上海相遇：2025 WAIC背后的智慧革命

谷歌新"网页指南"功能将用AI重组搜索结果页面

AI编程工具连续错误致用户数据全部丢失

两个计划，三个转变，华为服务体系面向AI再进化

英特尔将于年底前再裁员15% 并缩减晶圆厂投资规模

戴尔和英特尔将Windows 11视为AI PC商机

Efficient Computer发布高效Electron E1芯片，专攻边缘计算工作负载

MinIO为对象存储提供生成式AI升级与Iceberg集成

2025笔记本CPU解析：购买前必知指南

教师迎来新助手：Instructure将AI集成到Canvas平台

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

施耐德电气发布“算电协同”洞察报告数据中心能源挑战的“三层解法”

服务行业数智化，共创AI新时代华为中国政企用户峰会2025成功举办