在短短一年多时间里,微软推出并扩展了一套认知服务API集,旨在处理从面部、情绪认知到语言理解智能服务(简称LUIS),再到定制化决策服务的全新业务线。
在微软的认知服务主页中,用户可以获得上手指南、SDK以及免费试用与Stack Overflow社区链接。
对于开发者们而言,这些API可用于向应用当中添加手势识别功能,或者提供与旅行时间充分契合的路线规划服务。房地产行业可以根据各类常见影响因素(例如与公共交通站点间的距离以及周边餐饮设施水平)建立起需求定位评级体系。当然,这些只是数据分析层面的几个例子,未来我们还将训练机器以更加智能化的方式结合情景进行逻辑思考。
但是,微软公司接下来的打算是什么?微软已经面向多个细分市场发布了特定功能,特别是在教育这一其它厂商相对不太关注的领域。
智能语言处理
在这一领域当中,微软公司建立起Dictate项目(属于车库项目)以在Outlook、Word以及PowerPoint当中实时提供语音到文本翻译服务。Dictate项目源自微软Office实验室2009年的研发成果,此后由微软Android、iOS以及Windows Phone等部门发布了一系列跨平台应用。我实际上就是使用Dictate编写了这篇文章——但请注意,其准确率仍然不够理想。尽管操作过程非常有趣,但请暂时不要将其引入您的企业业务——微软公布的各类车库项目皆仅供实验使用。
如果大家希望在自己的机器上安装Dictate,微软Cortana个人数字助理可帮助您达成心愿。值得一提的是,二者使用同样的底层语言处理机制,意味着我们提供的自然语言实例越多,其翻译效果就越好。
不再为说明字幕烦恼
同样来自微软车库储备的还有演示文稿翻译器。这款微软翻译器能够以实时方式将您的发言显示在PowerPoint演示文稿底部,其支持10种语言,且字幕显示时机仅稍有延迟。
另外,其还能够将这些内容翻译成超过60种受支持语言。毫无疑问,这个概念确实很酷,但这款翻译器在识别英文单词方面仍然存在一点奇怪的问题。这令我不禁担心其翻译出的法语与俄语到底准确率如何。我建议大家先在关系较好的受众面前进行试用,而且暂时不要在非常严肃的重大场合下使用。
Cortana的Office
在Windows 10与商业级Office 365帐户当中,Cortana已经越来越像是真正的个人助理。您需要接入自己的Office 365帐户,而后Cortana将向您陈述会议安排,包括您将与哪些人会面以及他们正在打开的相关文件。Cortana甚至会提醒您当前交通繁忙,或者您将要乘坐的航班发生延误。
此项服务演示了机器如何在不同数据源之间建立起连接,包括来自企业之外的流量。在处理相关文档时,Office 365确保您仅能查看自己有权访问的信息。另外需要强调的是:如果您使用语音方式激活Cortana,为了理解您的表达内容,其需要将相关数据发送至微软的云语音识别服务处。
也许我们还不太习惯与自己的计算机交谈,不过Cortana在Windows 10上已经拥有相当不错的表现,甚至有望在未来成为生活中不可或缺的组成部分。
录像带干掉广播歌星
微软翻译器语音API亦在Office 365最新产品微软Stream当中出现。其最初能够在自动转录说明字幕,且内容可完全搜索并包含时间戳。在此之后,视频API的加入使得面部识别成为可能,意味着其能够在视频当中建立起登场人士的时间轴。对于用户来说,大家只需要直接加以使用即可——当然,您需要参与Office 365的E5计划(没错,就是最贵的那种)方可体验这些高级功能,或者购买微软Stream 2计划并将其添加至Kiosk、E1或者E3租户内。在默认情况下,E计划支持面向微软Stream的视频上传与查看,但并不包括最酷的认知服务项目。
理解情景
Office 2016中的两项功能同样受到智能化水平提升的推动。在Word与Excel中,智能查找会显示高亮文字 ,用以标同义词、定义、维基百科条目以及网络搜索结果。不出所料,这里的网络搜索结果来自必应——相信大家早已想到了。
搜索中的智能化表现在于,智能查找会高亮您选中词语的上下文,分析您键入的其它内容以确保高亮部分文本拥有明确的含义。另外,原本的帮助功能被替换为“告诉我您要做什么”窗格。在这里,我们再次感受到自然语言查询分析在提升搜索表现方面的重要作用。
解析书面文字
接下来要聊的是OneNote学习工具集。其中的渲染式阅读器能够朗读高亮词汇、优化间距以实现更佳可读性、显示音节休止,同时高亮显示动词、名词以及形容词等普通文本内的词性。
在后台,大量情报资讯支撑着良好体验的实现。教育工作者可以通过这些工具有效提升儿童学员的读写能力。即使在教育领域之外,微软公司也在积极将其扩展至Word Online、OneNote Online、Outlook.com、Outlook Web版、OneNote Windows 10应用以及OneNote桌面版当中。
微软公司已经在认知服务的引入方面投入了两年多时间,作为受众,大家为此做好准备了没?
好文章,需要你的鼓励
北京大学研究团队开发出基于RRAM芯片的高精度模拟矩阵计算系统,通过将低精度模拟运算与迭代优化结合,突破了模拟计算的精度瓶颈。该系统在大规模MIMO通信测试中仅需2-3次迭代就达到数字处理器性能,吞吐量和能效分别提升10倍和3-5倍,为后摩尔时代计算架构提供了新方向。
普拉大学研究团队开发的BPMN助手系统利用大语言模型技术,通过创新的JSON中间表示方法,实现了自然语言到标准BPMN流程图的自动转换。该系统不仅在生成速度上比传统XML方法快一倍,在流程编辑成功率上也有显著提升,为降低业务流程建模的技术门槛提供了有效解决方案。
谷歌宣布已将约3万个生产软件包移植到Arm架构,计划全面转换以便在自研Axion芯片和x86处理器上运行工作负载。YouTube、Gmail和BigQuery等服务已在x86和Axion Arm CPU上运行。谷歌开发了名为CogniPort的AI工具协助迁移,成功率约30%。公司声称Axion服务器相比x86实例具有65%的性价比优势和60%的能效提升。
北京大学联合团队发布开源统一视频模型UniVid,首次实现AI同时理解和生成视频。该模型采用创新的温度模态对齐技术和金字塔反思机制,在权威测试中超越现有最佳系统,视频生成质量提升2.2%,问答准确率分别提升1.0%和3.3%。这项突破为视频AI应用开辟新前景。