ZD至顶网软件频道消息: 这一轮的人工智能热潮使机器学习成为人们眼中的高频词,而随着海量数据和云计算的发展,这项诞生了半个多世纪的技术重于迎来了春天,更被广泛应用于大数据分析和人工智能等领域。
但是作为一门多领域交叉学科,企业要想充分利用机器学习技术,不仅需要跨过数据的门槛,还要解决专业人才的难题,更需要面对众多的算法模型、数据处理,以及没完没了的模型调优。
聪明的平台
机器学习权威学者,卡内基梅隆大学教授Mitchell T.M.认为,机器学习这门学科所关注的问题是“计算机程序如何随着经验积累自动提高性能”,并且“对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习”。
当然,把这些陈年的资料挖出来,目的不是要写论文,而是要指出一点——机器学习所强调的自动提高的能力。但是显然,这点并不容易。
从机器学习的实现过程中看,需要选择合适的算法、可用数据来构建合适的模型,并利用此模型对新的情境给出预测或判断,实现一个“input-处理-output”的过程。从目前的应用水平看,机器学习已经可以实现获取数据、特征抽取、训练模型、部署模型、做出预测,在拥有大量可用数据的前提下,机器学习可以实现预测的准确性也越来越高。
但是,即便如此,仍然有一个问题不可忽略,在整个机器学习模型的构建、使用、调优过程中需要大量的人工干预,不仅要人工选择最优模型、创建样本,同时为了解决机器学习模型在预测过程因数据样本产生的预测偏移问题,需要人工进行模型调优,并且在模型重新调优上线后,还需要人工进行弹性部署。事实上,企业在实际生产中会有几百上千个模型,大量的人工干预,对于机器学习已经很高的应用门槛,无疑是雪上加霜。
近日,IBM全球副总裁、大数据分析事业部产品研发总经理Dinesh Nirmal在2016机器学习和行业应用国际峰会上,介绍了IBM基于Spark框架的机器学习即服务。他表示,这项服务不仅可以帮助企业用户选择合适的算法,同时还能在模型建成后持续反馈效果、并自动建模,重新训练模型,实现机器学习的闭环管理,并且完全是线上的,不耽误企业的每一分每一秒。
这个平台听起来就像傻瓜相机一样简单——用户无须过多掌握机器学习的技巧,所有的技术实现都交给IBM机器学习平台,同时这个平台足够聪明,可以解决企业在这个领域的所有问题。
“傻瓜”工具
Dinesh Nirmal将这个平台称为“学习的机器”,他表示:“企业可以部署模型,但是随着数据的变化,模型会失去准确性则不得不下线进行重新训练,而学习的机器则可以实现模型上线后每时每秒都在持续被改造,这就保证了模型可以永远不下线。”
Dinesh Nirmal介绍道,IBM机器学习平台秉持三项设计原则,即简单、协作、融合。简单,即平台具有自动、引导、直观的用户体验,即便是不懂机器学习的人也可以轻松使用。据了解,在机器学习平台上,不仅可以对模型持续反馈并改造,早在用户创建模型时,平台就能聪明地给用户推荐最优算法,并根据数据特征值来评价模型的性能和效果。方便企业以足够“傻瓜”的方式进行使用。
协作,即支持数据科学家、应用开发员、业务分析员等多业务部门进行协同,互相之间能够把各自不同的角色的工作进行交流。融合,即融合多种技术。包括用认知助手,即CADS(Cognitive Aided Data Scientist)实现自动化建模;支持R、Pyhton、Scala等不同的语言;Real time streaming的特性,使得数据科学家能够掌握数据、算法在进程中的情况。
目前,这项服务分为云版本和本地部署版,本地版将部署在IBM大型主机Z系列上。另外,Dinesh Nirmal还公布了Watson机器学习的路线图。根据路线图,2016年第四季度,IBM将发布基于Z主机的本地版机器学习,以及基于Spark ML,部署在Bluemix和DSX(数据科学体验)上的云服务;2017年第一季度,正式发布Z主机的本地版,以及包含自动建模和图形化建模的云服务;第二季度,增加更多的模型库支持(Modeler Steams,Sci-kit learn);2017年下半年,基于以上基础上的用户反馈进行优先级调整。
另外,IBM的机器学习还与Watson数据分析进行结合,由Watson实现从数据的导入、清洗、分析、建模等数据分析的全生命周期管理,为机器学习提供数据方面的解决方案。
幕后功臣Spark
“如果没有Spark我们就不会成功,因为它给我们提供了一个标准化的平台。”Apache Spark被Dinesh Nirmal视为IBM机器学习能够成功的关键,这是一个分布式的计算框架,其低延迟、可扩展性、内存处理等特性,使其成为机器学习的幕后功臣。
Dinesh Nirmal表示,IBM完全拥抱开源,也是在Spark的源代码上面是做的贡献最多的公司之一。目前已经有45种左右的产品与Spark相关,投入超过3500名研究和开发人员在全球十余个实验室开展与Spark相关的项目,并在旧金山设立Spark技术中心,帮助数据科学与开发者社区在开发智能应用时,实现以设计为先导的创新。
目前,IBM已经将Spark嵌入IBM分析和商务平台,并将Spark作为一项服务,在IBM Bluemix平台上提供给企业客户。同时,IBM还将IBM SystemML机器学习技术开源,并与Databricks协作提高Spark的机器学习能力。IBM将通过与AMPLab、DataCamp、MetiStream、Galvanize 和MOOC等多种合作方式,培养至少100万名Spark数据科学家和数据工程师。
好文章,需要你的鼓励
周一AWS美东数据中心DNS故障导致数百万用户和上千家企业断网,Reddit、Snapchat、银行和游戏平台均受影响。专家认为这凸显了冗余备份的重要性,CIO需要根据业务关键性进行风险评估,优先保护核心系统。单一供应商策略仍可行,但需通过多区域部署分散风险,建立故障转移计划。金融、医疗等高风险行业需更高冗余级别。
上海AI实验室等机构联合提出FrameThinker框架,革命性地改变了AI处理长视频的方式。该系统采用"侦探式"多轮推理,先快速扫描全视频获得概览,再有针对性地深入分析关键片段。通过两阶段训练和认知一致性验证,FrameThinker在多个视频理解基准测试中准确率平均提升10.4%,计算效率提高20倍以上,为AI视频理解领域带来突破性进展。
英国政府发布新的反勒索软件指导文件,旨在解决供应链安全薄弱环节。该指南与新加坡当局联合制定,帮助组织识别供应链问题并采取实际措施检查供应商安全性。英国国家网络安全中心过去一年处理了204起"国家重大"网络安全事件。指南强调选择安全可靠的供应商、加强合同网络安全条款、进行独立审计等措施,以提升供应链韧性和防范网络攻击。
复旦大学团队创建MedQ-Bench基准,首次系统评估AI模型医学影像质量评估能力。研究覆盖五大成像模式,设计感知-推理双层评估体系,意外发现医学专用AI表现不如通用AI。结果显示最佳AI模型准确率仅68.97%,远低于人类专家82.50%,揭示了AI在医学影像质控应用中的现实挑战和改进方向。