科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道应用软件IBM王云:Watson获胜是BAO的应用之一

IBM王云:Watson获胜是BAO的应用之一

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

IBM6月23日在北京举办了2011 IBM 信息管理与业务分析论坛。IBM院士,中国研究院首席技术官王云发表了IBM技术创新引领智慧的新时代演讲。他表示,业务分析优化(BAO)的应用无处不在,参加Jeopardy比赛,并获得人机对抗获胜的Watson,也是BAO的成功应用之一。

来源:ZDNet软件频道 2011年6月23日

关键字: BAO 业务分析与优化 BAO 2012 IBM

  • 评论
  • 分享微博
  • 分享邮件

ZDNet至顶网软件频道消息 IBM6月23日在北京举办了2011 IBM 信息管理与业务分析论坛。IBM院士,中国研究院首席技术官王云发表了IBM技术创新引领智慧的新时代演讲。他表示,业务分析优化(BAO)的应用无处不在,参加Jeopardy比赛,并获得人机对抗获胜的Watson,也是BAO的成功应用之一。

IBM王云:IBM技术创新引领智慧的新时代

以下是IBM院士王云演讲实录:

大家早上好,今天有这么的多企业的好朋友来参加,我非常高兴,下面我给大家做一个介绍,刚开始我们的林总提到十多年前,二十世纪末期的时候,IBM推出了深蓝的研究计划,是跟我们的国际象棋大师做一个人机对抗,其实林总也谈到了我们在今年2月中旬的时候,IBM也提出来了一个“深蓝”延续的项目,我们是叫做Watson,在美国一个很流行的节目叫做“危险边缘”Jeopardy的一个最成功的冠军选手们做了一个智能问答的比赛,我跟大家从智能竞赛的场景跟大家做一些对于我们今天从业务优化的角度跟大家做一个交流。

我们在我们公司的网站,IBM的网站有一个网页有对Watson的项目提供大家一些信息,同时在新浪还是什么,也有很多有关这个比赛全程录影跟很多的描述或者是一些探讨,如果大家有空可以在网站上搜寻到很多Watson的内容,我们就不做太多的叙述。

第一,我想说,Watson这个项目,到底跟我们今天谈的业务分析有什么关联性呢?其实我感觉到,其实业务分析这件事情是无所不在的,只是在不同的年代、不同的场景中我们做不同业务分析的工作,有一些同事我们在聊天,我们在北京,如果我们到淘宝网订一些什么东西,或者在网络上买一些什么东西,很快快递就送到我们家门来了。快递是大家每天生活中常常应用到的,可是在有一些场合同事跟我讲很有趣的事情,其实在国外快递这个行业也发展了很多年了,快递行业发展很多年的时候,就做了一个,不是业务分析,就感受到了。尤其是大城市,比如纽约、北京这样的城市在配发物品的时候,就发觉到车子停的最久的时间是在等什么?车子停的最久的时间是在等左转,就是我们常常走到一个路口,左转队伍可能排的最长,左转的红灯等的最久,发现车子派送物品的时候消耗时间最长的时间就是等红灯左转。根据这样的分析和认知就发展一套车子要去送东西路线的计划图,就是执着往右转不做左转,我们在谈业务的分析和优化,其实业务的分析和优化是生活的一部分,我们每天个人也好、公司也好,每天都在随时随地做业务的分析跟优化这件事情。

我们要谈的,等一下跟大家报告的Watson的系统项目,其实就是我们业务优化跟分析的一个例子,可是这个例子其实带出了一些特殊性,它的特殊性我等一下会跟大家做一些报道,可是我觉得通常要讲到Watson的话,可能国内的朋友对Watson参加这个危险边缘的游戏不是很熟悉,我跟大家分享一下我个人的经验。我记得前一次在IBM2011年论坛的时候,我们有放几个模仿危险边缘游戏机在现场,我去玩了一次,我题目还没有看懂,时间就到了。所以我自己跟大家分享,其实这个节目当时设置的时候,因为它是一个电视节目,这个节目在美国已经有20多年的历史了。因为我们有了这么多的电视信息网络更全面化了以后,感觉上它对美国家家户户的影响减少了,如果在80年代,每天大家茶余饭后吃完晚饭差不多67点钟是这个项目最流行的时间,我自己看过几次这个节目,题目出来以后,我还没有看懂,这些人就抢答,答案就出来了,所以这个题目其实最复杂的部分是什么?就是它的电视节目是一个娱乐型的电视节目,所以不能直接问很简单的问题,如果问地球是不是圆的,这个问题就没有吸引观众,所以节目本身,它的答案也是知道的,可是提出来的题目的场景可能是你不知道的,所以这个题目为了要吸引观众的注意力,所以那个节目的问题本身是很“绕人”的,是很难的。通常不是在美国成长,不是以美国英文作为母语的话,是很难了解题目,题目都很难了解,答案就更想不出来了。这是这个节目的背景。

其实这张片子的例子是跟大家分享,IBM的研究实验室,差不多经过四年的研究,动员了差不多有20多个科学家,在30年前跟这个节目做交流,希望办一个人跟机器的对抗,结果的结论在这个屏幕上了,我们很幸运的我们花了很多时间在做这个,我们是赢了一个大赛。就相当于诺贝尔奖,但是在图灵奖有点像物理、化学上的诺贝尔奖,这个人工智能专家也做了一个报道,他说IBM的在人工智能上是一个很重大的突破。其实Watson跟我们直接在网络上搜寻一个答案来讲有什么不同呢?第一个想跟大家交流的是Watson面临的是一个跟人类智能的对抗,所以第一个所找出来的答案必须是一个正确的答案,我们在回答问题的时候,我们怎么知道它是一个正确答案呢?我们本身不仅要找出这样一个答案,我们要找这个答案的过程中,我们可能会找到很多可能的答案,我们走过什么样繁杂的过程中,把最佳的答案选择出来,这是一个很复杂的问题,当机器和人对抗的时候,就好象机器和人的思考或者跟所谓人的灵感在对抗,人怎么面对这样一个智力问题的时候怎么找到我们的答案呢?其实我们脑子也想过了很多不同可能的答案,我们在不同的可能答案中怎么找到人认为最适合这个问题的答案,这就是Watson需要解决的问题,不仅是找到很多可能的答案,还要找到他认为最正确的答案,这是一个跟搜索不同的地方。

林总在开幕式上也讲过,我们在做“深蓝”的时候,是极度计算的过程,也就是在下棋的时候。下棋是一个预测性的游戏,我们在下棋的时候,我们希望根据这个棋手以前走棋的风格预测将来怎么走棋,所以看怎么跟他抗衡。所以严格来讲,凡是企业的分析跟优化,从某个角度来讲这句话也说得通,Watson跟“深蓝”的不同点,深蓝的规则是很简单的,象棋的规则很简单,走法是很规则的走法,所以我们在“深蓝”的运算中,其实它的不确定性相对来讲是很少的,可是现在在Watson处理的事情是牵扯到人类的语言、人类的知识,处理问题的范畴有更多的不确定性。这是我们在做Watson中,对生活中大部分的事情不确定性怎么有一个看怎么解决的问题。

第三,跟大家刚刚交流到的,我们讲信息产业、IT也好,IT在过去50年帮我们人类解决了一些什么样的问题呢?其实有一种说法,IT在过去这么多年帮我们解决了劳动力的的问题,以前要人去做的事情,重复性做的事情,IT可以帮我们把重复性的事情帮人类分担起来。人类有好多点点滴滴的事情要去打点、处理,很多决策的问题,电脑没能帮我们处理。Watson在某个角度来讲,希望我们能不能够把人类现在花很多时间要处理的问题,尤其是有关于一些思考、决策,做决定的问题,是某些问题可以帮我们人类去减低我们做决策的难度,或者很多比较简单决策的事情IT可以帮助我们人类做持续,怎么能够把IT在一个比较呆板、规则性的社会提升到像人的真正的社会,更有复杂性、不确定性,怎么把IT的技术解决我们人类决策的问题,这是Watson很重要的希望达到这一点。

我们说Watson是一个什么呢?是行为性的系统,其实Watson是针对于Jeopardy这么一个游戏,它是针对这么一个游戏为它的应用场景的解决方案,当Watson要去解决这样一个问题的时候,必须对这个问题的场景有很深刻的了解,这也是刚刚前一位发言人讲到的,我们在业务分析的领域中,其实不仅包括了我们的技术还包括了我们的人以及包括了整个的流程,以及针对这个业务的特性,应用领域场景的特殊的了解,这是我们做的应该是服务的端到端的服务项目到这里。Watson怎么达到这样一个结果,必须对他的问题要有一个深刻的了解。所以Watson本身要能够有知识才能回答这些问题,知识包括什么呢?其实Watson阅读跟分析了,准备了有两亿篇的文档,所以把百科全书、字典、新闻、电影这些东西都输入到我们Watson的系统中了。也就是刚才前一位演讲者讲到是说我们在做业务分析的时候,底层必须是一个信息管理,必须要能够把这么庞大的信息可以掌握住,可以组合起来。

第二,在玩危险边缘游戏的时候,抢答问题的时候,怎么从问题找到答案。其实一个观念就是说要了解人类语言的问题,了解这个问题的本身就是一个很复杂的问题,包括我们对自然语言的处理和自然语言的模型,不仅是说我们了解了问题之后找到答案,在找到答案的过程中,在Watson的系统中去找答案的方法不是唯一的,我们刚刚提到的如果下棋的时候,下棋的规则可以一步步推,可是当我们人类,我们刚刚说灵感,我们人类回答问题的时候,我们人类想了很多种不同可能的答案,我们怎么把这些不同的答案在某一个过程进行推敲和筛捡,是非常复杂不确定性的找答案的过程,我们人也是这样的。所以Watson的机器也是这样的。

在这么多不确定性、可能性的方案中,其实Watson本身包括了超过100种的技术,就是有的东西我们是用比较浅的方法找到这个问题和这个答案之间的相似性,这个相似性我们可以直接掌握其他文章有类似的相似性,我们可以用这种方法确定答案的可信度,我们可以把这个答案拿过来做很复杂的逻辑分析,这个东西讲的是关于饮食习惯,饮食习惯在某个区域,我们可以把整个的语句或者资料做详细的逻辑分析,在逻辑上做一个推导。我们可以看到,其实Watson本身解决这样一个复杂问题的时候,里面有很多种不同的技术在同时进行,就像人的思维问题一样,在很多层面是同时进行的。在这么多不同的解决方案,这么多同时进行的时候,到底哪一个解决方案,针对这个问题会是最好的解决方案呢?这是Watson本身面临最大挑战的问题,是这种极端的开拓性。在这样的情况下,我们怎么知道谁是好的,谁是坏的。我们刚刚讲的下棋,把国王吃掉是最好的,可能解决人的问题来讲不是轻易地把国王吃掉就好,这个过程是发散式的过程。

这就是自动学习了,既然Jeopardy这个节目做了20多年,做了几千集,我们在以前播的几千个节目之中我们找到看什么样的方式、什么样的场景、什么样的回答是最成功的一些回答,这解决我们讲的自动学习,我们根据过去的一些经验来决定这一百种方法中哪些方法、哪一个方法在这个场景中是最有信心的,最合适的答案。所以这个是Watson中非常复杂的一个部分,也就是最有创新的一个部分,就是说它怎么样用学习的方式、自己学到怎么与人对抗。合适它是从人的对抗中学到了怎么跟人对抗,过去用了20多年的人与人对抗的模式想到机器怎么学到和人对抗,这是很有意思的概念。

我这边跟大家顺便谈一下,基于我刚才谈的,在Watson的建造过程中,大概包括下面一些设计的概念,在最下面这一层,基本上就是说我们怎么去累积我们的知识,把知识的收集以及把知识处理成我们所谓的内部结构,将来这个知识可以用起来,就是我们所谓的知识的处理,就是下面的东西。其实在这个游戏中更有趣的是,我们怎么把过去的这二十几年的人与人的对抗,把这个经验学习起来,而产生出我们怎么样可以用这个经验帮助我们以下所有的这些技术架构能够找出最好的答案出来,我们也提到这个例子划了一个不是很好的曲线,其实很有意思。这个例子跟大家讲,如果你叫Watson每个问题都答的话,它的失败率很高,这个图解决的就是纵轴提出来的答案多准确,横轴是说有多少问题可以选择回答。人也是蛮有趣的,如果在生活中我们不必对某些事情负全责的时候,每件事情都要发表我的意见。如果你讲的每件事情都要算数,比如答应太太和小孩去动物园,你答应的事情一定要做到的话,就一定要仔细一点、慎重一点。这张图跟大家讲的就是说,如果我们今天即使是Watson或者是任何的问答系统每题必答成功率是不高的,我们做一套系统,每问必答其实很简单,如果做一套系统能够有问有答,选择性的回答,而让它的成功率达到90%是很难的。

包括我们在做业务分析跟优化的时候,其实我们不讲的是业务分析优化的过程,我们更要讲究的是这个业务分析优化的结果,它的结果是不是具备它的价值。其实有的时候质跟量之间是要做一个权衡的,有时候大家知道做量简单,质反而是很困难的事情。同样Watson也遭遇到这么一个场景的问题。

下面跟大家简单介绍一下Watson从接受问题到提出答案大概是什么流程。很简单,问题过来以后,要了解问题,了解问题是很复杂的事情,包括你怎么把自然的语言做一个分析,了解自然语言到底问的是什么东西,以及问的是相关于这个东西的什么特性,这是我们在自然语言处理的一个环节。问题出来以后,从某一个角度来讲,是配对游戏,我们问题产生以后,我们到答案的数据源里面,我们读了有两亿篇文档,我们产生出来的知识库,我们把这个问题和知识库做一个好的匹配,其实这个匹配并不是一个单一的技术,其实里面搀杂着各种不同的技术,有比较表面的这种语言上的匹配,也有从逻辑上的匹配,所以匹配技术是有很多不同的匹配技术的。我刚刚把这个省略掉了,如果这个问题是很复杂的问题的话,这个问题从复杂的问题变成简单的问题,每一个问题上做一个匹配,就是另外一个层次的复杂度。基本的概念就是我们第一个由问题找出答案,但是真正挑战性是说,怎么把这个答案要能够赋予它准确性以及我们的可信度。我们其实有另外一个信息,我们把它叫做数据源,我们有另外一个资料在那里,它其实是充当着怎么提供可信度和准确度的信息,我们取得答案以后,这个答案必须在准确度、可信度的数据源里面经过第二次的筛选和估量,估量完了以后,我们会把刚才讲过的25年这个节目真正在跟大家播出的时候那些年我们学的经验,再用这些经验的累积去做最后的调整而产生出来我们的一个答案。

我讲的很快很简单,其实这整个的过程中,其中我刚刚跟大家提到的,它有很多我们已经开发出来的一个技术,其实在这个项目中,其实我个人觉得非常难的难点是说,我们怎么能够把这一百种分离的分散的技术可以整合在一起,而有一个整合的平台。在我们做很多分析也好,在做信息管理也好,其实很大的一个挑战是在于有这么多不同的形式,怎么能够把不同形式的东西能够放在一起。我们在讲到很多项目的时候,有两个难度:一是量的增加,其实有更大的难度是分散性、复杂性。这个平台,我们做解决方案来讲,其实很不容易做到一点,怎么把不同的技术放到同样的平台上跑起来,其实我跟大家重复一件事情,其实整合是非常复杂的事情,这是我个人的感觉。

我跟大家很快速的走一下,前面提过了,第一个就是说从Watson项目或者从Jeopardy项目来看,第一我们发觉到它的数据量意义数据的形式是海量数据,前面一个演讲人谈到海量数据,第一个人也在讲海量数据,IDC的研究员也在提到海量数据,这件事情完全可以反映在Watson上面,是海量数据。其实不仅仅是海量数据,而海量数据的形态更是一种开阔式的。其实我们讲到我们人类的知识、我们人类的经验大部分在什么形态中呢?还是处于我们的人类自然语言中,我们小孩子成长过程中看书、看电影,听广播,知识的来源绝大部分还是在自然语言环境中,我们不仅有海量的数据,我们怎么把人类真正的知识数据可以掌握住,就是我们对于自然语言的能力。在做Jeopardy项目过程中,我们不仅要处理非常广泛的数据、非常复杂的数据、难懂的数据,我们还要能够说怎么样能够导出这个结论,这个结论是怎么经过人的自然学习而产生出来的高自信度,是一个准确的答案出来。

因为它在跟人竞答,必须在三秒钟把答案讲出来,所以在时间竞赛上Watson完全可以达到这个能力。可是有一件事情Watson竞赛不过人,人去比赛的时候吃两个面包就行了,Watson的竞赛在IBM实验室举行的,里面排了有3000个Core的System 7。这表明我们IT还有很大的空间要进步。

我从这样一个角度跟大家介绍,其实Watson本身就是一个业务分析跟优化的平台,其实大家可以想到,在我们人很多需要做决策的环境中,Watson这个技术不光是帮人做一个以人为本决策的项目,或者是能够有一些项目是能够用机器来执行的,我觉得Watson的前景都是在那里的。我们知道它现在跟一些医药系统中怎么能够帮一些医药系统做一些快速的回答,一些问题,或者很多的客服、呼叫中心,Watson很多的场景都在被推广实施。

我讲了这么多Watson,其实我要讲很多Watson里面的元件,其实都是我们现在在市场上可以买得到的,比如说Watson下面用的庞大的Power 7系统,以及里面很多东西做一些语义分析,做一些大量的资讯搜索工作,其实我们IBM有市场上都可以拿到的元件都可以用的东西。

最后大家如果对Watson有更多兴趣,其实很多网站有详细的资料,其中包括美国很有名的人工智慧网站我们IBM有发表一篇有关于Watson的Paper,就是我们Watson这个项目怎么做过来的,大家有兴趣的话可以上这些网站搜索,得到更多的资料。

我今天跟大家讲了这么多我想法,介绍了Watson,也介绍了企业业务分析优化相关的话题,我的报告就到此为止,谢谢大家。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章