扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网软件频道消息 (文/蒋湘辉)6月2日,在上海举办的“揭秘Watson大脑的智慧”论坛上,参与沃森(Watson)计算机研发的IBM中国研究院信息分析首席科学家潘越,总结了Watson在2月中旬美国智力抢答节目的人机大战中获胜的四大法宝:一是快速比对2亿页的文本数据(相当于100万本书);二是综合了100多种算法;三是重温了20多年来该节目的所有题目;四是Power7服务器和IBM信息管理软件整合后在工作负载优化系统和大数据管理方面性能强大。
图注:IBM中国研究院信息分析首席科学家潘越揭秘人机大战沃森获胜之道。(蒋湘辉 摄)
快速比对两亿页文本数据
作为一台知识渊博的计算机,Watson收集了相当于100万本书籍的约2亿页的文本数据,存储在500GB的磁盘阵列中。Watson收集了目前所有的维基百科页面、历年的纽约时报、各类百科全书、字典和辞典、以及各行业的数据库(如地理、生物、新闻、经典文献等)。
不过,100万本书在数量上和很多大型图书馆相比并不多,500GB的容量和很多大企业的数据仓库规模相比还很小,Watson如何选择这两亿页的知识呢?潘岳告诉ZDNet记者,“我们搜集的知识库容量肯定大于两亿页,但IBM会针对知识文本进行比对,通过测试保留了实战效果最佳的知识库。”
根据《危险边缘》的要求,Watson需要在3秒内处理海量并发任务和数据的同时实时分析信息分析数以百万计的信息碎片,并且根据它寻找到的证据提供最佳答案。
IBM使用了集成结构化和非结构化数据处理的数据仓库平台——InfoSphere BigData Warehouseing,通过实时访问Big Insights hadoop和数据仓库中的数据,帮助Watson快速分析不断变化的数据格式和类型,获得新的相关数据和结论。
如何让100多种算法不打架?
Watson使用了IBM的DeepQA以及InfoSphere BigData Platform等数据挖掘软件,这些软件涉及了100多种算法,如果加上一些被淘汰的算法多达几百种。”潘越向ZDNet记者透露,“用到这些算法并不难,难的是让这些算法之间不打架。“我们最终用实战的方法来解决这个问题,正式的答题比赛前,Watson使用了不同的算法进行了演练测试,最终保留了效果较好的算法。
潘越透露,和上次国际象棋的人机大战相比,国际象棋的规则定义非常明确,而人的自然语言,完全是开放式的,往往很模糊,需要上下文才能理解,这对算法提出了更高的要求。
重温20多年节目题型
Watson参加的Jeopardy!(《危险边缘》)节目堪称美国历史上最受欢迎的智力问答节目:1984年推出,至今已获28次艾美奖(美国电视界的最高奖),在游戏类节目的尼尔森排行榜上,位居榜首达1000个星期,并作为获得最多奖项的游戏类电视节目,载入吉尼斯世界纪录。
Watson的两个对手都是《危险边缘》史上的传奇人物:肯·詹宁斯曾连续74场赢得比赛,奖金总额超过250万美元,破了美国电视游戏节目获胜场次的纪录;而布拉德·鲁特尔是参加《危险边缘》的选手中获最高奖金者,在2002年和2005年的比赛中,共拿到奖金近330万美元。
潘越表示,Watson重温了20多年来《危险边缘》的所有题目,对这些题目的风格已经有了较好把握。
Power服务器并非最强配置但已够用
Watson的硬件配置为10组Power 750服务器,2880核的CPU,16TB内存。操作系统方面则配置了SUSE Linux Enterprise Server 11。
潘越表示,“750并不是Power系列中最强的机型,但根据我们测试的结果,这样的配置在智力抢答这个游戏中战胜人类已经够用了。”
图注:IBM相关专家在演讲中表示,Power服务器的每CPU核的TPCC性能处于业内领先水平。
医疗保健将是Watson技术在国内的推广重点
Watson代表了IBM在技术研发领域的最新成果,Watson所展现出的IBM在业务分析和优化方面的能力,正在被应用到众多的行业领域,例如:医疗诊断,处理在线技术方面的问题,分析大量的法律文件等。
潘越表示,“IBM并不是要在各行各业卖Watson这台机器,而是要把Watson所展现出的业务分析和优化方面的能力应用到各行各业。具体到国内而言,医疗保健将是Watson相关技术在国内的重点推广行业。”
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者