IBM PureSystems家族三大成员:PureFlex、PureApplication、PureData
12月初,IBM在北京召开主题为“凝聚专家力,智赢大数据”的2012 IBM PureData发布盛典,正式在中国市场发布针对大数据处理的专家集成系统——PureData。作为IBM PureSystems家族的第三位成员,PureData Systems又包括了事务系统IBM PureData System for Transactions、分析系统IBM PureData Systemfor Analytics和运营分析系统IBM PureData System for Operational Analytics。可谓三枪又三枪,三枪无处不在……
IBM全球副总裁兼IBM中国开发中心总经理王阳与IBM全球副总裁兼IBM软件集团大中华区总经理胡世忠现场发布PureData,中西结合的画面颇有三枪神韵
顾名思义,PureData System for Transactions是典型的OLTP系统,相对而言,属于Power的长项,不过从目前公布的配置来看,其硬件配置还是基于x86的IBM Flex System x240计算节点。
三款PureData System的应用领域定位
至于分析系统,正如IBM软件集团大中华区Netezza销售总监肖冰先生所言,目前大家看到的所有业界主流的数据仓库的产品,全都是基于X86的硬件,就是说MPP这种海量运行处理,至少在业界都认为以x86去做可能会比较适合。PureData Systemfor Analytics源于IBM收购的Netezza,保留了利用FPGA加速数据处理(如硬件压缩)的特点,性能则得益于配置升级有了明显的提高。文思海辉技术有限公司高级副总裁王闯舟先生在发布盛典上,着重介绍了该公司使用PureDataSystemfor Analytics的情况。
IBM软件集团大中华区Netezza销售总监肖冰
他表示,金融行业目前还是以结构化数据为主,文思海辉做了三个基于Pure Data for Analytics的系统,其中一个处于最后的开发测试阶段。两个已经投产上线的情况来看效果都不错,充分体现了Netezza和PureData for Analytics非常好的性能。从客户体验来讲,他觉得有两方面的好处,一是让科技人员能够从原来繁重的体力劳动中解放出来,不用花大量时间做维护,花 大量时间去开发应用,满足业务部门的需求,让他们从繁重的这些劳动中解放出来,更多精力用在和业务人员互动,更好地支持业务人员;二是以前很多事情做不 了,现在都能做了,让这些金融机构对他们所保有的海量数据的存储、使用到了一个新的高度和新的宽度。
文思海辉技术有限公司高级副总裁王闯舟在大会上的主题演讲很有价值
PureData System for Operational Analytics基于IBM引以为傲的Power7加AIX组合,能够同时为1000多项经营项目提供可执行的洞察,实时支持决策的制定。运营分析型数 据仓库系统可在信用卡处理过程中监测欺诈行为、为呼叫中心提供客户情况洞察,同时还能对电能和其它公用资源的供需变化进行的跟踪和预测,兼具OLTP和 OLAP的特征。
三款PureData System的主要亮点,特别是站在Netezza技术肩膀上的PureData System for Analytics
在 一体机的市场中,Exadata一直宣称可以同时满足数据库(OLTP)和数据仓库(OLAP)应用的需求,虽然以前者为主,后者由Exalytics作 为补充;SAP HANA主要是OLAP应用,但也在考虑加入OLTP能力。对于这个混合工作负载的问题,肖冰承认用户的场景可能不会像我们所看到的那么绝对,绝对的 OLTP交易系统,或者绝对的分析系统,有时候是一种所谓的混合负载,这种情况确实很多。所以IBM也针对用户的需求,分了这三种情况,希望能够在最大程 度上满足客户的需求。他认为可以拿车来做比方,无外乎几种,一种是追求轿车的舒适性速度,另外是希望有一辆卡车能够装载、拉东西。我们现在看到很多跨界 车,既希望有轿车的舒适和速度,也希望底盘比较高,有一些越野的性能,还希望后备厢比较大,能够装东西。跨界车意味着它是一个多面手,但是它装的东西一定 比不上卡车,跑得速度一定比不上轿车,安全性因为底盘太高,也不如轿车,所以用其他的办法,比如做车身的加固,加安全的保证,这个比方用在数据系统里面其 实是非常适合的。现在用户也越来越聪明,知道想要的是什么,要的就是交易系统IBM有PureData for Transaction,要的就是分析系统有PureData for Analytics,如果有的时候确实需要混合工作负载,也有PureData for Operational Analytics。所以他认为与场景是非常关联的,如果不考虑到场景的问题,去买一个大而全的东西,会发现在做某一个特定事情时不如买特定的东西来得快 和实在。
PureApplication与PureData在大数据应用中的分工
可能有细心的读者已经发现,本次PureData发布的主题之一是大数据,但三款系统面向的仍是相对传统的数据库/数据仓库领域,与大数据倡导以非 结构化数据为主的广泛宣传颇不重合。在私下与肖冰探讨时,他也承认,虽然Netezza的技术可以做到10个机柜的规模,在MPP系统里算不小了,但与 Hadoop能达到的数据量级还是有很大的差距。所以PureDataSystemfor Analytics也是与Hadoop相结合的方式,可以对Hadoop加工筛选过的数据进行分析挖掘。他认为,结构化的数据,大量的复杂的查询、数据库 的多表关联,可能Hadoop未必是最好的方式,MPP海量并行处理的架构可能是集成环境处理效率会更高些。
IBM明确指出,PureData在其大数据平台中的角色是数据仓库,与Hadoop系统与流计算协同工作
具体到Hadoop领域,IBM既没有像EMC等存储厂商那样,推出以共享存储代替HDFS分布式存储的方案;也不像Oracle,直接把Cloudera的Hadoop版本集成到其Big Data Appliance(BDA,大数据机)中去。在我个人看来,Hadoop倡导廉价硬件分布式的体系不适合IBM Style的硬件,既然IBM也无意以自己的硬件替换,那么把注意力集中在软件上,是比较符合其总体状况的。
IBM InfoSphere BigInsights是IBM管理和分析Internet级别数据量的半结构化和非结构化数据的“强大易用”方案,基于开源Apache Hadoop的框架实现。InfoSphere BigInsights在此框架上增加了IBM独特的管理能力、工作流、安全管理等技术,并融入了IBM研究实验室的的数据分析、机器学习技术以及文本数 据分析挖掘。所有的这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。IBM强调BigInsights并不是对数据仓库的替换方案,而 是对传统数据仓库(如Netezza)的一种补充和延伸,整体构成一个更广义的Internet级别的海量数据仓库。这也与之前肖冰的解释相吻合。
流计算是IBM在大数据领域经常谈到的一个话题,其Streams计算软件是一个突破性的移动数据分析平台。流计算动态收集多个数据流,使用先进的 算法来提供近乎瞬时的分析。在传统的数据分析策略中,数据被收集到一个数据库中,并被搜索或查询答案,流计算颠覆了这种策略,可用于需要立即作出决定的复 杂动态情况,如预测疫情的蔓延或监测早产儿的条件变化。
简而言之,现在已有的三款PureData Systems,主要被IBM定位为大数据时代的分析处理引擎,整个图景还需要其他拼图的辅助才能够实现。