扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:赵效民 来源:ZDNet软件频道【原创】 2012年7月29日
关键字: 公有云 BI 数据挖掘 Hadoop windows Azure SQL Server 2012 微软 大数据
ZDNet至顶网软件频道消息(文/赵效民)自从人类诞生的那天起,就已经与“数据”建立了不解之缘,从某种角度说,人类文明的进步与发展,基础就在于对数据的掌握和利用上,为此人类一直在不断的强化相关的科学体系,发明、创新出越来越多的工具以为人类管理数据、探索数据背后的秘密所用。比如,数学就是一个非常典型,也是最基础的“数据工具”,计算机更是在此基础上衍生而出的。而随着人类文明与技术手段的不断演进,我们渐渐发现可收集到的、可挖掘的数据越来越多,它们纵横交错,看似繁杂无序,对它们的梳理也反过来成为人类发展的必经之路。正因为如此,也就有了近年来火热的“大数据”趋势,无论你认为它只是一个噱头,还是觉得真有新意,有一点是应该是达成共识的——数据的重要性已经毋庸置疑,人类社会发展的一些重要规律,一些潜在的创新与发明往往就蕴含在这浩瀚的数据海洋深处,谁更早的发现它们,就相当于在深海里发现了丰富的石油资源,这对于企业乃至国家都是有极重要的战略意义。
如果你仍然持不同意见,就请想想看,其实这些石油一直在海底的某处等着你,可原始人没有这个能力知道它们在哪,而现代人只有在掌握先进的深海探油与开采工具,才有可能获取到这些宝藏。再比如,人类对于存在历史远长于人类本身的微生物的研究,也要依赖于显微工具——是它让我们“发现”了其实一直就在我们眼前的数据。“大数据”则正是在IT处理领域与之相对应的写照,它是我们面对越来越丰富、容量越来越大的数据时,所必需的工具。
如今在这个市场上,已经有越来越多的厂商在推出自己的大数据解决方案,它们以自己的擅长和对大数据的理解,不断的丰富市场的选择,而在这其中,几个业界巨头的动态值得关注,尤其是在传统数据库市场上的巨头们,它们掌管着传统类型的数据,面对新的应用环境、新的应用理念所产生的新数据时,它们如何“承上启下”的应对,将是客户非常关心的。这方面,传统数据库三巨头的Oracle、IBM均已亮剑,微软又将如何把自己的影响力拓展到大数据领域呢?不久前,在北京举行的“大数据论坛”上,微软清晰的阐述了自己的大数据战略。
微软眼中的大数据与端到端解决方案
微软亚太研发集团首席技术官孙博凯(Parkash Sundaresan)
微软公司的与会嘉宾——微软亚太研发集团首席技术官孙博凯(Parkash Sundaresan),首先给出了微软对大数据的定义。从这一点可以看出,它与主流的声音相一致。如果回到本文开头,有关大数据噱头的言论就在于对大数据本身的理解。噱头派认为大数据哗众取宠,与传统海量数据的说法并没有本质上的不同,不过如果细看微软的分类,可以感觉到,相对于传统海量数据时代的宣传,大数据明显是与时俱进的。而对于这类新类别数据的采集与挖掘,其实都是大数据的范畴,就这一点来说,我认为大数据不是噱头,这是对传统海量数据的一种必要的加强与完善,认为它是噱头的言论,在我看来更像是一个噱头。
微软对大数据的定义
孙博凯表示,传统的数据基本在企业封闭时代产生,比如企业自己经营所需的应用,而到了网络时代,企业的经营已经越来越离不开网络的支撑,这时大量的网络数据与企业经营相关,而今天则进入了一个互联互通的世界。各种类型的数据都可能是企业所需要的,它们之间融汇贯通,在带给企业意想不到的收益同时(比如结合位置数据,提供定制化的产品与服务),也给企业内部的数据收集、整合、分析与呈现提出了严峻挑战——而正是大数据时代所要面对和解决的。
对于数据信息的交叉应用将给企业的经营带来现实的好处,但企业也必须拥有与之对应的大数据能力
那么微软能做什么呢?孙博凯表示,结合对大数据本身的认知和微软自身强大的产品组合,微软可以为用户提供一个端到端的大数据解决方案。简单来说就是后端以新一代SQL Server 2012为基准平台,将大数据管起来,然后在中端以数据集市为依托,配以丰富的数据应用,最后在前端以丰富的界面形式展现数据分析的结果,完成数据的汇总——应用与分析——结果呈现的完整流程。
微软端到端大数据解决方案的三层组合
大数据平台:SQL Server、Windows Azure与Hadoop
接下来,孙博凯开始分层详细微软大数据的相关解决方案。首先,为帮助企业快速采用其大数据解决方案,微软将同时在微软 Windows Azure 平台和 Windows Server 上提供 Hadoop(在前者上用作基于云的服务,在后者上用作内部部署的分布)。对于Hadoop,我相信很多人对其已不再陌生,这次微软采用Hadoop有着重要意义,由此也能看出微软在一些观念上的改变——不再强调完全的自主,而是以更开放的姿态拥抱业界的趋势,并与其积极互动。孙博凯强调,微软与Hadoop社区之间并不仅仅是简单的采用者的关系,而是会将微软的专业技能回馈至社区中。目前,通过与Hortonworks 通力合作,微软已向Apache提交了首份提议,并且正在拟定有关适用于Hadoop的新JavaScript 库(可简化Hadoop的编程)、由 Microsoft 开发以及Hive ODBC Driver(可让客户使用 SQL Server 数据挖掘工具对Hadoop Hive数据库执行预测分析)的深度提议。
SQL Server 2012的目标在于将三种类型数据进行全面而安全的综合管理
作为老牌的关系型数据库,SQL Server在2012版里将自己变成了一个“数据管家”,传统的数据应对关系型数据,而不断增多并越来越重要的非关系型数据(对应非结构化数据)则由Hadoop集群来承担,虽然Hadoop也完全可以应对关系型数据,但孙博凯认为在综合性能、优化程度与生态环境方面,传统的数据仓库仍有较大的优势,所以Hadoop在SQL Server 2012中的作用就是处理非关系型数据。另一数据则是实时的流数据,这方面将由StreamInsight负责。
SQL Server 2012与Hadoop
孙博凯非常强调了Hadoop的作用,作为当今最流行的开放式大数据基础处理架构,在面对微软传统的企业级产品组合时,将会有怎样的变化,一直是业界关心的问题。如今水落石出——微软将推出自己的Hadoop版本,以强化其与自身强大的企业级产品组合之间的关联。孙博凯表示,最重要的是Hadoop将与Windows Server 2012、SystemCenter 2012进行无缝的集成,因此微软的客户可以很方便的部署与管理Hadoop集群,并为SQL Server所用。尤为重要的是,借助于Windows Server 2012本身的高可用性设计,将能有效解决Hadoop集群在可用性与可靠性方面的传统弱项,比如NameNode的单点故障等。不过,我更好奇的是在Windows Azure平台上的Hadoop应用,它是基于虚拟平台来提供的吗?“没错”,孙博凯微笑的回答到,“Windows Azure平台上提供的Hadoop服务,其后台的集群都是部署在Hyper-V虚拟机之上的。”,“Hadoop集群对性能很高,但虚拟化一般会有10-20%的性能损耗呀,”我追问到。“你说的没错,但是虚拟化所带来的灵活性往往更重要,尤其是以一种服务来提供给用户的时候,而且在Windows Azure上面,因为它现在每一个节点本身都有备份,所以在Windows Azure,包括Name Node实际上都是在一个高可用的虚拟机上。”孙博凯笑着表示,“不过,现在只是Beta版,我们会尽快的完善我们的后台设计,为用户提供更佳的体验,当然还包括尽快的在中国落地,以更好的为中国用户服务。”
谈到中国市场,孙博凯着重表示,“我们现在非常努力的把Windows Azure进中国的这件事情落实,其中有很多步骤我们要做,比如说前不久我们有三十多个非常重要的中国客户,跟我们分享了他们对Windows Azure上面的一些期望和需要。微软已经承诺,未来Windows Azure在中国落地的时候,他们的应用也会在Windows Azure上来运行。现在这些用户的很多应用开始使用香港或者是欧美或者其他地区的数据中心,开始做迁移。一旦Azure进中国,他们可以马上运行;另一方面,也是有很多的软件提供商、服务提供商,如果他们要做全球的扩展的时候,可以使用Windows Azure国外的数据中心,这是也是已经有很多这样的例子。Azure本身我们也是在紧锣密鼓的来做这些工作,所以我们应该会很快做一些落实。”
接着,他进一步强调了虚拟化与Hadoop结合是大势所趋。“我们的客户,整个业界客户的反馈都是他们希望能够用虚拟化来管理他的数据中心,也希望他所有的工作负载都能够在虚拟化的环境上来运行,但是在很多场景上客户现在还有一些考虑,特别是在性能占绝对多数,由于虚拟化带来的性能的降低,这个时候可能会选择不使用虚拟化的技术,但是他本身还是希望用到虚拟化,”他表示,“从整个市场来看,我们现在看到虚拟化的环境增长率远远超过了实际物理机器的增长率。而从Hadoop的角度来说,Hadoop的提供商就应该考虑到他的产品能够在虚拟化的环境上运行,而且能够尽量的在这个环境上运行得最好。这也是Hadoop厂商需要做的一件事情。”显然,微软在这一趋势中占据了上风。
微软与Hadoop之间的关系,可以感觉到微软在这一领域开放与积极的态度
为了明确产品之间的关系,避免不必要的误解,孙博凯表示,SQL Server将会与Hadoop有紧密的集成,微软将在Windows/ Windows Azure中包含Hadoop功能。
大数据应用:微软数据集市
Windows Azure上的数据集市,将为用户提供一个良好的用户集成与应用环境
在以SQL Server 2012构建的数据管理层之上的就是数据应用层,在这里微软借助其强大的业界影响力,在Windows Azure的数据集市上为用户准备了丰富的选择。孙博凯表示,Windows Azure上的集市主要针对的是商业的用户,其中主要一个目的就是把第三方解决方案提供商、服务提供商或者是模块提供商和最终的商业用户联合在一起,建起这样一个联系。“现在,我们在这个基础上,又延伸出一个数据集市,这个目的也是同样提供这样的一个连接或一个平台,让数据的拥有者可以把他的数据提供发布到这样的数据集市上,让用户可以通过微软发布的一些非常简单可用的API或者工具,把这些各方面提供出来的数据整合到他的环境里来做他需要的应用。”孙博凯介绍到,“再说的详细一点就是数据集市这个里面可以帮助应用开发商能够非常简单的把数据整合在一起。我们举个简单的例子,如果说晚上我准备出去吃一顿晚饭,然后去看一场电影。这里面可能我会需要非常多的信息,比如说饭店的排名,星级或者是它的价位、它的地理位置等等,同样我想看什么电影,这个电影本身的信息,它的评级或者是哪一个电影院有这个电影,甚至于它是不是有票。在北京可能交通非常拥堵,可能我还需要考虑这个线路怎么安排,是不是有实时的交通信息帮助我把整个事情安排好。那么,整个这个应用对一个消费者来说是很简单的一件事情,但是从一个应用开发商来说,他要整合非常多的信息,数据源。我们希望看到的一个场景是中国数据集市,所有的数据源都可以在上面有发布,对应用开发商来说可以简单的把这些数据整合在一起,然后把整个服务提供给用户,这是我们看到的这样一个场景。”
孙博凯强调,“我们看到这个是帮助整个生态链一个共赢的方式。从数据提供商来说,传统的数据,自己的数据,在这个场景下这个数据可以帮他产生价格。对于应用服务商来说,传统的、非常困难的、非常繁琐的数据的整合,现在通过这样一个集市,他可以非常简单的把不同的数据整合起来,对最终的用户来说,本来可能需要做不同的查询,现在在一个应用上可能就可以实现。”当然,数据的安全性非常重要,这也是数据应用得以长期可靠的运行,并被越来越多用户所采纳的根本保证。“数据的隐私保护我们也是考虑到选择,对数据提供商来说,他的选择是他可以把这个数据放到Windows Azure的平台上,在这种场景下,微软会用Windows Azure的机制来保护这个数据的安全性和隐私性。”孙博凯表示,“同样,数据提供商也有一个选择,他可以自己走他自己的服务,这个数据还是在他的环境里面,他发布到这个数据集市只是数据服务的API连接,当用户集成通过这个数据集市集成这个数据的时候,具体的使用实际上是通过Windows Azure数据集市转向到自己的服务器,在这种场景就是服务提供商负责他自己数据的安全和隐私,我们会提供这种选择。”
大数据价值呈现:与微软BI、Office的无缝结合
通过与微软现有的商业智能(BI)平台与非常知名的协同、呈现工具(如SharePoint、Excel、Power View、PowerPivot等)无缝结合,可以将大数据更好的可视化,让数据中的“金矿”更为耀眼可见,这可以说是微软在大数据领域里的一个重要优势
对数据的应用结果进行有效跟踪并展示,在此基础上让业务或决策人员有的放矢的作出调整与部署,是大数据推动企业发展与变革的最后一环,而在这方面,通过微软基于 Hadoop 的新分发版本,客户可以从几乎任何规模的结构化和非结构化数据获得业务洞察力并应用新型数据,而无需考虑其具体位置。Hadoop 的丰富洞察可以与微软商业智能(BI,Business Intelligence) 平台无缝结合,使客户能够借助微软Office 和 SharePoint 等熟悉的工具使用公用数据和服务丰富他们的模型。
现场演示的Power View画面,这是一个模拟汽车销售数据分析的数据展示,可以即时调取不同车型对应的不同时间段、地区里的销售态势,图形化的视觉呈现,极有有效的提高了用户对“数据”的解读能力
孙博凯表示,“新一代Power View是随着SQL Server 2012一起发布的,这边值得提一下,就是SQL Server 7.0就开始集成BI的分析工具,分析能力。微软的目标是把这些商业智能能力带给广泛的用户,同时让它非常简易,简单可用,把分析报表这些功能集成在一起,通过用户非常熟悉的工具,比如说Excel,比如说和SharePoint门户相集成,直接可以反映到用户经常需要的演示的载体PowerPoint这些产品结合在一起。刚才我们看到的Power View的演示实际上最新的研发成果,那么,它是提供了基于Web的这样一个非常有互动性的实时分析工具,而且它的性能是非常强,可以处理高达TB级的数据。”
微软大数据:从数据到工具到最后产生的价值
微软大数据产品与方案组合
在最后,孙博凯对微软的大数据整体解决方案进行了总结,并强调了其在市场上的竞争优势。“首先,微软这个平台看到的不光是数据,我们看到的是一个全方位的对数据的管理、处理, 最终的目的是从这个数据中得到价值,得到信息。整个从微软一系列的平台上对关系性数据、非关系性数据,不同数据种类的整合,能够提供一个高性能、扩展性的平台。”孙博凯表示,“其次,更重要的是微软能够提供一个高安全性的平台,在这个基础上,能够帮助用户让这个数据更有价值,同时可以连接他的数据到一个广泛的数据世界,刚才谈到的数据集市,在这个基础上,帮助大数据取得实际上的商业的应用,最终目的在大数据中是要对这个数据非常深刻的洞察,这是大数据的目的,而不是光光把大数据作一个存储。这里面很重要的一点就是微软在这个大数据平台上,不光有一个全方位的对数据本身的考虑,同时也是通过用户熟悉的工具,能够对这个数据作出使用,这是微软一个非常特定的位置,一个特别的战略地位。”
孙博凯总结到,“这就是我们就全方位的考虑,从数据到工具到最后产生的价值!”同时,他结合多年的经验提出了自己的观点,“我在这个行业里已经做了差不多20多年,一直在数据,也看到一个现象,就是每几年就会一个新的技术出来,往往这个技术会号称把以前所有的老技术都取代,比如说以前我们谈到的通用数据库,或者是后来的非关系型数据数据库等,但是实际发生的状况是这些新的技术被整个这个行业融合整合,把老的技术整合在了一起,比如说,变成了数据库中的一部分,但是老的数据库并没有消失。”他最后强调,“最关键的一点就是很多的企业有老的,已经既有的投资,既有数据库、既有的数据、既有的价值观,他不可能把以前的投入都抹杀,他一定会融入。那么,技术一定是跟着业务来走的,所以我们对新的技术的看法是它会很好,但是它不会把以前的技术抹杀,它会和以前整合、融合。而这将是微软大数据解决方案带给用户的最终理念与实践!”
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者