ZD至顶网软件频道消息: 微软在数据世界有一项棘手的工作。一方面,它正在使用的内部部署SQL Server关系数据库业务有25年的历史,该公司需要保持这个有利可图的业务的相关性和稳定。另一方面,随着公司向云端转移,它需要提供关系型OLTP、数据仓库、NoSQL、大数据和机器学习技术。它需要让它们成为可信的产品,同数据和分析世界中的许多创业企业竞争对手的产品相比具备竞争力。
微软还需要让所有这些技术能够被开发人员使用,包括其.NET开发人员的核心成员,以及那些使用Java、Node/JavaScript、Python和一大堆其他编程平台的人员。这不是一件容易的事;相反,它是一项需要平衡和精细的工作。这两个特点都在上周加利福尼亚州圣荷西的Strata + Hadoop World活动上体现出来了,微软当时发布了一些和数据相关的公告。
微软在Strata上宣布的事情是否能应对该公司面临的挑战呢?让我们看看这些内容,看看我们是否能够做出一些判断。
Hortonworks通过HDInsight实现云优先战略
首先,让我们来看看HDInsight,这是微软的云Hadoop/Spark大数据核心产品。首先,微软宣布,HDInsight所基于的Hadoop的Hortonworks Data Platform(HDP)的新版本现在首先面向HDInsight推出,然后Hortonworks才会将其发布到Hadoop市场上。从现在开始,随着HDP 2.6被并入HDInsight,这和之前HDInsight使用HDP的版本,背后有一两个版本的更新的情况有了巨大的变化。
通过合并HDP 2.6,HDInsight现在还将包括Spark 2.1。由于HDInsight适用的99.9%的正常运行时间服务水平协议(SLA),微软表示它提供的唯一的Spark 2.1服务也具备该级别的正常运行时间保证。为了很好地测量,HDInsight 的这个版本中也包含Apache Kafka,还有Spark Structured Streaming/Kafka集成。事实上,微软也正在提供Spark与其自己的Azure Event Hubs流平台之间的集成。
安全性和笔记本
构建在HDP 2.6上的HDInsight意味着Apache Ranger基于角色的访问控制现在扩展到Hive LLAP("Live Long and Process")和Spark。受到数据科学人群欢迎的Apache Zeppelin笔记本也随之而来。LLAP--有时被微软称为"交互式Hive",在性能方面与Spark SQL相比具有竞争力,而微软也为此付出了努力。因此,微软希望使用Zeppelin的人们能够访问这两个SQL-on-Hadoop平台的想法就一点也不奇怪了。
自从收购了Revolution Analytics之后,微软也是研发冠军。因此,为了实现这个目标,Jupyter--另一个主要的数据科学笔记本平台,现在将访问那些集群配置包含的R Server for HDInsight版本。
外部集成
在Zeppelin/Jupyter笔记本的世界之外还有很多开发人员,而微软也需要争取他们。该公司也不会令他们失望,因为它现在为自己的Visual Studio集成开发环境(IDE)以及开源IDE Eclipse和IntelliJ提供HDInsight工具。
第三方产品怎么样?现在,Dataiku和H20.ai自己可以跟着HDInsight集群的自动配置进行自动配置,加入了Cask、StreamSets和我的雇主Datameer的支持与HDInsight的这种集成的供应商俱乐部。除此之外,微软Power BI,以及竞争对手Tableau、Qlik和SAP Lumira现在支持查询客户端以对抗Spark on HDInsight。
到目前为止的情况
还有一个公告要讨论,但首先让我们先看看另一个我们想要强调的微软公告。微软继续进行Hadoop平台现代化,现在已经超出了内部部署可用性;企业级SLA和安全性是其中的一部分;所以对于Spark、对于Hive LLAP和R是数据科学笔记本支持;开发工具继续享受更紧密的集成;第三方数据科学和商务智能工具也是如此。
这意味着大数据纯粹主义者、数据科学家、企业IT和企业开发人员群体都在适应。这里有很多技术"亚文化"要汇集、管理,并在某种意义上汇集在一起。这正是微软为了在所有方面取得进展而需要做的事情。
SQL
但是数据库世界呢?NoSQL和关系型数据库并存?记住,它们也在名单上。首先,微软为即将到来的SQL Server版本(现在被称为"vNext")发布了社区技术预览版(CTP)1.4。这是一个能够在Linux和Windows上运行的版本,CTP适用于这两个平台。而且不要忘了SQL Server包括像PolyBase和R Server这样的技术,将其绑定到大数据和数据科学世界之中。
这些跨越技术、跨越代际的联系也是非常重要的,因为微软需要提供进入其整个数据堆栈的入口点,不管某一位专家可能专门精于该堆栈的哪一部分。
还有NoSQL
本着这种精神,微软已经在Spark(HDInsight以及其他版本)和自己的NoSQL数据库DocumentDB之间创建了本地集成。 Spark Connector for DocumentDB用一种不平凡的方式实现了这一点:连接器支持"谓语下推",这意味着当Spark查询DocumentDB时,它也会将执行该查询的工作委托给DocDB本身。这种做法最大限度地提高了效率,并最大限度地减少了数据移动。我看到过Spark-to-DocDB查询在具备和不具备谓语下推情况下运行的比较,相信我,这种做法也有助于提高性能。
DocumentDB可能是微软自己的NoSQL数据库,但Spark连接可以打开它。它与MongoDB API的兼容性也是如此,允许它作为该产品的替代品,与使用它的应用程序兼容。鉴于Mongo在开发人员中普及情况,此举可以被视为另一个开发人员推广计划,并且作为微软服务于尽可能多的数据和分析生态系统的另一种表现形式。
所有好的行为都会受到惩罚?
如果在所有这一切都有一个令人担忧的部分,这是微软还能用什么再来一次漂亮的返场。跨平台、技术和数据访问范式的这种程度的增强是否可持续?甚至这些做法是否是明智的?
作为一个在职业生涯中绝大部分时间里都在和微软打交道并观察这家公司的人,我想说:我并没有看到这家公司在做现在这些事情上全力以赴,它创造了一个循环,我认为这种循环是良性的。
当然,公司会很好地评估这是否继续是最好的前进方向,以避免倦怠或摊子铺得太大。不过,现在这种方法不仅是有效,而且还激励了合作伙伴、第三方ISV,而且最重要的是激励了微软内部。进步正在带来更多的进步,这句古老的谚语正在发挥作用。微软现在最不应该做的事情就是拔下插头。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。