Databricks终止Shark项目转至Spark SQL

近日，Databricks宣布终止对Shark的开发，新的SQL on Spark项目将被Spark SQL代替。在此之外，HIVE-7292项目将是对Hive部分的补充，将Spark作为一个替代执行引擎提供给Hive。

在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。Databricks表示，Spark SQL将涵盖Shark的所有特性，用户可以从Shark 0.9进行无缝的升级。

本次Databricks推广的Shark相关项目一共有两个，分别是Spark SQL和新的Hive on Spark（HIVE-7292），在介绍这两个项目之前，我们首先关注下被终止的项目Shark。

Shark及项目终止原因

About Shark

Shark发布于3年前，那个时候，Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。

Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。

Shark的最大特性就是快和与Hive的完全兼容，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

除去Spark本身的迭代计算，Shark速度快的原因还在于其本身的改造，比如：

partial DAG execution：对join优化，调节并行粒度，因为Spark本身的宽依赖和窄依赖会影响并行计算和速度
基于列的压缩和存储：把HQL表数据按列存，每列是一个array，存在JVM上，避免了JVM GC低效，而压缩和解压相关的技术是Yahoo!提供的。

终止Shark的原因

在会议上，Databricks表示，Shark更多是对Hive的改造，替换了Hive的物理执行引擎，因此会有一个很快的速度。然而，不容忽视的是，Shark继承了大量的Hive代码，因此给优化和维护带来了大量的麻烦。随着性能优化和先进分析整合的进一步加深，基于MapReduce设计的部分无疑成为了整个项目的瓶颈。

因此，为了更好的发展，给用户提供一个更好的体验，Databricks宣布终止Shark项目，从而将更多的精力放到Spark SQL上。

两个相关/替代项目介绍

About Spark SQL

既然不是基于Hive，Spark SQL究竟有什么样的改变，这里我们不妨看向张包峰的博客。Spark新发布的Spark SQL组件让Spark对SQL有了别样于Shark基于Hive的支持。参考官方手册，具体分三部分：

其一，能在Scala代码里写SQL，支持简单的SQL语法检查，能把RDD指定为Table存储起来。此外支持部分SQL语法的DSL。
其二，支持Parquet文件的读写，且保留Schema。
其三，能在Scala代码里访问Hive元数据，能执行Hive语句，并且把结果取回作为RDD使用。

第一点对SQL的支持主要依赖了Catalyst这个新的查询优化框架（下面会给出一些Catalyst的简介），在把SQL解析成逻辑执行计划之后，利用Catalyst包里的一些类和接口，执行了一些简单的执行计划优化，最后变成RDD的计算。虽然目前的SQL解析器比较简单，执行计划的优化比较通配，还有些参考价值，所以看了下这块代码。目前这个PR在昨天已经merge进了主干，可以在SQL模块里看到这部分实现，还有catalyst模块看到Catalyst的代码。下面会具体介绍Spark SQL模块的实现。

第二点对Parquet的支持不关注，因为我们的应用场景里不会使用Parquet这样的列存储，适用场景不一样。

第三点对Hive的这种结合方式，没有什么核心的进展。与Shark相比，Shark依赖Hive的Metastore，解析器等能把hql执行变成Spark上的计算，而Hive的现在这种结合方式与代码里引入Hive包执行hql没什么本质区别，只是把hive hql的数据与RDD的打通这种交互做得更友好了。

About HIVE-7292

HIVE-7292更像是Spark SQL成为标准SQL on Spark项目的补充，首先它是一个Hive on Spark Project，旨在服务已有Hive投入的机构，这个项目将Spark作为一个替代执行引擎提供给Hive，从而为这些机构提供一个迁往Spark的途径，提供一个更流畅的Hive体验。

来源：CSDN

0赞

好文章，需要你的鼓励

Databricks终止Shark项目转至Spark SQL

Shark及项目终止原因

两个相关/替代项目介绍

来源：CSDN

2014

07/03

17:31

分享

点赞

多点数智：当AI重构零售“终局”

多家机器人企业亮相WRC“秀肌肉” NVIDIA Jetson Thor成“标配”

Anthropic CEO：我们每一代模型都赚钱，亏损是因扩展定律，和云不同，模型API业务不会商品化，一亿美金挖人只为几行代码

OpenAI GPT-5突破性安全架构：当AI学会"思考"后如何确保不越界

从 “人工主导” 到 “AI 赋能”：2025 测试行业三大趋势与企业应对策略

EVOLVE 2025｜Cloudera重塑数据底座“基本盘” 加速AI“增长飞轮”

EVOLVE 2025｜跨越数据主权与云弹性 Cloudera“融合三部曲”定义AI转型“四重境界”

ChatGPT-5如何加速人类认知能力的衰退

从TB级数据到智能洞察：真实AI可观测性架构实践

大科技公司AI投资回报差异巨大的原因

高通高管详述汽车、物联网等领域增长计划

ChatGPT重新将4o作为选项带回，因为用户对其念念不忘

Databricks 开源声明式 ETL 框架，实现流程构建加速90%

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

Acceldata 现已具备跨维度检测数据异常的能力

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

SAP业绩超预期：关税未扰业务进程

CIO们必须关注自身数据信任缺口

跨联科技完成大规模数据迁移项目，推出全新分析和安全服务

混合能源系统能否解决数据中心的供电难题？

文化与云计算相结合：Regeneron 的数据驱动之路

Confluent 云业务增长强劲，股价飙升

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

NASA 摒弃 Neo4j 数据库转而采用 Memgraph 节省成本

Ocient 募资 4210 万美元开启高效能运营数据与 AI 工作负载解决方案